このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230920となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# Poster: ローエンド組込みデバイスにおける制御フローの整合性
Poster: Control-Flow Integrity in Low-end Embedded Devices ( http://arxiv.org/abs/2309.10396v2 ) ライセンス: Link先を確認 | Sashidhar Jakkamsetti, Youngil Kim, Andrew Searles, Gene Tsudik, | (参考訳) 組み込み、スマート、IoTデバイスは、日々の多くの設定でますます人気がある。
ローエンドデバイスは最も厳しいコスト制約があるため、セキュリティ機能が少ない傾向にある。
これにより、エクスプロイトやマルウェアの魅力的なターゲットとなる。
以前の研究では、Remote Attestation (RA)を通じてリソース制限されたデバイスに対するセキュリティ特性を強化するための様々なセキュリティアーキテクチャが提案されていた。
このような技術は、リモートデバイスのソフトウェア完全性を(静的に)検証し、妥協を検出することができる。
しかし、CFI(Control-Flow Integrity)を通じて実行時の(動的)セキュリティを実現するのは難しい。
この作業は、ROP(Return-Oriented Programming)のような実行時の攻撃に対して、ソフトウェア実行の完全性を保証するアーキテクチャを構築する。
それは、ソフトウェア不変性を保証する低コストのアクティブなRoot-of-Trust(RoT)であるCASUの上に構築されている。
私たちはCASUを拡張してシャドースタックとCFIモニタをサポートし、実行時の攻撃を軽減します。
これにより、ハードウェアオーバーヘッドが最小限であるローエンドデバイスでもCFIが実現可能であるという確信が持たれる。
Embedded, smart, and IoT devices are increasingly popular in numerous everyday settings. Since lower-end devices have the most strict cost constraints, they tend to have few, if any, security features. This makes them attractive targets for exploits and malware. Prior research proposed various security architectures for enforcing security properties for resource-constrained devices, e.g., via Remote Attestation (RA). Such techniques can (statically) verify software integrity of a remote device and detect compromise. However, run-time (dynamic) security, e.g., via Control-Flow Integrity (CFI), is hard to achieve. This work constructs an architecture that ensures integrity of software execution against run-time attacks, such as Return-Oriented Programming (ROP). It is built atop a recently proposed CASU -- a low-cost active Root-of-Trust (RoT) that guarantees software immutability. We extend CASU to support a shadow stack and a CFI monitor to mitigate run-time attacks. This gives some confidence that CFI can indeed be attained even on low-end devices, with minimal hardware overhead. | 翻訳日:2024-03-19 04:20:31 公開日:2023-09-20 |
# 量子コンピューティングにおけるトロイの木馬分類
Trojan Taxonomy in Quantum Computing ( http://arxiv.org/abs/2309.10981v1 ) ライセンス: Link先を確認 | Subrata Das, Swaroop Ghosh, | (参考訳) 量子コンピューティングは、カスタマイズされた脅威モデルを要求する不慣れなセキュリティ脆弱性を導入する。
ハードウェアとソフトウェア トロイの木馬は古典的なパラダイムを再考する必要に迫られている。
本稿では,量子情報システムに適したトロイの木馬の最初の構造分類法を開発する。
ハードウェアからソフトウェア層まで、量子スタック全体の潜在的な攻撃ベクトルを列挙します。
量子トロイの木馬型とペイロードの分類は、信頼性の低下、機能の破損、バックドア、サービス拒否など多岐にわたる。
量子トロイの木馬の背後にある敵のモチベーションを解析する。
多様な脅威を統一的な視点に統合することにより、この量子トロイの木馬分類は、この新しいコンピューティングパラダイムのためにカスタマイズされた脅威モデリング、リスク分析、検出メカニズム、セキュリティベストプラクティスを導く洞察を提供する。
Quantum computing introduces unfamiliar security vulnerabilities demanding customized threat models. Hardware and software Trojans pose serious concerns needing rethinking from classical paradigms. This paper develops the first structured taxonomy of Trojans tailored to quantum information systems. We enumerate potential attack vectors across the quantum stack from hardware to software layers. A categorization of quantum Trojan types and payloads is outlined ranging from reliability degradation, functionality corruption, backdoors, and denial-of-service. Adversarial motivations behind quantum Trojans are analyzed. By consolidating diverse threats into a unified perspective, this quantum Trojan taxonomy provides insights guiding threat modeling, risk analysis, detection mechanisms, and security best practices customized for this novel computing paradigm. | 翻訳日:2024-03-19 04:20:31 公開日:2023-09-20 |
# GME: 均一暗号化を高速化するGPUベースのマイクロアーキテクチャ拡張
GME: GPU-based Microarchitectural Extensions to Accelerate Homomorphic Encryption ( http://arxiv.org/abs/2309.11001v1 ) ライセンス: Link先を確認 | Kaustubh Shivdikar, Yuhui Bao, Rashmi Agrawal, Michael Shen, Gilbert Jonatan, Evelio Mora, Alexander Ingare, Neal Livesay, José L. Abellán, John Kim, Ajay Joshi, David Kaeli, | (参考訳) 完全同型暗号化(FHE)は、暗号化データを復号することなく処理することができる。
FHEは、リモートクラウドサービスへのセキュアなデータ処理のアウトソーシングをサポートするため、過去10年間、大きな注目を集めてきた。
強力なデータプライバシとセキュリティ保証が約束されているにもかかわらず、FHEは、平文データを使用した同じ計算と比較して、最大5桁のスローダウンを導入している。
このオーバーヘッドは、現在、FHEの商業的採用にとって大きな障壁となっている。
この作業では、FHEを加速するためにGPUを活用し、クラウドで利用可能な確立されたGPUエコシステムを活用しています。
本稿では,3つのキーとなるマイクロアーキテクチャ拡張と,現在のAMD CDNA GPUアーキテクチャへのコンパイル時間最適化を組み合わせたGMEを提案する。
第一に、GMEは軽量のオンチップ計算ユニット(CU)側の階層的相互接続を統合し、FHEカーネル間のキャッシュにおける暗号文を保持することにより、冗長なメモリトランザクションを排除している。
第2に、計算ボトルネックに対処するため、GMEは、FHEで最も一般的に実行される操作セットの1つであるモジュラーリダクション操作に対して、ネイティブなカスタムハードウェアサポートを提供する特別なMODユニットを導入した。
第3に、MODユニットと6,4$ビットの整数演算コア(WMACユニット)を統合することで、GMEはさらにFHEワークロードを19.%の速さで加速します。
最後に、FHEプリミティブブロックで利用できる時間的局所性を利用するLocality-Aware Block Scheduler (LABS)を提案する。
これらのマイクロアーキテクチャ機能とコンパイラ最適化を組み込んで、平均スピードアップを796\times$、14.2\times$、2.3\times$ over Intel Xeon CPU、NVIDIA V100 GPU、Xilinx FPGA実装で達成する。
Fully Homomorphic Encryption (FHE) enables the processing of encrypted data without decrypting it. FHE has garnered significant attention over the past decade as it supports secure outsourcing of data processing to remote cloud services. Despite its promise of strong data privacy and security guarantees, FHE introduces a slowdown of up to five orders of magnitude as compared to the same computation using plaintext data. This overhead is presently a major barrier to the commercial adoption of FHE. In this work, we leverage GPUs to accelerate FHE, capitalizing on a well-established GPU ecosystem available in the cloud. We propose GME, which combines three key microarchitectural extensions along with a compile-time optimization to the current AMD CDNA GPU architecture. First, GME integrates a lightweight on-chip compute unit (CU)-side hierarchical interconnect to retain ciphertext in cache across FHE kernels, thus eliminating redundant memory transactions. Second, to tackle compute bottlenecks, GME introduces special MOD-units that provide native custom hardware support for modular reduction operations, one of the most commonly executed sets of operations in FHE. Third, by integrating the MOD-unit with our novel pipelined $64$-bit integer arithmetic cores (WMAC-units), GME further accelerates FHE workloads by $19\%$. Finally, we propose a Locality-Aware Block Scheduler (LABS) that exploits the temporal locality available in FHE primitive blocks. Incorporating these microarchitectural features and compiler optimizations, we create a synergistic approach achieving average speedups of $796\times$, $14.2\times$, and $2.3\times$ over Intel Xeon CPU, NVIDIA V100 GPU, and Xilinx FPGA implementations, respectively. | 翻訳日:2024-03-19 04:20:31 公開日:2023-09-20 |
# Fed-LSAE:オートエンコーダによる潜時空間検査によるフェデレーションサイバー脅威検出システムに対する攻撃防止
Fed-LSAE: Thwarting Poisoning Attacks against Federated Cyber Threat Detection System via Autoencoder-based Latent Space Inspection ( http://arxiv.org/abs/2309.11053v1 ) ライセンス: Link先を確認 | Tran Duc Luong, Vuong Minh Tien, Nguyen Huu Quyen, Do Thi Thu Hien, Phan The Duy, Van-Hau Pham, | (参考訳) 従来の集中型学習におけるセキュリティ上の懸念の顕著な増加は、プライバシー侵害のないインテリジェントなアプリケーション構築において、連邦学習(FL)の採用を促進している。
サイバーセキュリティでは、センシティブなデータと、各企業のコンテキスト情報と高品質なラベル付けが、サイバー脅威を検出するための高性能機械学習(ML)モデルを構築する上で重要な役割を果たす。
それでも、FLシステムに対する内敵の毒殺によるリスクは、堅牢な反毒フレームワークの設計に関する議論を巻き起こしている。
過去の防御機構は、外れ値検出に基づいていたが、近年のアプローチは、遅延空間表現により関心を持つ傾向にある。
本稿では,Fed-LSAEと呼ばれるFLの新しいロバストアグリゲーション手法について検討する。この手法は,有意なクライアントをトレーニングプロセスから排除するために,ペナルティ層とオートエンコーダを経由した潜時空間表現を利用する。
CIC-ToN-IoTおよびN-Ba IoTデータセットの実験結果は、IoTの文脈で堅牢なFLベースの脅威検知器を開発するために、最先端の毒殺攻撃に対する防御機構の有効性を確認した。
具体的には、FRB-LSAE防衛と統合した場合、すべての指標で約98%の上昇傾向が見られます。
The significant rise of security concerns in conventional centralized learning has promoted federated learning (FL) adoption in building intelligent applications without privacy breaches. In cybersecurity, the sensitive data along with the contextual information and high-quality labeling in each enterprise organization play an essential role in constructing high-performance machine learning (ML) models for detecting cyber threats. Nonetheless, the risks coming from poisoning internal adversaries against FL systems have raised discussions about designing robust anti-poisoning frameworks. Whereas defensive mechanisms in the past were based on outlier detection, recent approaches tend to be more concerned with latent space representation. In this paper, we investigate a novel robust aggregation method for FL, namely Fed-LSAE, which takes advantage of latent space representation via the penultimate layer and Autoencoder to exclude malicious clients from the training process. The experimental results on the CIC-ToN-IoT and N-BaIoT datasets confirm the feasibility of our defensive mechanism against cutting-edge poisoning attacks for developing a robust FL-based threat detector in the context of IoT. More specifically, the FL evaluation witnesses an upward trend of approximately 98% across all metrics when integrating with our Fed-LSAE defense. | 翻訳日:2024-03-19 04:20:31 公開日:2023-09-20 |
# Capacity: 最新のARMアーキテクチャのための暗号的に強化されたインプロシージャ機能(拡張バージョン)
Capacity: Cryptographically-Enforced In-Process Capabilities for Modern ARM Architectures (Extended Version) ( http://arxiv.org/abs/2309.11151v1 ) ライセンス: Link先を確認 | Kha Dinh Duy, Kyuwon Cho, Taehyun Noh, Hojoon Lee, | (参考訳) プロセス内コンパートナライゼーションとアクセス制御は、プロセス内セキュリティドメインのインプレースと効率的な分離を実現するために活発に研究されている。
多くの研究がハードウェア機能を利用する分割方式を提案しており、特にx86で新しいページベースのメモリアイソレーション機能であるProtect Keys for Userspace (PKU)を使用している。
残念なことに、最新のARMアーキテクチャには同等の機能がない。
代わりに、新しいARMアーキテクチャはPointer Authentication (PA)とMemory Tagging Extension (MTE)を導入し、メモリ安全性とランタイムエクスプロイトの軽減のために参照バリデーションモデルを適用した。
これらの機能は, 構成化の文脈において過小評価されており, 機能ベースのプロセス内アクセス制御方式を実装するために, 再最適化可能であることを論じる。
本稿では,ハードウェアによる新しいプロセス内アクセス制御設計であるCapacityについて述べる。
Capacityには、ARMのハードウェアセキュリティ機能が組み込まれている。
ファイルシステムからメモリ上の場所へのインポートから、ドメインの機密オブジェクトのライフサイクル保護をサポートする。
独自のPAキーで認証されたプロセス内ドメインにより、Capacityはファイル記述子とメモリポインタを暗号化された参照に変換し、そのプログラムインスツルメンテーションフレームワークと効率的なシステムコールモニターで参照使用を完全に仲介する。
Capacity対応のNGINX Webサーバプロトタイプや他の、機密性の高いリソースをさまざまなドメインに分離する一般的なアプリケーションを評価します。
評価の結果,シングルスレッドサーバでは17%,マルチスレッドWebサーバでは13.54%の低パフォーマンスオーバーヘッドが生じることがわかった。
In-process compartmentalization and access control have been actively explored to provide in-place and efficient isolation of in-process security domains. Many works have proposed compartmentalization schemes that leverage hardware features, most notably using the new page-based memory isolation feature called Protection Keys for Userspace (PKU) on x86. Unfortunately, the modern ARM architecture does not have an equivalent feature. Instead, newer ARM architectures introduced Pointer Authentication (PA) and Memory Tagging Extension (MTE), adapting the reference validation model for memory safety and runtime exploit mitigation. We argue that those features have been underexplored in the context of compartmentalization and that they can be retrofitted to implement a capability-based in-process access control scheme. This paper presents Capacity, a novel hardware-assisted intra-process access control design that embraces capability-based security principles. Capacity coherently incorporates the new hardware security features on ARM that already exhibit inherent characteristics of capability. It supports the life-cycle protection of the domain's sensitive objects -- starting from their import from the file system to their place in memory. With intra-process domains authenticated with unique PA keys, Capacity transforms file descriptors and memory pointers into cryptographically-authenticated references and completely mediates reference usage with its program instrumentation framework and an efficient system call monitor. We evaluate our Capacity-enabled NGINX web server prototype and other common applications in which sensitive resources are isolated into different domains. Our evaluation shows that Capacity incurs a low-performance overhead of approximately 17% for the single-threaded and 13.54% for the multi-threaded webserver. | 翻訳日:2024-03-19 04:20:31 公開日:2023-09-20 |
# 高次非線形性を有するトレース単項ブール関数
Trace Monomial Boolean Functions with Large High-Order Nonlinearities ( http://arxiv.org/abs/2309.11229v1 ) ライセンス: Link先を確認 | Jinjie Gao, Haibin Kan, Yuan Li, Jiahua Xu, Qichun Wang, | (参考訳) 明らかにブール関数を高次非線形性で表すことは、暗号、符号化理論、計算複雑性において重要な問題である。
トレース単項ブール関数の2階・3階・高階非線形性に対する下界を証明する。
函数の2階非線形性に対する下界を$\mathrm{tr}_n(x^7)$と$\mathrm{tr}_n(x^{2^r+3})$で証明する。
すべてのトレース単項式の中で、我々の境界は、それぞれ奇数と偶数に対して \cite{Car08} と \cite{YT20} によって最高の二階非線形性の下界と一致する。
我々は、函数 $\mathrm{tr}_n(x^{15})$ の3階非線形性に対する下界を証明する。
任意の$r$に対して、$\mathrm{tr}_n(x^{2^{r+1}-1})$の$r$-次非線形性が少なくとも2^{n-1}-2^{(1-2^{-r})n+\frac{r}{2^{r-1}}-1}-O(2^{\frac{n}{2}})$であることを証明する。
$r \ll \log_2 n$ の場合、これはすべての明示関数の中で最高の下界である。
Exhibiting an explicit Boolean function with a large high-order nonlinearity is an important problem in cryptography, coding theory, and computational complexity. We prove lower bounds on the second-order, third-order, and higher-order nonlinearities of some trace monomial Boolean functions. We prove lower bounds on the second-order nonlinearities of functions $\mathrm{tr}_n(x^7)$ and $\mathrm{tr}_n(x^{2^r+3})$ where $n=2r$. Among all trace monomials, our bounds match the best second-order nonlinearity lower bounds by \cite{Car08} and \cite{YT20} for odd and even $n$ respectively. We prove a lower bound on the third-order nonlinearity for functions $\mathrm{tr}_n(x^{15})$, which is the best third-order nonlinearity lower bound. For any $r$, we prove that the $r$-th order nonlinearity of $\mathrm{tr}_n(x^{2^{r+1}-1})$ is at least $2^{n-1}-2^{(1-2^{-r})n+\frac{r}{2^{r-1}}-1}- O(2^{\frac{n}{2}})$. For $r \ll \log_2 n$, this is the best lower bound among all explicit functions. | 翻訳日:2024-03-19 04:10:47 公開日:2023-09-20 |
# 理想行列の2つの一般化とその応用
Two generalizations of ideal matrices and their applications ( http://arxiv.org/abs/2309.11240v1 ) ライセンス: Link先を確認 | Mingpei Zhang, Heng Guo, Wenlin Huang, | (参考訳) 本稿では,理想行列,一般化理想行列,二重理想行列の2種類の一般化について述べる。
一般化理想行列と二重理想行列の概念が提案され、それらのランクと最大独立群が検証され、二重巡回行列を研究する最初の動機は、分数指数の準巡回符号を研究することである。
本稿では、準巡回符号の一般化形式、すなわち、準巡回符号の一般化形式について述べる。
生成した行列の構成は、二重理想行列によって与えられる。
In this paper, two kinds of generalizations of ideal matrices, generalized ideal matrices and double ideal matrices. are obtained and studied, The concepts of generalized ideal matrices and double ideal matrices are proposed, and their ranks and maxima.linearly independent groups are verified.The initial motivation to study double cyclic matrices is to study the quasi cyclic codes of the fractional index. In this paper, the generalized form of the quasi cyclic codes, i.e. the {\phi}-quasi cyclic codes. and the construction of the generated matrix are given by the double ideal matrix. | 翻訳日:2024-03-19 04:10:47 公開日:2023-09-20 |
# 分散型ネットワークにおける確率的一様乱数生成のためのゲーム理論的アプローチ
A Game-theoretic Approach for Provably-Uniform Random Number Generation in Decentralized Networks ( http://arxiv.org/abs/2309.11250v1 ) ライセンス: Link先を確認 | Zhuo Cai, | (参考訳) 分散コンピューティングにおける多くのプロトコルは、適用性とセキュリティの両方のためにランダムビーコンと呼ばれるランダムなソースに依存している。
これは、次のマイニングまたはマイニングのセットがランダムに選択されなければならず、それぞれのパーティが選択する可能性は暗号通貨の持ち分に比例する、スタンプ・オブ・テイクのブロックチェーンプロトコルに特に当てはまる。
Ouroboros や Algorand のような概念実証プロトコルで用いられる現在のランダムビーコンには2つの基本的な制限がある。
(i)~これらの関数は擬似ランダム性に依存し、例えばハッシュ関数の出力が一様であると仮定する。
(ii)~は、複数の参加者がランダムな数値を提出し、最終的なランダムな結果の生成に使用されるような分散プロトコルを用いてランダム性を生成する。
しかし、この場合、当事者が提供した数字が一様ランダムであることは保証されず、当事者が一様ランダム性を率直に生成するインセンティブも存在しない。
ほとんどのランダムビーコンには両方の制限がある。
この論文では、ランダム性の分散生成のためのプロトコルを提供する。
我々のプロトコルは疑似ランダム性には全く依存していない。
以前のアプローチと同様に、異なる参加者によるランダムな入力を使用して最終的なランダムな結果を生成する。
しかし、重要な違いは、均一な乱数を提出することが誰にとっても最善の利益であることを示すゲーム理論的な保証を提供することである。
したがって、我々のアプローチは単にそれを仮定するのではなく、初めて正直な行動にインセンティブを与える。
さらに、このアプローチは信頼性がなく、偏りのない乱数を生成する。
また、タンパー耐性があり、出力を変更したり、その分布に影響を与えない。
最後に、モジュラリティを念頭に設計されており、ブロックチェーンの実証のような既存の分散プロトコルに簡単にプラグインできる。
Many protocols in distributed computing rely on a source of randomness, usually called a random beacon, both for their applicability and security. This is especially true for proof-of-stake blockchain protocols in which the next miner or set of miners have to be chosen randomly and each party's likelihood to be selected is in proportion to their stake in the cryptocurrency. Current random beacons used in proof-of-stake protocols, such as Ouroboros and Algorand, have two fundamental limitations: Either (i)~they rely on pseudorandomness, e.g.~assuming that the output of a hash function is uniform, which is a widely-used but unproven assumption, or (ii)~they generate their randomness using a distributed protocol in which several participants are required to submit random numbers which are then used in the generation of a final random result. However, in this case, there is no guarantee that the numbers provided by the parties are uniformly random and there is no incentive for the parties to honestly generate uniform randomness. Most random beacons have both limitations. In this thesis, we provide a protocol for distributed generation of randomness. Our protocol does not rely on pseudorandomness at all. Similar to some of the previous approaches, it uses random inputs by different participants to generate a final random result. However, the crucial difference is that we provide a game-theoretic guarantee showing that it is in everyone's best interest to submit uniform random numbers. Hence, our approach is the first to incentivize honest behavior instead of just assuming it. Moreover, the approach is trustless and generates unbiased random numbers. It is also tamper-proof and no party can change the output or affect its distribution. Finally, it is designed with modularity in mind and can be easily plugged into existing distributed protocols such as proof-of-stake blockchains. | 翻訳日:2024-03-19 04:10:47 公開日:2023-09-20 |
# データ空間における利用制御の政策パターン
Policy Patterns for Usage Control in Data Spaces ( http://arxiv.org/abs/2309.11289v1 ) ライセンス: Link先を確認 | Tobias Dam, Andreas Krimbacher, Sebastian Neumaier, | (参考訳) データ駆動技術は、私たちが都市を旅行し、通勤し、移動する方法において、交通関連革命を起こす可能性がある。
この変換の主な取り組みは、モビリティデータ交換のためのモビリティデータ空間に依存しているため、データ交換のための価値あるデータ保護と条件策定の必要性が生じる。
本稿では、モビリティデータ空間における自動契約交渉とデータ利用ポリシーの開発に重要な貢献をする。
データ共有とガバナンスにおける共通要件とシナリオに対処するため、利用制御のためのポリシーパターンの包括的なリストが提供される。
Open Digital Rights Language (ODRL) の使用は、収集されたポリシーの形式化と、データ空間固有のプロパティのためのODRL語彙の拡張が提案されている。
Data-driven technologies have the potential to initiate a transportation related revolution in the way we travel, commute and navigate within cities. As a major effort of this transformation relies on Mobility Data Spaces for the exchange of mobility data, the necessity to protect valuable data and formulate conditions for data exchange arises. This paper presents key contributions to the development of automated contract negotiation and data usage policies in the Mobility Data Space. A comprehensive listing of policy patterns for usage control is provided, addressing common requirements and scenarios in data sharing and governance. The use of the Open Digital Rights Language (ODRL) is proposed to formalize the collected policies, along with an extension of the ODRL vocabulary for data space-specific properties. | 翻訳日:2024-03-19 04:10:47 公開日:2023-09-20 |
# 遅延契約:スマートコントラクトの安全で信頼性のないオフチェーン実行による高ガスコスト軽減
Lazy Contracts: Alleviating High Gas Costs by Secure and Trustless Off-chain Execution of Smart Contracts ( http://arxiv.org/abs/2309.11317v1 ) ライセンス: Link先を確認 | Soroush Farokhnia, | (参考訳) スマートコントラクトは、ブロックチェーン上で実行され、暗号通貨の形式で資産を保持し、管理し、転送するプログラムである。
コントラクトの実行はオンチェーンで実行され、コンセンサスの対象となる。すなわち、ブロックチェーンネットワーク上のすべてのノードは、関数呼び出しを実行し、その副作用を追跡する必要がある。
Ethereumなどのほとんどのプログラム可能なブロックチェーンでは、重い計算を実行することでネットワークを遅くしようとする悪意のあるパーティによるDoS攻撃を防止するために、ガスの概念が導入されている。
各アトミック操作に対する固定コスト、および関数呼び出し開始器は、総ガスコストを取引手数料として支払う。
これはDoS攻撃を防ぐのに役立つが、その結果の手数料は非常に高い。
例えば、2022年、Ethereumだけで、総ガス使用量は1.77万ETH ~ 4.3億USDである。
この論文は、これらのコストを軽減するソリューションとして"怠慢な契約"を提案している。
当社のソリューションは計算の大部分をオフチェーンに移行し、各関数呼び出しが少量のガス使用量しか発生しないことを保証すると同時に、契約変数の状態と資金の所有に関する暗黙の合意を保証するのに十分なデータをチェーン上に保存する。
関数の完全なオンチェーン実行は、コントラクトの2つのパーティが現在の状態について不一致である場合にのみトリガーされる。
このような場合、当社のプロトコルは不当な当事者を識別し、ガス使用量全体に対して支払わせることで罰則を課すことができる。
したがって、合理的な党は不正に行動するインセンティブを持っていない。
最後に,2022年1月から2023年1月までに9,055,492件の取引に関わった実世界のSolidity契約160,735件の広範な実験を行い,当社のアプローチがガス使用量を55.4%削減したことを示す。
Smart contracts are programs that are executed on the blockchain and can hold, manage and transfer assets in the form of cryptocurrencies. The contract's execution is then performed on-chain and is subject to consensus, i.e. every node on the blockchain network has to run the function calls and keep track of their side-effects. In most programmable blockchains, such as Ethereum, the notion of gas is introduced to prevent DoS attacks by malicious parties who might try to slow down the network by performing heavy computations. A fixed cost to each atomic operation, and the initiator of a function call pays the total gas cost as a transaction fee. This helps prevent DoS attacks, but the resulting fees are extremely high. For example, in 2022, on Ethereum alone, there has been a total gas usage of 1.77 Million ETH ~ 4.3 Billion USD. This thesis proposes "lazy contracts" as a solution to alleviate these costs. Our solution moves most of the computation off-chain, ensuring that each function call incurs only a tiny amount of gas usage, while preserving enough data on-chain to guarantee an implicit consensus about the state of the contract variables and ownership of funds. A complete on-chain execution of the functions will only be triggered in case two parties to the contract are in disagreement about the current state, which in turn can only happen if at least one party is dishonest. In such cases, our protocol can identify the dishonest party and penalize them by having them pay for the entire gas usage. Hence, no rational party has an incentive to act dishonestly. Finally, we perform extensive experiments over 160,735 real-world Solidity contracts that were involved in 9,055,492 transactions in January 2022--January 2023 on Ethereum and show that our approach reduces the overall gas usage by 55.4%, which amounts to an astounding saving of 109.9 Million USD in gas fees. | 翻訳日:2024-03-19 04:10:47 公開日:2023-09-20 |
# ノイズ-クリプト:非線形ノイズによる画像暗号化、ハイブリッドカオスマップ、ハッシュ
Noise-Crypt: Image Encryption with Non-linear Noise, Hybrid Chaotic Maps, and Hashing ( http://arxiv.org/abs/2309.11471v1 ) ライセンス: Link先を確認 | Laiba Asghar, Fawad Ahmed, Muhammad Shahbaz Khan, Arshad Arshad, Jawad Ahmad, | (参考訳) 本稿では,安全でない伝送路上でのディジタル画像の確保を目的として,新しい画像暗号化アルゴリズムであるNoss-Cryptを提案する。
Noise-Cryptは非線形ランダムノイズ、ハイブリッドカオスマップ、SHA-256ハッシュアルゴリズムを統合している。
利用されたハイブリッドカオス写像は、ロジスティック・テントとロジスティック・シン・コサイン写像である。
ハイブリッドカオスマップは擬似ランダムシーケンスの生成と置換ボックスの選択を促進し、ロジスティック・シン・コサインマップはランダムノイズによってアルゴリズムの非線形性を誘導する。
この意図的なノイズの包含は、暗号解析に対する抵抗の増大に寄与する。
提案手法は、ディファレンシャルアタック、エントロピー、相関など、いくつかのセキュリティパラメータに対して評価されている。
広範囲な評価は提案手法の有効性を示し、エントロピーのほぼ理想的な値は7.99であり、相関は-0.0040である。
セキュリティ解析の結果は、ロバストな画像暗号化を実現するための提案手法の有効性を検証する。
To secure the digital images over insecure transmission channels, a new image encryption algorithm Noise-Crypt is proposed in this paper. Noise-Crypt integrates non-linear random noise, hybrid chaotic maps, and SHA-256 hashing algorithm. The utilized hybrid chaotic maps are the logistic-tent and the logistic-sine-cosine map. The hybrid chaotic maps enhance the pseudorandom sequence generation and selection of substitution boxes, while the logistic-sine-cosine map induces non-linearity in the algorithm through random noise. This deliberate inclusion of noise contributes to increased resistance against cryptanalysis. The proposed scheme has been evaluated for several security parameters, such as differential attacks, entropy, correlation, etc. Extensive evaluation demonstrates the efficacy of the proposed scheme, with almost ideal values of entropy of 7.99 and correlation of -0.0040. Results of the security analysis validate the potency of the proposed scheme in achieving robust image encryption. | 翻訳日:2024-03-19 04:10:47 公開日:2023-09-20 |
# CellSecure: セルオートマタとカオスベースの暗号化による産業用インターネットにおける画像データのセキュア化
CellSecure: Securing Image Data in Industrial Internet-of-Things via Cellular Automata and Chaos-Based Encryption ( http://arxiv.org/abs/2309.11476v1 ) ライセンス: Link先を確認 | Hassan Ali, Muhammad Shahbaz Khan, Maha Driss, Jawad Ahmad, William J. Buchanan, Nikolaos Pitropakis, | (参考訳) IIoT(Industrial IoT)とIndustrial 4.0の時代には、セキュアなデータ伝送が重要な問題となっている。
センサーが生成する視覚データやリアルタイムリモート監視から、生産ラインの品質管理まで、さまざまなIIoTアプリケーションで画像が広く送信され利用されています。
これらの画像の暗号化は、運用の整合性、データの機密性、分析プラットフォームとのシームレスな統合を維持するために不可欠である。
本稿では,IIoTとCyber-Physical Systems(CPS)に適した,堅牢な画像暗号化アルゴリズムを提案することで,これらの重要な問題に対処する。
このアルゴリズムはルール30セルオートマトンとカオススクランブルと置換を組み合わせる。
Rule 30セルオートマトンは、産業環境でリアルタイムセンサーデータに適した高速な暗号化および復号サイクルを可能にする擬似ランダムシーケンスを生成するための効率的なメカニズムとして機能する。
最も重要なことは、暗号化アルゴリズムにおいて非線形性を誘導することである。
さらに、分散産業ネットワークのセキュリティに不可欠なアルゴリズムのカオス範囲とキースペースを増やすために、ハイブリッドカオスマップ、すなわちロジスティック・サインマップを利用する。
提案アルゴリズムの有効性を検証するために,大規模セキュリティ解析を行った。
その結果,エントロピーは7.99で,相関は0.002であった。
これにより、産業領域における潜在的なサイバー攻撃に対するアルゴリズムのレジリエンスが向上する。
In the era of Industrial IoT (IIoT) and Industry 4.0, ensuring secure data transmission has become a critical concern. Among other data types, images are widely transmitted and utilized across various IIoT applications, ranging from sensor-generated visual data and real-time remote monitoring to quality control in production lines. The encryption of these images is essential for maintaining operational integrity, data confidentiality, and seamless integration with analytics platforms. This paper addresses these critical concerns by proposing a robust image encryption algorithm tailored for IIoT and Cyber-Physical Systems (CPS). The algorithm combines Rule-30 cellular automata with chaotic scrambling and substitution. The Rule 30 cellular automata serves as an efficient mechanism for generating pseudo-random sequences that enable fast encryption and decryption cycles suitable for real-time sensor data in industrial settings. Most importantly, it induces non-linearity in the encryption algorithm. Furthermore, to increase the chaotic range and keyspace of the algorithm, which is vital for security in distributed industrial networks, a hybrid chaotic map, i.e., logistic-sine map is utilized. Extensive security analysis has been carried out to validate the efficacy of the proposed algorithm. Results indicate that our algorithm achieves close-to-ideal values, with an entropy of 7.99 and a correlation of 0.002. This enhances the algorithm's resilience against potential cyber-attacks in the industrial domain. | 翻訳日:2024-03-19 04:10:47 公開日:2023-09-20 |
# AI(r)進化 -- どこへ向かっていますか?
深層学習時代の音楽・音響技術の将来について AI (r)evolution -- where are we heading? Thoughts about the future of music and sound technologies in the era of deep learning ( http://arxiv.org/abs/2310.18320v1 ) ライセンス: Link先を確認 | Giovanni Bindi, Nils Demerl\'e, Rodrigo Diaz, David Genova, Ali\'enor Golvet, Ben Hayes, Jiawen Huang, Lele Liu, Vincent Martos, Sarah Nabi, Teresa Pelinski, Lenny Renault, Saurjya Sarkar, Pedro Sarmento, Cyrus Vahidi, Lewis Wolstanholme, Yixiao Zhang, Axel Roebel, Nick Bryan-Kinns, Jean-Louis Giavitto, Mathieu Barthet | (参考訳) ディープラーニングのような人工知能(AI)技術は、私たちの日常生活に多くの変化をもたらしている。
音楽・音響技術分野におけるAIの将来的な影響と可能性を探るため、ロンドンのクイーン・メアリー大学(QMUL)とフランスのSTMS(Science et la Musique et du Son)との間で博士デーが開催された。
QMULとSTMSの学者によって、AIと音楽のトレンドに関する急激な疑問が生み出された。
2つの機関の学生がこれらの質問を議論した。
本報告では,データ,インパクト,環境,レスポンシブルイノベーション,創造的実践,創造性とバイアス,ツールから特異性,といった話題について,学生の議論を要約する。
学生は未来のAIと音楽研究者を代表している。
学者は現職の機関を代表している。
ここで報告された学生の議論は、AIと音楽の未来に対するビジョン、夢、懸念、不確実性、そして批判的な問題を捉えている。 Artificial Intelligence (AI) technologies such as deep learning are evolving very quickly bringing many changes to our everyday lives. To explore the future impact and potential of AI in the field of music and sound technologies a doctoral day was held between Queen Mary University of London (QMUL, UK) and Sciences et Technologies de la Musique et du Son (STMS, France). Prompt questions about current trends in AI and music were generated by academics from QMUL and STMS. Students from the two institutions then debated these questions. This report presents a summary of the student debates on the topics of: Data, Impact, and the Environment; Responsible Innovation and Creative Practice; Creativity and Bias; and From Tools to the Singularity. The students represent the future generation of AI and music researchers. The academics represent the incumbent establishment. The student debates reported here capture visions, dreams, concerns, uncertainties, and contentious issues for the future of AI and music as the establishment is rightfully challenged by the next generation. | 翻訳日:2024-01-15 16:45:05 公開日:2023-09-20 |
# 早期肺癌検診支援のための低線量CTとメタボロミクスの併用 Combining low-dose CT-based radiomics and metabolomics for early lung cancer screening support ( http://arxiv.org/abs/2311.12810v1 ) ライセンス: Link先を確認 | Joanna Zyla, Michal Marczyk, Wojciech Prazuch, Marek Socha, Aleksandra Suwalska, Agata Durawa, Malgorzata Jelitto-Gorska, Katarzyna Dziadziuszko, Edyta Szurowska, Witold Rzyman, Piotr Widlak, Joanna Polanska | (参考訳) 無症候性または軽症的な進行のため、肺癌はしばしば進行段階において診断され、患者の生存率が低下する。
他のがんと同様、早期発見は治療の成功率を大幅に向上させる。
早期診断は、肺組織腫瘍が小さいとき(通常3mm程度)に検出するように設計されたスクリーニングプログラムによって容易になる。
しかし,広範なスクリーニングプログラムデータの解析は,医療専門家への限られたアクセスによって妨げられている。
本研究は,肺頭葉内の悪性腫瘍病変を同定する手法を開発した。
このシステムは、低線量Computerd Tomographyベースの放射能とメタボロミクスの2種類の測定に応用された機械学習(ML)技術を活用する。
2つのポーランドのスクリーニングプログラムのデータを用いて、2つのMLアルゴリズムと様々な統合手法がテストされ、両モードを組み合わせて肺がんスクリーニングをサポートする最終モデルが作成された。 Due to its predominantly asymptomatic or mildly symptomatic progression, lung cancer is often diagnosed in advanced stages, resulting in poorer survival rates for patients. As with other cancers, early detection significantly improves the chances of successful treatment. Early diagnosis can be facilitated through screening programs designed to detect lung tissue tumors when they are still small, typically around 3mm in size. However, the analysis of extensive screening program data is hampered by limited access to medical experts. In this study, we developed a procedure for identifying potential malignant neoplastic lesions within lung parenchyma. The system leverages machine learning (ML) techniques applied to two types of measurements: low-dose Computed Tomography-based radiomics and metabolomics. Using data from two Polish screening programs, two ML algorithms were tested, along with various integration methods, to create a final model that combines both modalities to support lung cancer screening. | 翻訳日:2024-01-15 15:47:13 公開日:2023-09-20 |
# 効率的な忠実度推定:代替導出とその応用 Efficient fidelity estimation: Alternative derivation and related applications ( http://arxiv.org/abs/2312.12438v1 ) ライセンス: Link先を確認 | Diego S. S. Chrysosthemos, Marcos L. W. Basso and Jonas Maziero | (参考訳) 著者らは[phys. rev. a 107, 012427 (2023)]において、uhlmann-jozsa fidelity, $f(\rho,\sigma) := tr\sqrt{\sqrt{\rho}\sigma\sqrt{\rho}}$ を、$f(\rho,\sigma) = tr\sqrt{\rho\sigma} と書くことができることを証明した。
ここでは、関数列展開とトレース関数の性質を用いて、この結果の別の証明を与える。
また,本手法を他の量子状態相似関数に適用する可能性についても考察する。 In [Phys. Rev. A 107, 012427 (2023)], the authors proved that Uhlmann-Jozsa fidelity, $F(\rho,\sigma) := Tr\sqrt{\sqrt{\rho}\sigma\sqrt{\rho}}$, can be written as $F(\rho,\sigma) = Tr\sqrt{\rho\sigma}$. Here we give an alternative proof of this result, using a function power series expansion and the properties of the trace function. We also regard possible applications of our technique to other quantum states dissimilarity functions. | 翻訳日:2024-01-15 13:29:38 公開日:2023-09-20 |
# 言語モデルと分離したドメインデータベースによるドメイン適応型コード補完 Domain Adaptive Code Completion via Language Models and Decoupled Domain Databases ( http://arxiv.org/abs/2308.09313v2 ) ライセンス: Link先を確認 | Ze Tang, Jidong Ge, Shangqing Liu, Tingwei Zhu, Tongtong Xu, Liguo Huang, Bin Luo | (参考訳) 大規模言語モデル(LLM)は、コード補完において顕著なパフォーマンスを示している。
しかし、ドメイン固有の知識が欠如しているため、ライブラリ名を完成させるなど、集中的なドメイン知識を必要とするコード補完には最適ではないかもしれない。
しかし、特定のドメインでコード補完に言語モデルを適用するための微調整技術の有効性を確認したいくつかの作品がある。
プロジェクトのイテレーションが一定である場合、モデルの微調整が常に必要となるため、これらは制限される。
この制限に対処するため,本論文では,ドメイン知識を微調整なしで言語モデルに統合する検索拡張言語モデル(R-LM)である$k$NM-LMを提案する。
従来の手法とは異なり、我々のアプローチは異なる言語モデルやドメインに自動的に適応することができる。
具体的には、ドメイン内のコードを使用して、LMから切り離された検索ベースのデータベースを構築し、ベイズ推論を通じてLMと組み合わせてコードを完成させる。
プロジェクト内およびscenario内の完了に関する広範な実験により、CodeGPTやUnixCoderと比較して、$k$NM-LMは高い拡張をもたらすことが確認された。
応答速度,ストレージ使用量,特定の型コード補完,API呼び出し完了など,当社のツールを深く分析した結果,$k$NM-LMが良好なパフォーマンスを提供しており,ドメイン適応型コード補完に非常に適していることがわかった。
さらに,本手法では,言語モデルのパラメータに直接アクセスする必要がない。
その結果、ブラックボックスコード補完モデルとシームレスに統合でき、プラグインとして私たちのアプローチを統合することで、これらのモデルの性能をさらに向上できます。 Large Language Models (LLMs) have demonstrated remarkable performance in code completion. However, due to the lack of domain-specific knowledge, they may not be optimal in completing code that requires intensive domain knowledge for example completing the library names. Although there are several works that have confirmed the effectiveness of fine-tuning techniques to adapt language models for code completion in specific domains. They are limited by the need for constant fine-tuning of the model when the project is in constant iteration. To address this limitation, in this paper, we propose $k$NM-LM, a retrieval-augmented language model (R-LM), that integrates domain knowledge into language models without fine-tuning. Different from previous techniques, our approach is able to automatically adapt to different language models and domains. Specifically, it utilizes the in-domain code to build the retrieval-based database decoupled from LM, and then combines it with LM through Bayesian inference to complete the code. The extensive experiments on the completion of intra-project and intra-scenario have confirmed that $k$NM-LM brings about appreciable enhancements when compared to CodeGPT and UnixCoder. A deep analysis of our tool including the responding speed, storage usage, specific type code completion, and API invocation completion has confirmed that $k$NM-LM provides satisfactory performance, which renders it highly appropriate for domain adaptive code completion. Furthermore, our approach operates without the requirement for direct access to the language model's parameters. As a result, it can seamlessly integrate with black-box code completion models, making it easy to integrate our approach as a plugin to further enhance the performance of these models. | 翻訳日:2023-10-23 13:37:12 公開日:2023-09-20 |
# 建築知識表現とコミュニケーション産業調査 Architecture Knowledge Representation and Communication Industry Survey ( http://arxiv.org/abs/2309.11572v1 ) ライセンス: Link先を確認 | Haben Birhane Gebreweld | (参考訳) 背景: この文献は、ビュー、ビュー、アーキテクチャ決定記録(adr)を含む、ソフトウェアアーキテクチャ知識(ak)を捉えるための様々な方法を提供している。
並行して、サステナビリティはソフトウェア工学、特にソフトウェアアーキテクチャにおいて注目されている。
それにもかかわらず、これらの主題に関する実践的な業界レビューは不足しているようだ。
目的: 本研究は,アーキテクチャ知識の現在の実践を理解し,将来的なソフトウェアアーキテクチャの持続可能性に持続可能性を適用する方法を検討することを目的とする。
方法: オランダの著名な銀行で働く45人の建築家から34の質問と回答を集めたアンケートを用いて, 建築知識と持続可能性の実践的表現とコミュニケーションを評価することを目的とした。
結果: 分析の結果, 各種ステークホルダーへのAKの獲得と伝達に関する2つの主要な発見といくつかの興味深い結果が得られた。
まず、様々なアーキテクチャの特徴と異なる利害関係者向けに調整された視点をつなぐ新しいアーキテクチャ要素を開発することが重要です。
第二に、アーキテクトが持続可能なソフトウェアエンジニアリングプラクティスを採用する動機付けるためには、明確なガイダンス、参照、目標を提供することが不可欠です。
結論: この調査で収集したデータを分析した結果, 以下の結論を得た。
a) 金融ドメインには、確立されたドメイン固有のAKメソッド/ツールがない。
ほとんどの実践者はドメインジェネリックツールを使用します。
b) 様々な利害関係者のために作成された様々なアーキテクチャ的特徴と視点を結びつける新たなアーキテクチャ要素が必要であるように思われる。
c) ソフトウェアアーキテクトには十分な持続可能性意識とモチベーションがある。
しかし、彼らが欠けているのは、持続可能なソフトウェアエンジニアリングを実践するための明確なガイダンス、参照、目標です。 Background: The literature offers various methods for capturing software architectural knowledge (AK), including views, viewpoints, and architecture decision records (ADRs). In parallel, sustainability has gained prominence in software engineering, especially concerning software architecture. Nevertheless, practical industry reviews on these subjects seem to be lacking. Aim: In this research we aim to understand the current practice in architecture knowledge, and to explore where sustainability can be applied to address sustainability in software architecture in the future. Method: We used a survey, which utilized a questionnaire containing 34 questions and collected responses from 45 architects working at a prominent bank in the Netherlands, aimed to evaluate the practical representation and communication of architectural knowledge and sustainability. Result: Our analysis yielded two primary discoveries and several intriguing detailed results regarding how AK is captured and conveyed to diverse stakeholders. Firstly, it seems crucial to develop a new architectural element that connects various architectural features and perspectives tailored for different stakeholders. Secondly, providing clear guidance, references, and goals is essential to motivate architects to adopt Sustainable Software Engineering practices. Conclusion: After analysing the data collected through this survey, we have concluded that: a) There are no established domain-specific AK methods/tools in the financial domain. Most practitioners use domain-generic tools. b) A new architectural element that links the various architectural features and viewpoints created for various stakeholders appears to be necessary. c) There is sufficient sustainability awareness and motivation among software architects. However, what they lack are clear guidance, references, and goals to practice sustainable software engineering. | 翻訳日:2023-10-23 07:10:09 公開日:2023-09-20 |
# PyPI生態系における悪意符号の実証的研究 An Empirical Study of Malicious Code In PyPI Ecosystem ( http://arxiv.org/abs/2309.11021v1 ) ライセンス: Link先を確認 | Wenbo Guo, Zhengzi Xu, Chengwei Liu, Cheng Huang, Yong Fang, Yang Liu | (参考訳) PyPIは便利なパッケージ管理プラットフォームを開発者に提供し、特定の機能を迅速に実装し、作業効率を向上させる。
しかし、pypiエコシステムの急速な発展は、悪質なパッケージの伝播という深刻な問題を引き起こした。
悪意のある開発者は悪意のあるパッケージを正常に偽装し、エンドユーザに重大なセキュリティリスクをもたらす。
そこで我々は,PyPIエコシステムにおける悪意あるコードライフサイクルの特徴と現状を理解するための実証的研究を行った。
最初に自動データ収集フレームワークを構築し、4,669個の悪意のあるパッケージファイルを含むマルチソースの悪意あるコードデータセットを照合しました。
我々は、これらの悪意のあるコードを、悪意のある行動特性に基づいて5つのカテゴリに事前に分類した。
我々の研究によると、悪意のあるコードの50%以上が複数の悪意のある振る舞いを示しており、情報盗難やコマンド実行が特に多い。
さらに, 新規な攻撃ベクトルと抗検出技術について検討した。
解析の結果,悪意のあるパッケージの74.81%がソースコードのインストールを通じてエンドユーザプロジェクトへの侵入に成功した。
現実世界の調査によると、多くの悪意のあるパッケージが世界中のPyPIミラーサーバーに持続しており、発見後72%以上が長期にわたって残っている。
最後に、PyPIエコシステムにおける悪意のあるコードライフサイクルのポートレートをスケッチし、異なるステージにおける悪意のあるコードの特徴を効果的に反映した。
我々はまた、pythonのオープンソースエコシステムのセキュリティを改善するために提案されている緩和策をいくつか提示する。 PyPI provides a convenient and accessible package management platform to developers, enabling them to quickly implement specific functions and improve work efficiency. However, the rapid development of the PyPI ecosystem has led to a severe problem of malicious package propagation. Malicious developers disguise malicious packages as normal, posing a significant security risk to end-users. To this end, we conducted an empirical study to understand the characteristics and current state of the malicious code lifecycle in the PyPI ecosystem. We first built an automated data collection framework and collated a multi-source malicious code dataset containing 4,669 malicious package files. We preliminarily classified these malicious code into five categories based on malicious behaviour characteristics. Our research found that over 50% of malicious code exhibits multiple malicious behaviours, with information stealing and command execution being particularly prevalent. In addition, we observed several novel attack vectors and anti-detection techniques. Our analysis revealed that 74.81% of all malicious packages successfully entered end-user projects through source code installation, thereby increasing security risks. A real-world investigation showed that many reported malicious packages persist in PyPI mirror servers globally, with over 72% remaining for an extended period after being discovered. Finally, we sketched a portrait of the malicious code lifecycle in the PyPI ecosystem, effectively reflecting the characteristics of malicious code at different stages. We also present some suggested mitigations to improve the security of the Python open-source ecosystem. | 翻訳日:2023-10-23 07:09:45 公開日:2023-09-20 |
# 故障シグナチャにおける再生障害 Reproducing Failures in Fault Signatures ( http://arxiv.org/abs/2309.11004v1 ) ライセンス: Link先を確認 | Ashwin Kallingal Joshy, Benjamin Steenhoek, Xiuyuan Guo and Wei Le | (参考訳) ソフトウェアは、しばしば現場で失敗するが、フィールドの再現とデバッグの失敗は、非常に困難である。
本稿では,障害箇所とソースコードから障害シグネチャを生成して,小さな実行可能プログラムで障害を再現する手法を提案する。
障害シグネチャは、2つのプログラムが同じ場所で失敗した場合、元のプログラムの障害を再現し、同じエラー発生文の選択的シーケンスを実行した後、同じエラー条件を発生させる。
障害シグネチャは、障害を再現できる十分なステートメントのみを含むことを目的としています。
これにより、障害がどのように開発されたかを伝えるためのコンテキストが提供され、障害診断をブロックする不要な複雑さやセットアップを回避することができる。
障害からの障害シグネチャを計算するために,障害につながるパスを生成するパスセンシティブな静的解析ツールを適用し,そのパスを実行可能なプログラムに変換する既存の構文パッチツールを適用した。
Corebench, BugBench, Manybugsの実際のバグに対する評価は, 障害シグネチャが元のプログラムの障害を再現できることを示している。
障害シグネチャは複雑ではないため、自動テストインプット生成ツールは、プログラム全体を使用して生成できないエラー誘発インプットを生成する。
いくつかの障害誘発入力は、元のプログラムに直接転送できる。
実験データはhttps://doi.org/10.5281/zenodo.5430155で公開されている。 Software often fails in the field, however reproducing and debugging field failures is very challenging: the failure-inducing input may be missing, and the program setup can be complicated and hard to reproduce by the developers. In this paper, we propose to generate fault signatures from the failure locations and the original source code to reproduce the faults in small executable programs. We say that a fault signature reproduces the fault in the original program if the two failed in the same location, triggered the same error conditions after executing the same selective sequences of failure-inducing statements. A fault signature aims to contain only sufficient statements that can reproduce the faults. That way, it provides some context to inform how a fault is developed and also avoids unnecessary complexity and setups that may block fault diagnosis. To compute fault signatures from the failures, we applied a path-sensitive static analysis tool to generate a path that leads to the fault, and then applied an existing syntactic patching tool to convert the path into an executable program. Our evaluation on real-world bugs from Corebench, BugBench, and Manybugs shows that fault signatures can reproduce the fault for the original programs. Because fault signatures are less complex, automatic test input generation tools generated failure-inducing inputs that could not be generated by using the entire programs. Some failure-inducing inputs can be directly transferred to the original programs. Our experimental data are publicly available at https://doi.org/10.5281/zenodo.5430155. | 翻訳日:2023-10-23 07:09:25 公開日:2023-09-20 |
# 縦型NMR緩和におけるマジックアングルスピン効果:L-ヒスチジンの15N Magic Angle Spinning Effects on Longitudinal NMR Relaxation: 15N in L-Histidine ( http://arxiv.org/abs/2310.03029v1 ) ライセンス: Link先を確認 | Armin Afrough, Nichlas Vous Christensen, Rune Wittendorff M{\o}nster Jensen, Dennis Wilkens Juhl, and Thomas Vosegaard | (参考訳) 固体磁気共鳴は、原子分解能を持つ複雑な生物学的システムの力学を明らかにするユニークな技術である。
縦方向緩和は、非コヒーレントなプロセスによって、縦方向の核磁化を熱平衡に戻すメカニズムである。
しかし、測定された周期緩和速度は、核磁化の変化に対する非一貫性とコヒーレントな貢献の組み合わせを表している。
本研究は, 塩酸L-ヒスチジン一水酸L-ヒスチジンとグリシンの2種類のモデル化合物の長手緩和速度に及ぼす魔法の角度回転速度の影響を実証した。
特に、ヒスチジンのイミダゾール環における2つの窒素核の長手15N緩和は、アミンとの回転共鳴条件下でほぼ3桁程度減少し、これらの条件下ではアミン緩和率が上昇することが示されている。
観察された現象は、生体物理学や材料における固体磁気共鳴、特に力学の適切な測定、および動的核分極における選択的シリアル転送ステップに急進的な意味を持つ可能性がある。 Solid-state magnetic resonance is a unique technique that can reveal the dynamics of complex biological systems with atomic resolution. Longitudinal relaxation is a mechanism that returns longitudinal nuclear magnetization to its thermal equilibrium by incoherent processes. The measured longitudinal relaxation rate however represents the combination of both incoherent and coherent contributions to the change of nuclear magnetization. This work demonstrates the effect of magic angle spinning rate on the longitudinal relaxation rate in two model compounds: L-histidine hydrochloride monohydrate and glycine serving as proxies for isotopically-enriched biological materials. Most notably, it is demonstrated that the longitudinal 15N relaxation of the two nitrogen nuclei in the imidazole ring in histidine is reduced by almost three orders of magnitude at the condition of rotational resonance with the amine, while the amine relaxation rate is increased at these conditions. The observed phenomenon may have radical implications for the solid-state magnetic resonance in biophysics and materials, especially in the proper measurement of dynamics and as a selective serial transfer step in dynamic nuclear polarization. | 翻訳日:2023-10-23 04:45:44 公開日:2023-09-20 |
# SCREWS: 修正による推論のためのモジュラーフレームワーク SCREWS: A Modular Framework for Reasoning with Revisions ( http://arxiv.org/abs/2309.13075v1 ) ライセンス: Link先を確認 | Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia | (参考訳) 大規模言語モデル(LLM)は、フィードバックに基づいて出力を反復的に精製し、修正することで、様々なタスクにおける精度を向上させることができる。
これらのリビジョンはエラーをもたらす可能性があるので、以前の結果にロールバックする方がよい。
さらに、リビジョンは一般的に均質であり、最初の回答を生成するのと同じ推論方法を使うが、エラーを訂正することはない。
この領域での探索を可能にするために、我々はSCREWSというモジュラーフレームワークを紹介した。
サンプリング、条件付き再サンプリング、選択という3つの主要なモジュールで構成されており、それぞれがタスク毎に手動選択可能なサブモジュールで構成されている。
以上の結果から,ネジは複数のアプローチを共通の枠組みで統一するだけでなく,改良された推論連鎖を特定するための新しい手法もいくつか見いだせる。
我々は,従来のLCM (ChatGPT と GPT-4) を多種多様な推論タスクで評価し,算術語問題,マルチホップ質問応答,コードデバッグなど,それぞれに有用な新しい推論戦略を明らかにする。
異質な修正戦略は、オリジナル候補と改訂候補の間の選択と同様に重要であることが証明される。 Large language models (LLMs) can improve their accuracy on various tasks through iteratively refining and revising their output based on feedback. We observe that these revisions can introduce errors, in which case it is better to roll back to a previous result. Further, revisions are typically homogeneous: they use the same reasoning method that produced the initial answer, which may not correct errors. To enable exploration in this space, we present SCREWS, a modular framework for reasoning with revisions. It is comprised of three main modules: Sampling, Conditional Resampling, and Selection, each consisting of sub-modules that can be hand-selected per task. We show that SCREWS not only unifies several previous approaches under a common framework, but also reveals several novel strategies for identifying improved reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning strategies for each: arithmetic word problems, multi-hop question answering, and code debugging. Heterogeneous revision strategies prove to be important, as does selection between original and revised candidates. | 翻訳日:2023-10-01 12:14:32 公開日:2023-09-20 |
# オートラータウン効果と2光子吸収によるリドバーグ原子電界センサの感度向上:多モードフロッケ理論を用いた理論的解析 Enhanced Sensitivity in Rydberg Atom Electric Field Sensors through Autler-Townes Effect and Two-Photon Absorption: A Theoretical Analysis Using Many-Mode Floquet Theory ( http://arxiv.org/abs/2309.13073v1 ) ライセンス: Link先を確認 | Tianhao Wu | (参考訳) 本稿では,Rydberg atom 電場センサの感度に関する総合的な研究を行い,その指標として最小検出可能電場(MDF)に着目した。
この研究は、1モードフロッケ理論を用いて、信号電界に曝されたときに選択されたリドバーグ状態のスタークシフトを計算する。
結果は回転波近似(rwa)を用いて得られた結果と比較される。
信号電場の周波数がリドベルク状態間の共鳴周波数からずれた場合にセンサの感度を高めるために、余剰結合電場を導入し、1モードフロケ理論の一般化である多モードフロケ理論を用いて、この種のリドベルク原子電場センサを理論的に解析する。
この結合電場から生じるオートラー・タウンズ効果は、ライドバーグ状態が共振ピークの周波数を変調することで感度を効果的に向上させる。
さらに,結合電界の存在下での2光子吸収現象についても検討した。
結合電界の振幅や周波数を適切に調整することで、2光子共鳴の発生を制御でき、大きく拡張されたオフ共振領域内でrydbergセンサの感度を高めることができる。
本研究は,Rydberg atom 電場センサの感度向上における結合場の重要性を明らかにする。
これらの洞察は、精度測定や量子情報処理といった様々な分野に適用可能な、より堅牢で多用途な電界センシングデバイスの開発に有望な意味を持つ。 In this paper, we present a comprehensive investigation into the sensitivity of a Rydberg atom electric field sensor, with a specific focus on the minimum detectable field (MDF) as a key metric. The study utilizes one-mode Floquet theory to calculate the Stark shift for selected Rydberg states when exposed to a signal electric field. The results are compared to those obtained using the rotating wave approximation (RWA). To enhance the sensor's sensitivity when the frequency of the signal electric field deviates from resonance frequencies between Rydberg states, we propose incorporating an extra coupling electric field and using many-mode Floquet theory, a generalization of one-mode Floquet theory, to theoretically analyze this kind of Rydberg atom electric field sensor. The Autler-Townes effect resulting from this coupling electric field causes Rydberg states to split into dressed states, effectively increasing sensitivity by modulating the frequencies of resonance peaks. Moreover, the phenomenon of two-photon absorption in the presence of the coupling electric field is explored. We demonstrate that by appropriately adjusting the coupling electric field's amplitude or frequency, one can control the occurrence of two-photon resonances, providing additional sensitivity enhancement for the Rydberg sensor within the significantly extended off-resonance domain. The study underscores the significance of coupling fields in enhancing the sensitivity of Rydberg atom electric field sensors. These insights hold promising implications for the development of more robust and versatile electric field sensing devices, applicable in diverse fields such as precision measurements and quantum information processing. | 翻訳日:2023-10-01 12:14:09 公開日:2023-09-20 |
# 防御としてのコンパイル:テンソル最適化によるdlモデル攻撃のロバスト性向上 Compilation as a Defense: Enhancing DL Model Attack Robustness via Tensor Optimization ( http://arxiv.org/abs/2309.16577v1 ) ライセンス: Link先を確認 | Stefan Trawicki, William Hackett, Lewis Birch, Neeraj Suri, Peter Garraghan | (参考訳) Adversarial Machine Learning (AML)は、セキュリティ研究の急速に成長している分野であり、しばしば見過ごされる領域はサイドチャネルによるモデル攻撃である。
従来の研究では、このような攻撃は深刻な脅威であるが、コストのかかるモデルの再設計を避ける効率的な修復戦略についてはほとんど進歩していない。
この研究は、モデルコンパイル技術、すなわちテンソル最適化を用いたAMLサイドチャネル攻撃に対する新たな防御効果を示す。
モデル攻撃の有効性をテンソル最適化により最大43%まで低下させ,今後の作業の意義と方向性を考察した。 Adversarial Machine Learning (AML) is a rapidly growing field of security research, with an often overlooked area being model attacks through side-channels. Previous works show such attacks to be serious threats, though little progress has been made on efficient remediation strategies that avoid costly model re-engineering. This work demonstrates a new defense against AML side-channel attacks using model compilation techniques, namely tensor optimization. We show relative model attack effectiveness decreases of up to 43% using tensor optimization, discuss the implications, and direction of future work. | 翻訳日:2023-10-01 12:07:13 公開日:2023-09-20 |
# Fairness Hub Technical Briefs: AUC Gap Fairness Hub Technical Briefs: AUC Gap ( http://arxiv.org/abs/2309.12371v1 ) ライセンス: Link先を確認 | Jinsook Lee, Chris Brooks, Renzhe Yu, Rene Kizilcec | (参考訳) 偏見を測るために、私たちはAUC Gapの使用を検討することを奨励する: サブグループ(例えば、性別、人種、SES、事前知識)のAUCの最高と最低のテストの絶対差。
使用するAI/MLアルゴリズムとは無関係であり、任意のサブグループのモデル性能の相違を捉え、交差アイデンティティグループなどの非バイナリフェアネスアセスメントを可能にする。
LEVIチームは、低所得の中学校で数学の達成を2倍にするという共通の目標を追求するために、幅広いAI/MLモデルを使用している。
多くの異なるコンテキストで収集されたデータセットに基づいてトレーニングされたモデルがバイアスを導入または増幅しないことを保証することは、LEVIの目標を達成する上で重要である。
ここでは、共通ベンチマークと分析ベースを作成するために、すべてのLEVIチームに対して、モデルバイアスの多用性と計算が容易な測定方法を提供しています。 To measure bias, we encourage teams to consider using AUC Gap: the absolute difference between the highest and lowest test AUC for subgroups (e.g., gender, race, SES, prior knowledge). It is agnostic to the AI/ML algorithm used and it captures the disparity in model performance for any number of subgroups, which enables non-binary fairness assessments such as for intersectional identity groups. The LEVI teams use a wide range of AI/ML models in pursuit of a common goal of doubling math achievement in low-income middle schools. Ensuring that the models, which are trained on datasets collected in many different contexts, do not introduce or amplify biases is important for achieving the LEVI goal. We offer here a versatile and easy-to-compute measure of model bias for all LEVI teams in order to create a common benchmark and an analytical basis for sharing what strategies have worked for different teams. | 翻訳日:2023-09-25 17:34:52 公開日:2023-09-20 |
# 量子分割関数の複雑性について On the complexity of quantum partition functions ( http://arxiv.org/abs/2110.15466v2 ) ライセンス: Link先を確認 | Sergey Bravyi, Anirban Chowdhury, David Gosset, Pawel Wocjan | (参考訳) 量子多体系の分配関数と自由エネルギーは熱平衡における物理的性質を決定する。
そこで,n$-qubit 局所ハミルトニアンの計算量を近似する計算量について検討する。
まず、与えられた2ドルの局所ハミルトニアンの自由エネルギーを近似する$\mathrm{poly}(n)$ランタイムを持つ古典的なアルゴリズムを報告し、ある密度条件を満たすことを述べる。
本アルゴリズムは自由エネルギーの変動特性と凸緩和法を組み合わせたものである。
これは、一般的な場合では難しい最適化問題の高密度なインスタンスに対する効率的な近似アルゴリズムの体系に寄与し、既存のアルゴリズムを同時に拡張すると見なすことができる。
(a)高密度な2ドル局所ハミルトンの基底エネルギー、そして
(b)高密度古典イジングモデルの自由エネルギー。
次に、局所ハミルトニアンの自由エネルギーを近似する問題と、qma検証者が受け入れる証人状態の数を近似する問題を含む、他の3つの自然量子近似計数問題との間に多項式時間同値性を確立する。
これらの結果は、熱平衡における量子多体系のシミュレーションが、まだ定義されていない、あるいは既知の複雑性クラスで特徴づけられる幅広い計算問題の複雑性を正確に捉えていることを示唆している。
最後に、自由エネルギーを近似するための最先端の古典的および量子的アルゴリズムを要約し、ランタイムとメモリフットプリントを改善する方法を示す。 The partition function and free energy of a quantum many-body system determine its physical properties in thermal equilibrium. Here we study the computational complexity of approximating these quantities for $n$-qubit local Hamiltonians. First, we report a classical algorithm with $\mathrm{poly}(n)$ runtime which approximates the free energy of a given $2$-local Hamiltonian provided that it satisfies a certain denseness condition. Our algorithm combines the variational characterization of the free energy and convex relaxation methods. It contributes to a body of work on efficient approximation algorithms for dense instances of optimization problems which are hard in the general case, and can be viewed as simultaneously extending existing algorithms for (a) the ground energy of dense $2$-local Hamiltonians, and (b) the free energy of dense classical Ising models. Secondly, we establish polynomial-time equivalence between the problem of approximating the free energy of local Hamiltonians and three other natural quantum approximate counting problems, including the problem of approximating the number of witness states accepted by a QMA verifier. These results suggest that simulation of quantum many-body systems in thermal equilibrium may precisely capture the complexity of a broad family of computational problems that has yet to be defined or characterized in terms of known complexity classes. Finally, we summarize state-of-the-art classical and quantum algorithms for approximating the free energy and show how to improve their runtime and memory footprint. | 翻訳日:2023-09-22 20:35:20 公開日:2023-09-20 |
# オンラインコミュニティを'Better'にする - Redditのコミュニティ価値の分類 Making Online Communities 'Better': A Taxonomy of Community Values on Reddit ( http://arxiv.org/abs/2109.05152v3 ) ライセンス: Link先を確認 | Galen Weld, Amy X. Zhang, Tim Althoff | (参考訳) オンラインコミュニティを研究している多くの研究者がそれを改善しようとしている。
しかし、誤情報や乱用と戦うなど、広く支持されている少数の価値観を超えて、コミュニティメンバーが意見の相違があり、価値が対立している可能性があり、コミュニティ全体で異なる好みを持っている可能性があるため、"better"の意味を判断することは困難である。
本研究は,多様なコミュニティのメンバから直接価値を導き出す最初の研究である。
627のユニークサブredditの212名を対象に調査を行い,コミュニティの価値を自身の言葉で記述するように求めた。
1,481件の回答を反復的に分類し,9つのトップレベルカテゴリに29のサブカテゴリからなる地域価値の包括的分類法を開発し,検証した。
当社の分類法を用いて,新たなメンバの流入を管理するなど既存の研究課題を,異なる価値間の緊張関係として再検討し,コンテンツ品質やコミュニティ規模など,未熟な価値を特定した。
私たちは、脆弱なコミュニティメンバーの価値にもっと注意を払い、将来の研究に利用するためにコードブックを公開します。 Many researchers studying online communities seek to make them better. However, beyond a small set of widely-held values, such as combating misinformation and abuse, determining what 'better' means can be challenging, as community members may disagree, values may be in conflict, and different communities may have differing preferences as a whole. In this work, we present the first study that elicits values directly from members across a diverse set of communities. We survey 212 members of 627 unique subreddits and ask them to describe their values for their communities in their own words. Through iterative categorization of 1,481 responses, we develop and validate a comprehensive taxonomy of community values, consisting of 29 subcategories within nine top-level categories, enabling principled, quantitative study of community values by researchers. Using our taxonomy, we reframe existing research problems, such as managing influxes of new members, as tensions between different values, and we identify understudied values, such as those regarding content quality and community size. We call for greater attention to vulnerable community members' values, and we make our codebook public for use in future research. | 翻訳日:2023-09-22 20:34:57 公開日:2023-09-20 |
# 一般量子資源の漸近的一貫性:不協和性、非マルコビアン性、非ガウス性 Asymptotically Consistent Measures of General Quantum Resources: Discord, Non-Markovianity, and Non-Gaussianity ( http://arxiv.org/abs/2103.05665v4 ) ライセンス: Link先を確認 | Kohdai Kuroiwa and Hayata Yamasaki | (参考訳) 量子資源理論は、量子情報処理の資源として固有量子特性を定量的に解析するための統一的な枠組みを提供する。
資源量化の最良の方法を検討するため、資源量化の望ましい公理は、公理的アプローチによって広範囲に研究されてきた。
しかし、そのような所望の公理を持つ資源測度による資源量化の従来の方法は、変換の近似による資源量子状態間の漸近変換の速度と矛盾する可能性がある。
本稿では,資源測度の漸近的整合性という代替公理を確立し,漸近的資源変換の速度に矛盾することなく資源を定量化する漸近的一貫性のある資源測度について検討する。
相対エントロピー測度は、すべての凸有限次元資源(例えば、絡み合い、コヒーレンス、マジック)と、量子不協和、非マルコビアン性、非ガウス性のようないくつかの非凸あるいは無限次元の資源の比率と一致することを証明している。
これらの結果から, 各種固有量子力学特性の定量的解析には, 一貫性のある資源測度が広く適用可能であることが示された。 Quantum resource theories provide a unified framework to quantitatively analyze inherent quantum properties as resources for quantum information processing. So as to investigate the best way for quantifying resources, desirable axioms for resource quantification have been extensively studied through axiomatic approaches. However, a conventional way of resource quantification by resource measures with such desired axioms may contradict rates of asymptotic transformation between resourceful quantum states due to an approximation in the transformation. In this paper, we establish an alternative axiom, asymptotic consistency of resource measures, and we investigate asymptotically consistent resource measures, which quantify resources without contradicting the rates of the asymptotic resource transformation. We prove that relative entropic measures are consistent with the rates for a broad class of resources, i.e., all convex finite-dimensional resources, e.g., entanglement, coherence, and magic, and even some nonconvex or infinite-dimensional resources such as quantum discord, non-Markovianity, and non-Gaussianity. These results show that consistent resource measures are widely applicable to the quantitative analysis of various inherent quantum-mechanical properties. | 翻訳日:2023-09-22 20:33:37 公開日:2023-09-20 |
# 魚の零点とカオス系のスペクトル形成係数の変動 Fisher zeroes and the fluctuations of the spectral form factor of chaotic systems ( http://arxiv.org/abs/2207.02473v3 ) ライセンス: Link先を確認 | Guy Bunin, Laura Foini, Jorge Kurchan | (参考訳) 量子カオス系のスペクトル形式因子は、よく知られた 'ramp $+$ plateau' 形式を持つ。
半古典的あるいは熱力学的な限界におけるその形を決定する技術は、どちらの場合もエネルギー範囲やシステムのアンサンブルの平均に基づいて考案されている。
単一の例では、揺らぎは大きいが、限界を逸脱せず、アンサンブル自体の要素に依存しているため、全体の手順に疑問を呈しているように見える。
複素逆温度 $\beta_r+i\beta_i$ (\beta_i \equiv \tau$ the time) における分割関数のモジュラーとして、スペクトル係数は複素温度平面のヤン・リー零点の類似であるフィッシャー零点の領域を持つ。
スペクトル係数の大きなスパイクは、実際にはこれらの零点に対して$\beta_i$ でパラメトリズされた線の近差の結果である。
最大のスパイクは細部に対して非常に敏感だが、指数的に稀で指数関数的に薄い。
このことに動機づけられたDerridaのランダムエネルギーモデルの研究にインスパイアされ、ここでは、レベル反発を導入したランダムエネルギーレベルの修正モデルについて研究する。
また,SYKモデルでは,スパイク発生機構が同一であることも確認した。 The spectral form factor of quantum chaotic systems has the familiar `ramp $+$ plateau' form. Techniques to determine its form in the semiclassical or the thermodynamic limit have been devised, in both cases based on the average over an energy range or an ensemble of systems. For a single instance, fluctuations are large, do not go away in the limit, and depend on the element of the ensemble itself, thus seeming to question the whole procedure. Considered as the modulus of a partition function in complex inverse temperature $\beta_R+i\beta_I$ ($\beta_I \equiv \tau$ the time), the spectral factor has regions of Fisher zeroes, the analogue of Yang-Lee zeroes for the complex temperature plane. The large spikes in the spectral factor are in fact a consequence of near-misses of the line parametrized by $\beta_I$ to these zeroes. The largest spikes are indeed extensive and extremely sensitive to details, but we show that they are both exponentially rare and exponentially thin. Motivated by this, and inspired by the work of Derrida on the Random Energy Model, we study here a modified model of random energy levels in which we introduce level repulsion. We also check that the mechanism giving rise to spikes is the same in the SYK model. | 翻訳日:2023-09-22 20:26:26 公開日:2023-09-20 |
# 安定形状生成のためのグラスマン多様体流れ Grassmann Manifold Flows for Stable Shape Generation ( http://arxiv.org/abs/2211.02900v2 ) ライセンス: Link先を確認 | Ryoma Yataka and Masashi Shiraishi and Kazuki Hirashima | (参考訳) 近年、機械学習の研究は、特定の多様体における対称性を帰納バイアスとして用いた手法に焦点を当てている。
グラスマン多様体は、形状空間として表される基本的な形状を扱う能力を提供し、安定な形状解析を可能にする。
本稿では,連続正規化フローを通じてグラスマン多様体上の分布を学習するための理論的基礎を定式化し,安定な形状を生成することを目的とした新しい手法を提案する。
提案手法は,物体の本質的な形状情報を満たすように設計されたグラスマン多様体の学習と生成を通じて,回転や逆変換などの外部変換の影響を効果的に排除し,より堅牢な生成を促進する。
実験の結果,提案手法はデータ構造をキャプチャすることで高品質なサンプルを生成できることがわかった。
さらに, 提案手法は, ログやエビデンスにおいて, 最先端の手法よりも有意に優れていた。
得られた結果は、この分野のさらなる研究を刺激し、安定した形状の生成と解析の進歩をもたらすことが期待されている。 Recently, studies on machine learning have focused on methods that use symmetry implicit in a specific manifold as an inductive bias. Grassmann manifolds provide the ability to handle fundamental shapes represented as shape spaces, enabling stable shape analysis. In this paper, we present a novel approach in which we establish the theoretical foundations for learning distributions on the Grassmann manifold via continuous normalization flows, with the explicit goal of generating stable shapes. Our approach facilitates more robust generation by effectively eliminating the influence of extraneous transformations, such as rotations and inversions, through learning and generating within a Grassmann manifolds designed to accommodate the essential shape information of the object. The experimental results indicated that the proposed method can generate high-quality samples by capturing the data structure. Furthermore, the proposed method significantly outperformed state-of-the-art methods in terms of the log-likelihood or evidence lower bound. The results obtained are expected to stimulate further research in this field, leading to advances for stable shape generation and analysis. | 翻訳日:2023-09-22 20:18:09 公開日:2023-09-20 |
# より健康的なフィードの構築:プライベートな位置追跡交差点駆動フィードレコメンデーション Building a healthier feed: Private location trace intersection driven feed recommendations ( http://arxiv.org/abs/2210.01927v2 ) ライセンス: Link先を確認 | Tobin South, Nick Lothian, Alex "Sandy" Pentland | (参考訳) ナビゲートする物理的な環境は、どのコミュニティや人々が最も重要かを強く決定します。
これらの効果は、地域社会の機会と社会資本への個人的アクセスを誘導し、個人のモビリティトレースでしばしば観察される。
従来のソーシャルメディアフィードは、これらのモビリティベースの機能を利用していない。
本稿では、ユーザの個人個人データからソーシャルフィードを駆動するための同意第一のプライベート情報共有パラダイムを提案する。
このアプローチは、既存のまたは潜在的な現実世界のソーシャルコネクションのプロキシとしてモビリティトレースのオーバーラップを活用し、ユーザーがフィードで見ているものと、ユーザーが直接見る可能性が高いものとの比例関係を生み出すことにより、ユーザーをローカルコミュニティとソーシャルキャピタルビルディングに統合するためのフィードを明示的に設計する。
これらの主張は既存の社会運動データに対して検証され、提案アルゴリズムの参照実装が実証のために構築されている。
本研究は, 第三者や公開データの露出を必要とせず, プライベートセットの交差点を介し, オフラインのソーシャル接続を表現できるフィードを設計するための新しい手法を提案する。 The physical environment you navigate strongly determines which communities and people matter most to individuals. These effects drive both personal access to opportunities and the social capital of communities, and can often be observed in the personal mobility traces of individuals. Traditional social media feeds underutilize these mobility-based features, or do so in a privacy exploitative manner. Here we propose a consent-first private information sharing paradigm for driving social feeds from users' personal private data, specifically using mobility traces. This approach designs the feed to explicitly optimize for integrating the user into the local community and for social capital building through leveraging mobility trace overlaps as a proxy for existing or potential real-world social connections, creating proportionality between whom a user sees in their feed, and whom the user is likely to see in person. These claims are validated against existing social-mobility data, and a reference implementation of the proposed algorithm is built for demonstration. In total, this work presents a novel technique for designing feeds that represent real offline social connections through private set intersections requiring no third party, or public data exposure. | 翻訳日:2023-09-22 20:16:56 公開日:2023-09-20 |
# 分類基準の分析と比較 Analysis and Comparison of Classification Metrics ( http://arxiv.org/abs/2209.05355v4 ) ライセンス: Link先を確認 | Luciana Ferrer | (参考訳) さまざまなパフォーマンス指標が、分類システムの評価のために機械学習文献で一般的に使用されている。
ハード決定の質を測る最も一般的なものは、標準とバランスの取れた精度、標準とバランスの取れた誤差率、Fベータスコア、マシューズ相関係数(MCC)である。
本稿では,これらと他の指標の定義をレビューし,各統計学習コースで導入されているが機械学習文献では滅多に用いられていない期待コスト(ec)と比較する。
標準および平衡誤差率の両方がECの特別な場合であることを示す。
さらに、F-betaスコアとMCCとの関係を示すとともに、ECは統計学の第一原理に基づいており、より汎用的で、解釈可能で、あらゆるアプリケーションシナリオに適応できるため、これらの従来の指標よりも優れていると論じる。
上記のメトリクスは、難しい決定の質を測定します。
しかし、現代のほとんどの分類システムは、直接評価したいクラスに対して連続スコアを出力する。
システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクなどが含まれる。
最後の3つのメトリクスは、適切なスコアリングルール(PSR)の期待値によって与えられるメトリクスのファミリーの特別なケースである。
これらの指標の背景にある理論を概観し、システムによって生成される後部確率の質を測定するための原則的な方法であることを示す。
最後に、これらの指標を用いてシステムの校正損失を計算し、この指標を広く使われている予測校正誤差(ECE)と比較し、PSRに基づく校正損失は、より解釈可能で、より一般的で、マルチクラスケースに直接適用できるECEよりも優れていると論じる。 A variety of different performance metrics are commonly used in the machine learning literature for the evaluation of classification systems. Some of the most common ones for measuring quality of hard decisions are standard and balanced accuracy, standard and balanced error rate, F-beta score, and Matthews correlation coefficient (MCC). In this document, we review the definition of these and other metrics and compare them with the expected cost (EC), a metric introduced in every statistical learning course but rarely used in the machine learning literature. We show that both the standard and balanced error rates are special cases of the EC. Further, we show its relation with F-beta score and MCC and argue that EC is superior to these traditional metrics for being based on first principles from statistics, and for being more general, interpretable, and adaptable to any application scenario. The metrics mentioned above measure the quality of hard decisions. Yet, most modern classification systems output continuous scores for the classes which we may want to evaluate directly. Metrics for measuring the quality of system scores include the area under the ROC curve, equal error rate, cross-entropy, Brier score, and Bayes EC or Bayes risk, among others. The last three metrics are special cases of a family of metrics given by the expected value of proper scoring rules (PSRs). We review the theory behind these metrics, showing that they are a principled way to measure the quality of the posterior probabilities produced by a system. Finally, we show how to use these metrics to compute a system's calibration loss and compare this metric with the widely-used expected calibration error (ECE), arguing that calibration loss based on PSRs is superior to the ECE for being more interpretable, more general, and directly applicable to the multi-class case, among other reasons. | 翻訳日:2023-09-22 20:15:38 公開日:2023-09-20 |
# 強化学習における変圧器の検討 A Survey on Transformers in Reinforcement Learning ( http://arxiv.org/abs/2301.03044v3 ) ライセンス: Link先を確認 | Wenzhe Li, Hao Luo, Zichuan Lin, Chongjie Zhang, Zongqing Lu, Deheng Ye | (参考訳) Transformer は NLP と CV において支配的なニューラルネットワークアーキテクチャと見なされている。
近年、強化学習(RL)分野においてトランスフォーマーの使用が急増しているが、RLの性質によってもたらされるユニークな設計選択と課題に直面している。
しかし、RLにおけるトランスフォーマーの進化は、まだよく分かっていない。
本稿では,RLにおけるトランスフォーマーの利用のモチベーションと進歩を体系的に検証し,既存の作業の分類を提供し,各サブフィールドについて議論し,今後の展望を要約する。 Transformer has been considered the dominating neural architecture in NLP and CV, mostly under supervised settings. Recently, a similar surge of using Transformers has appeared in the domain of reinforcement learning (RL), but it is faced with unique design choices and challenges brought by the nature of RL. However, the evolution of Transformers in RL has not yet been well unraveled. In this paper, we seek to systematically review motivations and progress on using Transformers in RL, provide a taxonomy on existing works, discuss each sub-field, and summarize future prospects. | 翻訳日:2023-09-22 20:05:29 公開日:2023-09-20 |
# ビジュアルアテンションを用いた協調飛行制御に向けて Towards Cooperative Flight Control Using Visual-Attention ( http://arxiv.org/abs/2212.11084v2 ) ライセンス: Link先を確認 | Lianhao Yin, Makram Chahine, Tsun-Hsuan Wang, Tim Seyde, Chao Liu, Mathias Lechner, Ramin Hasani, Daniela Rus | (参考訳) 飛行制御中の人間のパイロットと自律エージェントの協調は、並列自律を実現する。
本稿では,パイロットと視線追跡システム,および並列終端ニューラルコントロールシステムとの協調を支援するエアガードシステムを提案する。
本システムでは, パイロットと制御システムの並列自律性を実現するために, 注意プロファイルの違いに基づいて, 因果的連続深度ニューラルネットワークモデルと協調層を組み合わせる。
ニューラルネットワークの注意プロファイルは、視覚バックプロップアルゴリズムによってネットワークのサリエンシーマップ(特徴重要度)を計算し、人間の注意プロファイルは人間のパイロットの視線追跡または人間のパイロットを模倣するために訓練されたネットワークのサリエンシーマップによって得られる。
パイロットと保護エージェントの注意プロファイルが一致した場合、パイロットは制御決定を行う。
さもなくば、航空防衛隊は介入を行い、航空機の制御を引き継いだ。
注意に基づく防空システムは、その飛行への関与レベルとパイロットの専門知識と注意の間のトレードオフをバランスさせることができる。
保護システムは、情報過負荷によりパイロットが気を散らされた状況において特に効果的である。
本研究では,固定翼機によるシミュレーションや,四角形プラットフォームによるハードウェア上での飛行シナリオのナビゲーションの有効性を示す。 The cooperation of a human pilot with an autonomous agent during flight control realizes parallel autonomy. We propose an air-guardian system that facilitates cooperation between a pilot with eye tracking and a parallel end-to-end neural control system. Our vision-based air-guardian system combines a causal continuous-depth neural network model with a cooperation layer to enable parallel autonomy between a pilot and a control system based on perceived differences in their attention profiles. The attention profiles for neural networks are obtained by computing the networks' saliency maps (feature importance) through the VisualBackProp algorithm, while the attention profiles for humans are either obtained by eye tracking of human pilots or saliency maps of networks trained to imitate human pilots. When the attention profile of the pilot and guardian agents align, the pilot makes control decisions. Otherwise, the air-guardian makes interventions and takes over the control of the aircraft. We show that our attention-based air-guardian system can balance the trade-off between its level of involvement in the flight and the pilot's expertise and attention. The guardian system is particularly effective in situations where the pilot was distracted due to information overload. We demonstrate the effectiveness of our method for navigating flight scenarios in simulation with a fixed-wing aircraft and on hardware with a quadrotor platform. | 翻訳日:2023-09-22 20:04:36 公開日:2023-09-20 |
# 適応データ解析のためのサブサンプリング Subsampling Suffices for Adaptive Data Analysis ( http://arxiv.org/abs/2302.08661v2 ) ライセンス: Link先を確認 | Guy Blanc | (参考訳) データセットで行った分析が全人口を代表することを保証することは、統計学における中心的な問題の一つである。
ほとんどの古典的手法では、データセットはアナリストのクエリとは独立であると仮定し、複数の選択されたクエリのためにデータセットを再利用する共通設定で分解する。
このemph{adaptive data analysis} の問題は、Dwork et al. (STOC, 2015) と Hardt and Ullman (FOCS, 2014) のセミナーで定式化された。
クエリが適応的に選択された場合でも、クエリが代表され続けるという、驚くほど単純な仮定のセットを識別する。
この結果は,サブサンプリングに固有のノイズがクエリ応答の一般化を保証するのに十分であることを示している。
このサブサンプルベースのフレームワークの単純さにより、以前の作業でカバーされていないさまざまな現実世界のシナリオをモデル化することができる。
その単純さに加えて、統計的クエリと中央値探索という2つの基本的なタスクのメカニズムを設計することで、このフレームワークの有用性を実証する。
特に、広く適用可能な統計クエリのクラスに答えるメカニズムは、多くのパラメータレジームにおいて非常に単純かつ最先端のものである。 Ensuring that analyses performed on a dataset are representative of the entire population is one of the central problems in statistics. Most classical techniques assume that the dataset is independent of the analyst's query and break down in the common setting where a dataset is reused for multiple, adaptively chosen, queries. This problem of \emph{adaptive data analysis} was formalized in the seminal works of Dwork et al. (STOC, 2015) and Hardt and Ullman (FOCS, 2014). We identify a remarkably simple set of assumptions under which the queries will continue to be representative even when chosen adaptively: The only requirements are that each query takes as input a random subsample and outputs few bits. This result shows that the noise inherent in subsampling is sufficient to guarantee that query responses generalize. The simplicity of this subsampling-based framework allows it to model a variety of real-world scenarios not covered by prior work. In addition to its simplicity, we demonstrate the utility of this framework by designing mechanisms for two foundational tasks, statistical queries and median finding. In particular, our mechanism for answering the broadly applicable class of statistical queries is both extremely simple and state of the art in many parameter regimes. | 翻訳日:2023-09-22 19:55:49 公開日:2023-09-20 |
# 絡み合いの集約:ドメイン一般化におけるドメインのバリエーションを再考する Aggregation of Disentanglement: Reconsidering Domain Variations in Domain Generalization ( http://arxiv.org/abs/2302.02350v5 ) ライセンス: Link先を確認 | Daoan Zhang, Mingkai Chen, Chenming Li, Lingyun Huang, Jianguo Zhang | (参考訳) ドメイン一般化(Domain Generalization, DG)は、さまざまなドメインにおけるモデル一般化を改善することを目的とした機械学習モデルの基本課題である。
以前の手法では、様々なソースドメインからドメイン不変機能を生成することに重点を置いている。
しかし,このドメインの変種には下流タスクのための有用な情報,ie,分類認識情報が含まれており,ほとんど無視されている。
ソースドメインからドメイン不変の機能を学ぶのと異なり、入力イメージをドメインエキスパート機能とノイズに分離します。
提案したドメインエキスパート機能は、各ドメインのイメージを独立して分類できる学習潜在空間にあり、分類対応ドメインのバリエーションを暗黙的に使用することができる。
分析に基づいて、ドメインエキスパート機能をソースドメインイメージから切り離し、ターゲットのテストドメインを表現するためのソースドメインエキスパート機能を集約する、ドメインディスタングルメントネットワーク(ddn)と呼ばれる新しいパラダイムを提案しました。
また、よりバランスよく分離可能な機能空間を形成するために、ドメインエキスパートの機能をガイドする新しいコントラスト学習手法も提案する。
PACS、VLCS、OfficeHome、DomainNet、TerraIncognitaの広く使われているベンチマーク実験は、最近提案された代替手法と比較して、我々の手法の競合性能を実証している。 Domain Generalization (DG) is a fundamental challenge for machine learning models, which aims to improve model generalization on various domains. Previous methods focus on generating domain invariant features from various source domains. However, we argue that the domain variantions also contain useful information, ie, classification-aware information, for downstream tasks, which has been largely ignored. Different from learning domain invariant features from source domains, we decouple the input images into Domain Expert Features and noise. The proposed domain expert features lie in a learned latent space where the images in each domain can be classified independently, enabling the implicit use of classification-aware domain variations. Based on the analysis, we proposed a novel paradigm called Domain Disentanglement Network (DDN) to disentangle the domain expert features from the source domain images and aggregate the source domain expert features for representing the target test domain. We also propound a new contrastive learning method to guide the domain expert features to form a more balanced and separable feature space. Experiments on the widely-used benchmarks of PACS, VLCS, OfficeHome, DomainNet, and TerraIncognita demonstrate the competitive performance of our method compared to the recently proposed alternatives. | 翻訳日:2023-09-22 19:55:07 公開日:2023-09-20 |
# 忠実な思考連鎖の推論 Faithful Chain-of-Thought Reasoning ( http://arxiv.org/abs/2301.13379v3 ) ライセンス: Link先を確認 | Qing Lyu, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao, Eric Wong, Marianna Apidianaki, Chris Callison-Burch | (参考訳) CoT(Chain-of-Thought)が言語モデル(LM)のパフォーマンスを、複雑な推論タスクで促進する一方で、生成された推論チェーンは、モデルが解答(すなわち忠実性)にどのように到着するかを必ずしも反映していない。
我々は,翻訳(自然言語クエリ$\rightarrow$symbolal reasoning chain)と問題解決(reasoning chain$\rightarrow$ answer)の2段階からなる推論フレームワークである honest cot を提案する。
これにより、推論チェインが最終回答の忠実な説明を提供することが保証される。
解釈性以外にも、Faithful CoTは経験的なパフォーマンスも改善している。これは4つの異なる領域からベンチマーク10の標準CoTよりも優れており、相対的な精度は数学語問題(MWP)が6.3%、計画が3.4%、マルチホップ質問回答(QA)が5.5%、関係推論が21.4%向上している。
さらに、GPT-4とCodexでは、7つのデータセット(そのうち6つで95.0以上の精度で)に最新の数ショットのパフォーマンスを設定し、忠実さと正確さの強い相乗効果を示す。 While Chain-of-Thought (CoT) prompting boosts Language Models' (LM) performance on a gamut of complex reasoning tasks, the generated reasoning chain does not necessarily reflect how the model arrives at the answer (aka. faithfulness). We propose Faithful CoT, a reasoning framework involving two stages: Translation (Natural Language query $\rightarrow$ symbolic reasoning chain) and Problem Solving (reasoning chain $\rightarrow$ answer), using an LM and a deterministic solver respectively. This guarantees that the reasoning chain provides a faithful explanation of the final answer. Aside from interpretability, Faithful CoT also improves empirical performance: it outperforms standard CoT on 9 of 10 benchmarks from 4 diverse domains, with a relative accuracy gain of 6.3% on Math Word Problems (MWP), 3.4% on Planning, 5.5% on Multi-hop Question Answering (QA), and 21.4% on Relational Inference. Furthermore, with GPT-4 and Codex, it sets the new state-of-the-art few-shot performance on 7 datasets (with 95.0+ accuracy on 6 of them), showing a strong synergy between faithfulness and accuracy. | 翻訳日:2023-09-22 19:54:44 公開日:2023-09-20 |
# 原子位置の急激な変化後の動的原子壁カシミール・ポルダー効果 Dynamical atom-wall Casimir-Polder effect after a sudden change of the atomic position ( http://arxiv.org/abs/2304.06424v2 ) ライセンス: Link先を確認 | Antonio Noto, Roberto Passante, Lucia Rizzuto and Salvatore Spagnolo | (参考訳) 本研究では,原子と導電壁の間の動力学的カシミール・ポルダー力について,部分的に服を着た状態から系の時間発展過程について検討する。
この状態は、プレートに対する原子位置の急激な変化によって得られる。
時間依存的な原子板カシミール・ポルダー力を評価するために、フィールドと原子作用素に対するハイゼンベルク方程式を反復的手法で解く。
動的原子プレートカシミール・ポルダー相互作用は時間的振動を示し,時間的・原子壁距離によって誘引的・反発的であることがわかった。
また, 電場や原子ハミルトニアンなどの大域観測器の時間依存性についても検討し, 相互作用エネルギーを平衡配置に導く力学過程の興味深い特徴について考察した。 We investigate the dynamical Casimir-Polder force between an atom and a conducting wall during the time evolution of the system from a partially dressed state. This state is obtained by a sudden change of the atomic position with respect to the plate. To evaluate the time-dependent atom-plate Casimir-Polder force we solve the Heisenberg equations for the field and atomic operators by an iterative technique. We find that the dynamical atom-plate Casimir-Polder interaction exhibits oscillation in time, and can be attractive or repulsive depending on time and the atom-wall distance. We also investigate the time dependence of global observables, such as the field and atomic Hamiltonians, and discuss some interesting features of the dynamical process bringing the interaction energy to the equilibrium configuration. | 翻訳日:2023-09-22 19:47:31 公開日:2023-09-20 |
# 時間平均制約を考慮した制御系オンライン最適化のためのプライマル・ディダル・コンテクストベイズ最適化 Primal-Dual Contextual Bayesian Optimization for Control System Online Optimization with Time-Average Constraints ( http://arxiv.org/abs/2304.06104v4 ) ライセンス: Link先を確認 | Wenjie Xu, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones | (参考訳) 本稿では,制約付き閉ループ制御システムのオンライン性能最適化の問題点について検討する。
一定の規則性条件下での動的最適解に対して,線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
さらに、アルゴリズムは平均時間制約違反をゼロとし、制約関数の平均値が所望の制約を満たすことを保証する。
本手法はガウシアンプロセスから採取したサンプルインスタンスと, 連続発振型原子炉パラメータチューニング問題の両方に適用し, シミュレーション結果から, ほぼ最適性能を同時に提供し, 平均的な制約実現性を維持することを示す。
これは、提示されたケーススタディに対する大きな累積的後悔または厳しい制約違反に苦しむ現在の最先端の手法とは対照的である。 This paper studies the problem of online performance optimization of constrained closed-loop control systems, where both the objective and the constraints are unknown black-box functions affected by exogenous time-varying contextual disturbances. A primal-dual contextual Bayesian optimization algorithm is proposed that achieves sublinear cumulative regret with respect to the dynamic optimal solution under certain regularity conditions. Furthermore, the algorithm achieves zero time-average constraint violation, ensuring that the average value of the constraint function satisfies the desired constraint. The method is applied to both sampled instances from Gaussian processes and a continuous stirred tank reactor parameter tuning problem; simulation results show that the method simultaneously provides close-to-optimal performance and maintains constraint feasibility on average. This contrasts current state-of-the-art methods, which either suffer from large cumulative regret or severe constraint violations for the case studies presented. | 翻訳日:2023-09-22 19:47:19 公開日:2023-09-20 |
# オフラインナノサテライトタスクスケジューリング問題のためのグラフニューラルネットワーク Graph Neural Networks for the Offline Nanosatellite Task Scheduling Problem ( http://arxiv.org/abs/2303.13773v2 ) ライセンス: Link先を確認 | Bruno Machado Pacheco, Laio Oriel Seman, Cezar Antonio Rigo, Eduardo Camponogara, Eduardo Augusto Bezerra, Leandro dos Santos Coelho | (参考訳) 本研究では,グラフニューラルネットワーク(GNN)を用いて,ナノサテライトタスクをより効率的にスケジュールする方法を検討する。
オフライン・ナノサテライト・タスク・スケジューリング(onts)問題では、優先度、最小および最大アクティベーションイベント、実行時間枠、期間、実行ウィンドウといったqos(quality-of-service)の考慮事項や、衛星の電力資源の制約、エネルギーの収穫および管理の複雑さを考慮して、軌道上で実行するタスクの最適なスケジュールを見出すことが目的である。
ONTS問題は、従来の数学的定式化や正確な方法を用いてアプローチされてきたが、問題の挑戦事例への適用性は限られている。
本研究は,旅行セールスマン,スケジューリング,施設配置問題などの最適化問題に効果的に適用された,この文脈におけるGNNの利用について検討する。
具体的には、GNNがONTS問題の複雑な構造を、候補解の実現可能性と最適性に関して学習できるかどうかを検討する。
さらに、我々は、GNNベースのヒューリスティックソリューションを用いて、ONTS問題に対するより良いソリューション(例えば、目的値)を提供し、最適化コストを低減することを評価する。
実験の結果、GNNはONTS問題のインスタンスの実現可能性と最適性を学習できるだけでなく、トレーニング中のインスタンスよりも難しいインスタンスに一般化できることがわかった。
さらに,gnnベースのヒューリスティックスは,scip(solving constraints integer programs)ソルバのオフ・ザ・棚構成と比較して,時間制限下での最適解の期待目標値を45%改善し,実現可能な解を見つけるための所要時間を35%削減した。 This study investigates how to schedule nanosatellite tasks more efficiently using Graph Neural Networks (GNNs). In the Offline Nanosatellite Task Scheduling (ONTS) problem, the goal is to find the optimal schedule for tasks to be carried out in orbit while taking into account Quality-of-Service (QoS) considerations such as priority, minimum and maximum activation events, execution time-frames, periods, and execution windows, as well as constraints on the satellite's power resources and the complexity of energy harvesting and management. The ONTS problem has been approached using conventional mathematical formulations and exact methods, but their applicability to challenging cases of the problem is limited. This study examines the use of GNNs in this context, which has been effectively applied to optimization problems such as the traveling salesman, scheduling, and facility placement problems. More specifically, we investigate whether GNNs can learn the complex structure of the ONTS problem with respect to feasibility and optimality of candidate solutions. Furthermore, we evaluate using GNN-based heuristic solutions to provide better solutions (w.r.t. the objective value) to the ONTS problem and reduce the optimization cost. Our experiments show that GNNs are not only able to learn feasibility and optimality for instances of the ONTS problem, but they can generalize to harder instances than those seen during training. Furthermore, the GNN-based heuristics improved the expected objective value of the best solution found under the time limit in 45%, and reduced the expected time to find a feasible solution in 35%, when compared to the SCIP (Solving Constraint Integer Programs) solver in its off-the-shelf configuration | 翻訳日:2023-09-22 19:45:23 公開日:2023-09-20 |
# 量子技術応用のための広帯域半導体のドナー・アクセプター対 Donor-Acceptor Pairs in Wide-Bandgap Semiconductors for Quantum Technology Applications ( http://arxiv.org/abs/2305.05791v2 ) ライセンス: Link先を確認 | Anil Bilgin, Ian Hammock, Jeremy Estes, Yu Jin, Hannes Bernien, Alexander High, Giulia Galli | (参考訳) 本稿では,広帯域ギャップ半導体におけるドナー-アクセプタ対(daps)間の双極子-双極子カップリングを利用した量子科学プラットフォームを提案する。
ダイヤモンドおよび炭化ケイ素(SiC)の置換点欠陥によって形成されるDAPの電子構造と相互作用を,密度汎関数理論(DFT)に基づいて計算する。
我々は、最も安定な電荷状態を決定し、制約付きDFTを用いてゼロフォノン線を評価し、その結果を単純なドナー・アクセプタペア(DAP)モデルと比較する。
地盤と励起状態の偏光差は、ダイヤモンドおよびSiC中のいくつかのDAPに対して異常に大きな電気双極子モーメントをもたらすことを示す。
選択された置換原子の放射寿命と発光スペクトルを予測し、ダイヤモンド中のb-n対は大きな電子-フォノンカップリングのため制御が難しいが、sic、特にal-n対のdapsは長距離光制御可能な相互作用を実現するのに適していることを示す。 We propose a quantum science platform utilizing the dipole-dipole coupling between donor-acceptor pairs (DAPs) in wide bandgap semiconductors to realize optically controllable, long-range interactions between defects in the solid state. We carry out calculations based on density functional theory (DFT) to investigate the electronic structure and interactions of DAPs formed by various substitutional point defects in diamond and silicon carbide (SiC). We determine the most stable charge states and evaluate zero phonon lines using constrained DFT and compare our results with those of simple donor-acceptor pair (DAP) models. We show that polarization differences between ground and excited states lead to unusually large electric dipole moments for several DAPs in diamond and SiC. We predict radiative lifetimes and photoluminescence spectra for selected substitutional atoms and show that while B-N pairs in diamond are challenging to control due to their large electron-phonon coupling, DAPs in SiC, especially Al-N pairs, are suitable candidates to realize long-range optically controllable interactions. | 翻訳日:2023-09-22 19:37:41 公開日:2023-09-20 |
# ブラックホール内部の非等尺符号 : 基礎と有効動力学から Non-isometric codes for the black hole interior from fundamental and effective dynamics ( http://arxiv.org/abs/2304.12345v3 ) ライセンス: Link先を確認 | Oliver DeWolfe and Kenneth Higginbotham | (参考訳) 基礎力学と有効力学の両方を含むブラックホール内部を符号化するための新しいホログラフマップを導入する。
このホログラフィックマップは、ブラックホールの外に自由度を引き出すのに間に合うように、内部の効果的な半古典的な重力記述の状態を進化させ、基本記述に間に合わせることによって構築される。
この ``backwards-forwards'' 写像は akers, engelhardt, harlow, penington, vardhan によって導入された型の後選択写像と等価であり、自明な実効的相互作用の場合、それらの相互作用が非自明であるときに適切な一般化を提供する。
この写像は時間発展に関して同値であり、ブラックホールの外側の任意の相互作用とは無関係である。
この構成は、ブラックホールの進化のユニタリティを正確に保ち、超ポリノミカルな計算複雑性を許さない方法で、インボーダーとの相互作用を含む。 We introduce a new holographic map for encoding black hole interiors by including both fundamental and effective dynamics. This holographic map is constructed by evolving a state in the effective, semiclassical gravity description of the interior backwards in time to pull the degrees of freedom outside the black hole, before evolving forwards in time in the fundamental description. We show this ``backwards-forwards'' map is equivalent to a post-selection map of the type introduced by Akers, Engelhardt, Harlow, Penington, and Vardhan, and in the case of trivial effective interactions reduces to their model, while providing a suitable generalization when those interactions are nontrivial. We show the map is equivariant with respect to time evolution, and independent of any interactions outside the black hole. This construction includes interactions with an infaller in a way that preserves the unitarity of black hole evolution exactly and does not allow for superpolynomial computational complexity. | 翻訳日:2023-09-22 19:35:27 公開日:2023-09-20 |
# ゼロショット分類のための素早い複雑性の探索--計算社会科学における大規模言語モデルの研究 Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science ( http://arxiv.org/abs/2305.14310v2 ) ライセンス: Link先を確認 | Yida Mu, Ben P. Wu, William Thorne, Ambrose Robinson, Nikolaos Aletras, Carolina Scarton, Kalina Bontcheva, Xingyi Song | (参考訳) LLM(Instruction-tuned Large Language Model)は印象的な言語理解と、特定のプロンプトに従う応答を生成する能力を示す。
しかしながら、これらのモデルのトレーニングに関連する計算要求のため、それらのアプリケーションはゼロショット設定を採用することが多い。
本稿では,ChatGPTとOpenAssistantという2つの公開LLMのゼロショット性能を,計算社会科学の6つの分類タスクの文脈で評価するとともに,様々なプロンプト戦略の効果についても検討する。
本研究は,ラベル定義をプロンプトに組み込む効果,ラベル名に対する同義語の使用,基礎モデルトレーニングにおける過去の記憶の統合の影響など,プロンプト複雑性の影響について検討した。
その結果、ゼロショット設定では、現在のLLMはより小型で微調整されたベースライントランスモデル(BERT-largeなど)の性能と一致しないことがわかった。
さらに,異なるプロンプト戦略が分類精度に大きく影響し,精度の変動やf1スコアが10\%を超えることが判明した。 Instruction-tuned Large Language Models (LLMs) have exhibited impressive language understanding and the capacity to generate responses that follow specific prompts. However, due to the computational demands associated with training these models, their applications often adopt a zero-shot setting. In this paper, we evaluate the zero-shot performance of two publicly accessible LLMs, ChatGPT and OpenAssistant, in the context of six Computational Social Science classification tasks, while also investigating the effects of various prompting strategies. Our experiments investigate the impact of prompt complexity, including the effect of incorporating label definitions into the prompt; use of synonyms for label names; and the influence of integrating past memories during foundation model training. The findings indicate that in a zero-shot setting, current LLMs are unable to match the performance of smaller, fine-tuned baseline transformer models (such as BERT-large). Additionally, we find that different prompting strategies can significantly affect classification accuracy, with variations in accuracy and F1 scores exceeding 10\%. | 翻訳日:2023-09-22 19:26:11 公開日:2023-09-20 |
# GrACE: 関連コード編集による生成 GrACE: Generation using Associated Code Edits ( http://arxiv.org/abs/2305.14129v3 ) ライセンス: Link先を確認 | Priyanshu Gupta, Avishree Khare, Yasharth Bajpai, Saikat Chakraborty, Sumit Gulwani, Aditya Kanade, Arjun Radhakrishna, Gustavo Soares, Ashish Tiwari | (参考訳) 開発者はバグ修正や新機能の追加など、さまざまな理由でコードの編集にかなりの時間を費やしている。
コード編集を予測する効果的な方法の設計は、コード編集の多様性と開発者の意図を捉えることの難しさから、活発だが困難な研究領域となっている。
本研究では,事前学習された大言語モデル(LLM)を,事前の関連編集の知識と組み合わせることで,これらの課題に対処する。
LLMの生成能力は、コード変更の多様性に対処し、事前編集でコード生成を条件付けることで、潜んでいる開発者の意図を捉えるのに役立つ。
Codex と CodeT5 の2つの有名な LLM を,ゼロショット設定と微調整設定でそれぞれ評価した。
2つのデータセットを用いて行った実験では、先行編集の知識がLLMの性能を大幅に向上させ、現在最先端のシンボルとニューラルアプローチと比較して、29%と54%の正確な編集コードを生成することができる。 Developers expend a significant amount of time in editing code for a variety of reasons such as bug fixing or adding new features. Designing effective methods to predict code edits has been an active yet challenging area of research due to the diversity of code edits and the difficulty of capturing the developer intent. In this work, we address these challenges by endowing pre-trained large language models (LLMs) of code with the knowledge of prior, relevant edits. The generative capability of the LLMs helps address the diversity in code changes and conditioning code generation on prior edits helps capture the latent developer intent. We evaluate two well-known LLMs, Codex and CodeT5, in zero-shot and fine-tuning settings respectively. In our experiments with two datasets, the knowledge of prior edits boosts the performance of the LLMs significantly and enables them to generate 29% and 54% more correctly edited code in top-1 suggestions relative to the current state-of-the-art symbolic and neural approaches, respectively. | 翻訳日:2023-09-22 19:25:49 公開日:2023-09-20 |
# ZeroFlow: 蒸留による高速,ゼロラベル,スケーラブルなScene Flow ZeroFlow: Fast, Zero Label, Scalable Scene Flow via Distillation ( http://arxiv.org/abs/2305.10424v5 ) ライセンス: Link先を確認 | Kyle Vedder, Neehar Peri, Nathaniel Chodosh, Ishan Khatri, Eric Eaton, Dinesh Jayaraman, Yang Liu, Deva Ramanan, James Hays | (参考訳) シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。
State-of-the-artメソッドは強力な事前処理とテストタイム最適化技術を使用するが、大規模なポイントクラウドを処理するには数秒の順序を必要とするため、オープンワールドオブジェクト検出などのリアルタイムアプリケーションではコンピュータビジョンプリミティブとして使用できない。
フィードフォワード法はかなり高速で、大規模なポイントクラウドでは数十から数百ミリ秒の順序で実行されるが、高価な人的監督が必要である。
いずれの制限にも対処すべく,ラベルフリーな最適化手法を用いてフィードフォワードモデルを監督する,簡便でスケーラブルな蒸留フレームワークである蒸留によるシーンフローを提案する。
このフレームワークのインスタンス化であるZeroFlowは、大規模で多様なラベル付きデータをトレーニングすることで、ゼロのラベルを使用しながら、Argoverse 2 Self-Supervised Scene Flow Challengeにおける最先端のパフォーマンスを達成する。
テスト時には、ZeroFlowは、大規模なポイントクラウド上のラベルのない最先端の最適化ベースのメソッドよりも1000$\times$高速で、そのデータの人的アノテーションのコストよりも、ラベル付きデータでトレーニングするコストが1000$\times$以上である。
さらなる研究を容易にするため、Argoverse 2とWaymo Openデータセット用のコード、トレーニング済みモデルウェイト、高品質な擬似ラベルをリリースします。 Scene flow estimation is the task of describing the 3D motion field between temporally successive point clouds. State-of-the-art methods use strong priors and test-time optimization techniques, but require on the order of tens of seconds to process large-scale point clouds, making them unusable as computer vision primitives for real-time applications such as open world object detection. Feed forward methods are considerably faster, running on the order of tens to hundreds of milliseconds for large-scale point clouds, but require expensive human supervision. To address both limitations, we propose Scene Flow via Distillation, a simple, scalable distillation framework that uses a label-free optimization method to produce pseudo-labels to supervise a feed forward model. Our instantiation of this framework, ZeroFlow, achieves state-of-the-art performance on the Argoverse 2 Self-Supervised Scene Flow Challenge while using zero human labels by simply training on large-scale, diverse unlabeled data. At test-time, ZeroFlow is over 1000$\times$ faster than label-free state-of-the-art optimization-based methods on large-scale point clouds and over 1000$\times$ cheaper to train on unlabeled data compared to the cost of human annotation of that data. To facilitate further research, we will release our code, trained model weights, and high quality pseudo-labels for the Argoverse 2 and Waymo Open datasets. | 翻訳日:2023-09-22 19:24:52 公開日:2023-09-20 |
# スコアベース画像を用いたポアソン-ガウスホログラフィ位相検索 Poisson-Gaussian Holographic Phase Retrieval with Score-based Image Prior ( http://arxiv.org/abs/2305.07712v2 ) ライセンス: Link先を確認 | Zongyu Li, Jason Hu, Xiaojian Xu, Liyue Shen and Jeffrey A. Fessler | (参考訳) 位相検索(PR)は多くのイメージングアプリケーションにおいて重要な問題である。
本研究では,光イメージングシステムで一般的に発生するポアソンノイズとガウスノイズの組み合わせによって測定値が影響を受ける状況において,ホログラフィック位相検索問題を解くことに焦点を当てる。
この問題に対処するために、スコア関数を生成前として、アクセラレーションされたWirtinger Flow (AWF) を用いる「AWFS」と呼ばれる新しいアルゴリズムを提案する。
具体的には、データ忠実性と正規化項の両方を組み込んだ最適化問題としてpr問題を定式化する。
PRの対数様関数の勾配を計算し、対応するリプシッツ定数を決定する。
さらに,画像先行分布の勾配情報を取り込むためにスコアマッチングを用いて,正規化フレームワークにおける生成前処理を導入する。
本稿では,提案アルゴリズムの臨界点収束を保証する理論解析を行う。
3つの異なるデータセットに対するシミュレーション実験の結果は以下の通りである。
1)PG確率モデルを用いることで,提案アルゴリズムはガウス確率やポアソン確率のみに基づくアルゴリズムと比較して再構成を改善する。
2)提案したスコアベース画像先行手法は,拡散確率モデル(DDPM)に基づく手法と,乗算器のプラグアンドプレイ交互方向法(PnP-ADMM)と復調による正規化(RED)に基づく手法より優れている。 Phase retrieval (PR) is a crucial problem in many imaging applications. This study focuses on resolving the holographic phase retrieval problem in situations where the measurements are affected by a combination of Poisson and Gaussian noise, which commonly occurs in optical imaging systems. To address this problem, we propose a new algorithm called "AWFS" that uses the accelerated Wirtinger flow (AWF) with a score function as generative prior. Specifically, we formulate the PR problem as an optimization problem that incorporates both data fidelity and regularization terms. We calculate the gradient of the log-likelihood function for PR and determine its corresponding Lipschitz constant. Additionally, we introduce a generative prior in our regularization framework by using score matching to capture information about the gradient of image prior distributions. We provide theoretical analysis that establishes a critical-point convergence guarantee for the proposed algorithm. The results of our simulation experiments on three different datasets show the following: 1) By using the PG likelihood model, the proposed algorithm improves reconstruction compared to algorithms based solely on Gaussian or Poisson likelihood. 2) The proposed score-based image prior method, performs better than the method based on denoising diffusion probabilistic model (DDPM), as well as plug-and-play alternating direction method of multipliers (PnP-ADMM) and regularization by denoising (RED). | 翻訳日:2023-09-22 19:23:30 公開日:2023-09-20 |
# プログラム可能なツイーザアレイに対するハバードパラメータ Hubbard parameters for programmable tweezer arrays ( http://arxiv.org/abs/2306.03019v2 ) ライセンス: Link先を確認 | Hao-Tian Wei, Eduardo Ibarra-Garc\'ia-Padilla, Michael L. Wall, and Kaden R. A. Hazzard | (参考訳) フェルミ・ハバード・トウィーザーアレイの実験的な実現は、プログラマブル・格子幾何学とハバードモデルパラメータを単一サイトイメージングと組み合わせたフェルミイオン物質工学の新しい段階を開く。
これらの多用途なフェルミ・ハバード模型を量子シミュレータとして用いるためには、ハバードパラメータを記述することが重要である。
ここでは、任意の2次元格子ジオメトリのハバードモデルパラメータを計算する方法を開発し、複数のバンドとフェルミオンとボソンの両方に対して、トンネリング$t$、オンサイトポテンシャル$V$、相互作用$U$。
いくつかの例を示す。
1つの注目すべき発見は、同じ深さと分離されたツイーザが空間的に一様でないハバードパラメータを実際に与え、これらのパラメータを等しくするトラップ構成を見つける手順を示すことである。
より一般に、これらの手順はハバードパラメータを計算する逆問題を解く: 所望のハバードパラメータが与えられたとき、それらを実現するためのトラップ構成を見つける。
これらの手法はトンネル結合tweezer配列を使用するための重要なツールとなる。 The experimental realization of Fermi-Hubbard tweezer arrays opens a new stage for engineering fermionic matter, where programmable lattice geometries and Hubbard model parameters are combined with single-site imaging. In order to use these versatile experimental Fermi-Hubbard models as quantum simulators, it is crucial to know the Hubbard parameters describing them. Here we develop methods to calculate the Hubbard model parameters of arbitrary two-dimensional lattice geometries: the tunneling $t$, on-site potential $V$, and interaction $U$, for multiple bands and for both fermions and bosons. We show several examples. One notable finding is that equally deep and separated tweezers actually give spatially non-uniform Hubbard parameters, and we demonstrate procedures to find trap configurations that equalize these parameters. More generally, these procedures solve the inverse problem of calculating Hubbard parameters: given desired Hubbard parameters, find trap configurations to realize them. These methods will be critical tools for using tunnel-coupled tweezer arrays. | 翻訳日:2023-09-22 19:14:55 公開日:2023-09-20 |
# 教師なしフレーム対セグメントアライメントによる順列認識アクションセグメンテーション Permutation-Aware Action Segmentation via Unsupervised Frame-to-Segment Alignment ( http://arxiv.org/abs/2305.19478v3 ) ライセンス: Link先を確認 | Quoc-Huy Tran, Ahmed Mehmood, Muhammad Ahmed, Muhammad Naufil, Anas Zafar, Andrey Konin, M. Zeeshan Zia | (参考訳) 本稿では,フレームレベルのキューだけでなくセグメントレベルのキューも活用した,時間的アクティビティセグメンテーションのための教師なしトランスフォーマティブフレームワークを提案する。
これは、フレームレベルの情報のみに依存する従来の方法とは対照的である。
我々のアプローチは、トランスフォーマーエンコーダを介してフレームワイズアクションクラスを推定するフレームレベル予測モジュールから始まる。
フレームレベルの予測モジュールは、時間的最適輸送を介して教師なしの方法で訓練される。
セグメントレベル情報を活用するために,セグメントレベル予測モジュールとフレーム間アライメントモジュールを用いる。
前者はビデオの書き起こしを推定するトランスデコーダを含み、後者はフレームレベルの特徴とセグメントレベルの特徴をマッチさせ、順列対応のセグメンテーション結果が得られる。
さらに,時間的最適移動に触発されて,上述のモジュールの教師なし学習のための単純イット有効擬似ラベルを導入する。
4つのパブリックデータセット、すなわち50のサラダ、youtubeのインストラクション、朝食、デスクトップアセンブリの実験では、教師なしアクティビティセグメンテーションにおける従来の方法と同等あるいは優れたパフォーマンスを達成しています。 This paper presents an unsupervised transformer-based framework for temporal activity segmentation which leverages not only frame-level cues but also segment-level cues. This is in contrast with previous methods which often rely on frame-level information only. Our approach begins with a frame-level prediction module which estimates framewise action classes via a transformer encoder. The frame-level prediction module is trained in an unsupervised manner via temporal optimal transport. To exploit segment-level information, we utilize a segment-level prediction module and a frame-to-segment alignment module. The former includes a transformer decoder for estimating video transcripts, while the latter matches frame-level features with segment-level features, yielding permutation-aware segmentation results. Moreover, inspired by temporal optimal transport, we introduce simple-yet-effective pseudo labels for unsupervised training of the above modules. Our experiments on four public datasets, i.e., 50 Salads, YouTube Instructions, Breakfast, and Desktop Assembly show that our approach achieves comparable or better performance than previous methods in unsupervised activity segmentation. | 翻訳日:2023-09-22 19:14:09 公開日:2023-09-20 |
# 局所応答:単純かつ累積的な回帰最小化のための文脈帯域 Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization ( http://arxiv.org/abs/2307.02108v2 ) ライセンス: Link先を確認 | Sanath Kumar Krishnamurthy, Ruohan Zhan, Susan Athey, Emma Brunskill | (参考訳) 単純後悔の最小化は、医療やeコマースなど、さまざまな領域で最適な治療方針を学ぶ上で重要な問題である。
しかし、文脈的盗賊設定では未検討のままである。
我々は,確率的文脈的帯域幅設定のための計算効率の良いバンド幅アルゴリズムの新たなファミリを提案し,その柔軟性を累積的後悔最小化(準最適最小保証付き)と単純な後悔最小化(SOTA保証付き)に適用する。
さらに,アルゴリズムは誤特定をモデル化し,連続アーム設定まで拡張する。
これらの利点は、「コンフォーマルアームセット」(CAS)の構築と依存から来ており、コンテキスト固有の最適アームを含む全てのコンテキストにおけるアームのセットを、コンテキスト分布全体にわたる確率で提供する。
単純かつ累積的後悔保証に対する我々の肯定的な結果は負の結果と対比され、これはアルゴリズムが最小限の累積後悔保証を同時に達成しながら、インスタンス依存の単純な後悔保証を達成できないことを示している。 Simple regret minimization is a critical problem in learning optimal treatment assignment policies across various domains, including healthcare and e-commerce. However, it remains understudied in the contextual bandit setting. We propose a new family of computationally efficient bandit algorithms for the stochastic contextual bandit settings, with the flexibility to be adapted for cumulative regret minimization (with near-optimal minimax guarantees) and simple regret minimization (with SOTA guarantees). Furthermore, our algorithms adapt to model misspecification and extend to the continuous arm settings. These advantages come from constructing and relying on "conformal arm sets" (CASs), which provide a set of arms at every context that encompass the context-specific optimal arm with some probability across the context distribution. Our positive results on simple and cumulative regret guarantees are contrasted by a negative result, which shows that an algorithm can't achieve instance-dependent simple regret guarantees while simultaneously achieving minimax optimal cumulative regret guarantees. | 翻訳日:2023-09-22 19:04:27 公開日:2023-09-20 |
# $\lambda$-AC: 連続状態空間における強化学習のための潜在的意思決定モデル学習 $\lambda$-AC: Learning latent decision-aware models for reinforcement learning in continuous state-spaces ( http://arxiv.org/abs/2306.17366v2 ) ライセンス: Link先を確認 | Claas A Voelcker, Arash Ahmadian, Romina Abachi, Igor Gilitschenski, Amir-massoud Farahmand | (参考訳) 意思決定に重要な場所ではモデルが正確であるべきだという意思決定モデル学習の考え方は、モデルベースの強化学習において注目を集めている。
有望な理論的結果が確立されている一方で、特に連続制御問題において、決定認識損失を利用したアルゴリズムの実証的性能が欠如している。
本稿では,意思決定対応強化学習モデルに必要な要素について検討し,優れたアルゴリズムを実現する設計選択について述べる。
この目的のために、この分野における顕著なアルゴリズム的アイデアの理論的および実証的研究を行う。
我々は,MuZeroシリーズで確立された経験的設計決定が,関連するアルゴリズムの性能向上に不可欠であることを強調し,確率的環境における値認識アルゴリズムの異なるインスタンス化の挙動の違いを示す。
これらの知見を用いて,連続状態空間における意思決定モデルに基づく強化学習のための潜在モデルに基づく決定アウェアアクタ-クリティックフレームワーク(\lambda$-ac)を提案し,異なる環境における重要な設計選択を強調する。 The idea of decision-aware model learning, that models should be accurate where it matters for decision-making, has gained prominence in model-based reinforcement learning. While promising theoretical results have been established, the empirical performance of algorithms leveraging a decision-aware loss has been lacking, especially in continuous control problems. In this paper, we present a study on the necessary components for decision-aware reinforcement learning models and we showcase design choices that enable well-performing algorithms. To this end, we provide a theoretical and empirical investigation into prominent algorithmic ideas in the field. We highlight that empirical design decisions established in the MuZero line of works are vital to achieving good performance for related algorithms, and we showcase differences in behavior between different instantiations of value-aware algorithms in stochastic environments. Using these insights, we propose the Latent Model-Based Decision-Aware Actor-Critic framework ($\lambda$-AC) for decision-aware model-based reinforcement learning in continuous state-spaces and highlight important design choices in different environments. | 翻訳日:2023-09-22 19:03:30 公開日:2023-09-20 |
# 部分微分方程式に対するハイエナニューラル演算子 Hyena Neural Operator for Partial Differential Equations ( http://arxiv.org/abs/2306.16524v2 ) ライセンス: Link先を確認 | Saurabh Patil, Zijie Li, Amir Barati Farimani | (参考訳) 偏微分方程式の数値解法は一般に計算コストのかかる時空間スケールを解くために細かな離散化を必要とする。
ディープラーニングの最近の進歩は、ニューラル演算子の使用を含む偏微分方程式を解く新しいアプローチをもたらした。
ニューラルネットワークは、関数空間間のマッピングを学び、データに基づいて偏微分方程式を解く能力を持つニューラルネットワークアーキテクチャである。
本研究は,多層パーセプトロンによりパラメータ化される長い畳み込みフィルタを用いた,ハイエナと呼ばれるニューラル演算子を用いる。
ハイエナ作用素(hyena operator)は、大域的な受容場を楽しむ長い畳み込みをパラメータ化するために、準二次複雑性と状態空間モデルを楽しむ演算である。
このメカニズムは入力のコンテキストに対するモデルの理解を高め、異なる偏微分方程式のインスタンスに対するデータ依存重みを可能にする。
偏微分方程式の解法における層の効果を測定するため,拡散反応方程式とナビエ・ストークス方程式の実験を行った。
ヒエナニューラル作用素は偏微分方程式解演算子を学習するための効率的かつ正確なモデルとして機能することを示す。
使用したデータとコードは、https://github.com/Saupatil07/Hyena-Neural-Operator.comで見ることができる。 Numerically solving partial differential equations typically requires fine discretization to resolve necessary spatiotemporal scales, which can be computationally expensive. Recent advances in deep learning have provided a new approach to solving partial differential equations that involves the use of neural operators. Neural operators are neural network architectures that learn mappings between function spaces and have the capability to solve partial differential equations based on data. This study utilizes a novel neural operator called Hyena, which employs a long convolutional filter that is parameterized by a multilayer perceptron. The Hyena operator is an operation that enjoys sub-quadratic complexity and state space model to parameterize long convolution that enjoys a global receptive field. This mechanism enhances the model's comprehension of the input's context and enables data-dependent weight for different partial differential equations instances. To measure how effective the layers are in solving partial differential equations, we conduct experiments on Diffusion-Reaction equation and Navier Stokes equation. Our findings indicate Hyena Neural operator can serve as an efficient and accurate model for learning partial differential equations solution operator. The data and code used can be found at: https://github.com/Saupatil07/Hyena-Neural-Operator | 翻訳日:2023-09-22 19:03:11 公開日:2023-09-20 |
# サブシステムの量子フレーム相対性、相関、熱力学 Quantum Frame Relativity of Subsystems, Correlations and Thermodynamics ( http://arxiv.org/abs/2308.09131v2 ) ライセンス: Link先を確認 | Philipp A. Hoehn, Isha Kotecha, Fabio M. Mele | (参考訳) 最近、異なる内部量子参照フレーム(QRF)が、特別な相対性理論において異なる慣性観測者が異なる方法で時空を空間と時間に分解するのと同じように、システムを異なる方法でサブシステムに分割することを指摘された。
ここでは、サブシステムのこのQRF相対性理論を拡張し、それが全ての新しいQRF依存効果の源であることを解明する。
実際、サブシステム相対性理論は、内部フレームとの特殊相対性理論においても生じ、同時に同種の相対性理論が一般化されることを示す。
ここで体系的に探索したサブシステムのQRF相対性理論の物理的結果と同時性の相対性理論は同様の光で見ることができる。
我々は、qrf変換の下での量子熱力学過程と同様に、いつ、どのようにサブシステム相関やエントロピー、相互作用、ダイナミクスの種類(オープンとクローズド)を調べることに集中する。
熱平衡は一般相対的にQRFであり,QRF変換はサブシステム温度を変化させるだけでなく,正の正を負の温度状態にマッピングすることもできる。
さらに、熱と仕事交換の非平衡概念とエントロピーの生成とフローがQRFに依存するかについても検討する。
その過程で,qrf変化下でのサブシステム状態の変換方法に関する最初の研究を行った。
物理的な洞察に焦点をあてて、有限アーベル群に付随する理想的な QRF に制限する。
厳密さの他に、続く有限次元の設定では、量子情報理論量や量子熱力学が最適に発達する。
しかしながら、我々の結果はより一般的な群やフレーム、さらにはゲージ理論や重力のサブシステムにまで質的に拡張されると予想する。
abridged (複数形 abridgeds) It was recently noted that different internal quantum reference frames (QRFs) partition a system in different ways into subsystems, much like different inertial observers in special relativity decompose spacetime in different ways into space and time. Here we expand on this QRF relativity of subsystems and elucidate that it is the source of all novel QRF dependent effects, just like the relativity of simultaneity is the origin of all characteristic special relativistic phenomena. We show that subsystem relativity, in fact, also arises in special relativity with internal frames and, by implying the relativity of simultaneity, constitutes a generalisation of it. Physical consequences of the QRF relativity of subsystems, which we explore here systematically, and the relativity of simultaneity may thus be seen in similar light. We focus on investigating when and how subsystem correlations and entropies, interactions and types of dynamics (open vs. closed), as well as quantum thermodynamical processes change under QRF transformations. We show that thermal equilibrium is generically QRF relative and find that, remarkably, QRF transformations not only can change a subsystem temperature, but even map positive into negative temperature states. We further examine how non-equilibrium notions of heat and work exchange, as well as entropy production and flow depend on the QRF. Along the way, we develop the first study of how reduced subsystem states transform under QRF changes. Focusing on physical insights, we restrict to ideal QRFs associated with finite abelian groups. Besides being conducive to rigour, the ensuing finite-dimensional setting is where quantum information-theoretic quantities and quantum thermodynamics are best developed. We anticipate, however, that our results extend qualitatively to more general groups and frames, and even to subsystems in gauge theory and gravity. [abridged] | 翻訳日:2023-09-22 18:56:45 公開日:2023-09-20 |
# 多クラス学習能力はサンプル圧縮を含まない Multiclass Learnability Does Not Imply Sample Compression ( http://arxiv.org/abs/2308.06424v2 ) ライセンス: Link先を確認 | Chirag Pabbaraju | (参考訳) 仮説クラスはサンプル圧縮スキームを認め、もしクラスから仮説によってラベル付けされた全てのサンプルに対して、サンプル全体のラベルを推測できる小さなサブサンプルのみを保持することができる。
圧縮スキームのサイズは、生成されたサブサンプルのサイズの上限である。
すべての学習可能な二項仮説クラス(必ずしも有限VC次元を持つ必要がある)は、標本サイズとは独立に、そのVC次元の有限関数のみの大きさのサンプル圧縮スキームを許容する。
多クラス仮説クラスでは、VC次元のアナログはDS次元である。
サンプル圧縮に関する類似のステートメントは、多クラス仮説クラスには当てはまらないことが示されている: すべての学習可能な多クラス仮説クラスは、必ずしも有限のds次元を持つ必要があるが、そのds次元の有限関数のみの大きさのサンプル圧縮スキームを認めない。 A hypothesis class admits a sample compression scheme, if for every sample labeled by a hypothesis from the class, it is possible to retain only a small subsample, using which the labels on the entire sample can be inferred. The size of the compression scheme is an upper bound on the size of the subsample produced. Every learnable binary hypothesis class (which must necessarily have finite VC dimension) admits a sample compression scheme of size only a finite function of its VC dimension, independent of the sample size. For multiclass hypothesis classes, the analog of VC dimension is the DS dimension. We show that the analogous statement pertaining to sample compression is not true for multiclass hypothesis classes: every learnable multiclass hypothesis class, which must necessarily have finite DS dimension, does not admit a sample compression scheme of size only a finite function of its DS dimension. | 翻訳日:2023-09-22 18:55:32 公開日:2023-09-20 |
# 加速光によるフォトニック絡み合い Photonic entanglement with accelerated light ( http://arxiv.org/abs/2308.01764v2 ) ライセンス: Link先を確認 | R. C. Souza Pimenta, G. H. dos Santos, A. B. Barreto, L. C. Celeri and P. H. Souto Ribeiro | (参考訳) 加速光はレーザー光と回折で実証されている。
回折場内では、例えば重力場によって加速されたような曲線軌道で伝播するビームエネルギーの大部分を運ぶ部分を特定することができる。
ここでは、自然パラメトリックダウンコンバージョンで発生する双対ビーム間の絡み合いに対するこの種の加速度の影響を解析する。
その結果, 加速度は理想的な条件下では絡み合いに大きく影響しないことがわかった。
導入された光学スキームは重力と量子物理学の境界における過程の理解に有用である。 Accelerated light has been demonstrated with laser light and diffraction. Within the diffracting field it is possible to identify a portion that carries most of the beam energy, which propagates in a curved trajectory as it would have been accelerated by a gravitational field for instance. Here, we analyze the effects of this kind of acceleration over the entanglement between twin beams produced in spontaneous parametric down-conversion. Our results show that acceleration does not affect entanglement significantly, under ideal conditions. The optical scheme introduced can be useful in the understanding of processes in the boundary between gravitation and quantum physics. | 翻訳日:2023-09-22 18:54:38 公開日:2023-09-20 |
# 非局所量子場理論と量子絡み合い Nonlocal Quantum Field Theory and Quantum Entanglement ( http://arxiv.org/abs/2309.06576v2 ) ライセンス: Link先を確認 | Robin Landry and John Moffat | (参考訳) 量子力学の非局所的性質と、場の量子論によって定式化された相対論的量子力学との関係について論じる。
ここでは、有限の非局所量子場理論 (NLQFT) を用いて、ポアンカーの不変性、ユニタリ性、微視的因果性を満たす。
この非局所量子場理論は無限導関数全体とプロパゲータと頂点を関連付けている。
我々は因果性を証明することに集中し、相対論的場理論を構築する際にその重要性について議論する。
我々は、量子エンタングルメントと理論のエンタングルメントエントロピーを特徴づけるために、関数積分を用いてスカラー場理論を定式化する。
レプリカのトリックを用いて、円錐上の3 + 1次元の理論の絡み合いエントロピーを計算する。
その結果、uvの多様性がなくなり、地域法を回復します。 We discuss the nonlocal nature of quantum mechanics and the link with relativistic quantum mechanics such as formulated by quantum field theory. We use here a nonlocal quantum field theory (NLQFT) which is finite, satisfies Poincar\'e invariance, unitarity and microscopic causality. This nonlocal quantum field theory associates infinite derivative entire functions with propagators and vertices. We focus on proving causality and discussing its importance when constructing a relativistic field theory. We formulate scalar field theory using the functional integral in order to characterize quantum entanglement and the entanglement entropy of the theory. Using the replica trick, we compute the entanglement entropy for the theory in 3 + 1 dimensions on a cone. The result is free of UV divergences and we recover the area law. | 翻訳日:2023-09-22 18:36:24 公開日:2023-09-20 |
# 高調波発生における光位相とコヒーレンスの役割について On the role of the optical phase and coherence in high harmonic generation ( http://arxiv.org/abs/2309.05010v2 ) ライセンス: Link先を確認 | Philipp Stammer | (参考訳) 本研究では,高調波発生過程における光位相と駆動場のコヒーレンスについて解析する。
我々は、非コヒーレントな古典的および非古典的な強光場による高調波発生の過程の駆動を考察し、駆動場の位相が完全に未決定である場合においても、平均電界値が消滅することを示す。
これは、駆動場における量子光コヒーレンスが高調波放射を生成するために必要ではないことを意味し、その結果、これらの場合の放射光コヒーレンスも同様に量子光コヒーレンスを示さない。
さらに、各高調波の最終的な量子状態が光子数基底において対角的であることを示し、そこから高調波スペクトルの測定だけでは高調波放射のコヒーレンス特性を推測できないと結論付ける。 In this work we analyze the role of the optical phase and coherence of the driving field in the process of high harmonic generation. We consider driving the process of high harmonic generation with incoherent classical and non-classical intense light fields, and show that harmonic radiation can be generated even in cases where the phase of the driving field is completely undetermined leading to vanishing mean electric field values. This implies that quantum optical coherence in the driving field is not necessary for generating high harmonic radiation, with the consequence that the emitted harmonic radiation in those cases do likewise not exhibit quantum optical coherence. We further show that the final quantum state of each harmonic is diagonal in the photon number basis, from which we conclude that the measurement of the high harmonic spectrum alone does not allow to infer on the coherence properties of the harmonic radiation. | 翻訳日:2023-09-22 18:35:43 公開日:2023-09-20 |
# ConDA:AI生成テキスト検出のための対照的なドメイン適応 ConDA: Contrastive Domain Adaptation for AI-generated Text Detection ( http://arxiv.org/abs/2309.03992v2 ) ライセンス: Link先を確認 | Amrita Bhattacharjee, Tharindu Kumarage, Raha Moraffah, Huan Liu | (参考訳) 大規模言語モデル(llm)は、ジャーナリストのニュース記事を含む様々なユースケースでテキストを生成するためにますます使われている。
これらのLSMを大規模に偽情報を生成できる潜在的な悪意のある性質を考えると、このようなAI生成テキストのための効果的な検出器を構築することが重要である。
新たなLSMの開発が急増する中で、監視検出器のラベル付きトレーニングデータを取得することがボトルネックとなっている。
しかし、どのジェネレータから来たかの情報なしで、ラベルなしのテキストデータがたくさんあるかもしれません。
本研究では,aiが生成するニューステキストを検出し,教師なしのドメイン適応タスクとしてこの問題をフレーム化するという,このデータ問題に取り組む。
ここで、ドメインは異なるテキストジェネレータ、すなわちLLMであり、ラベル付きソースデータとラベルなしターゲットデータのみにアクセス可能であると仮定する。
ConDAと呼ばれるContrastive Domain Adaptationフレームワークを開発し、標準的なドメイン適応技術とコントラスト学習の表現力を融合させ、最終的な教師なし検出タスクに有効なドメイン不変表現を学習する。
本実験は,本フレームワークの有効性を実証し,最高性能のベースラインから平均31.7%,全監視検出器の0.8%の範囲で性能向上を実現した。
私たちのコードとデータは、https://github.com/AmritaBh/ConDA-gen-text-detectionで利用可能です。 Large language models (LLMs) are increasingly being used for generating text in a variety of use cases, including journalistic news articles. Given the potential malicious nature in which these LLMs can be used to generate disinformation at scale, it is important to build effective detectors for such AI-generated text. Given the surge in development of new LLMs, acquiring labeled training data for supervised detectors is a bottleneck. However, there might be plenty of unlabeled text data available, without information on which generator it came from. In this work we tackle this data problem, in detecting AI-generated news text, and frame the problem as an unsupervised domain adaptation task. Here the domains are the different text generators, i.e. LLMs, and we assume we have access to only the labeled source data and unlabeled target data. We develop a Contrastive Domain Adaptation framework, called ConDA, that blends standard domain adaptation techniques with the representation power of contrastive learning to learn domain invariant representations that are effective for the final unsupervised detection task. Our experiments demonstrate the effectiveness of our framework, resulting in average performance gains of 31.7% from the best performing baselines, and within 0.8% margin of a fully supervised detector. All our code and data is available at https://github.com/AmritaBh/ConDA-gen-text-detection. | 翻訳日:2023-09-22 18:34:45 公開日:2023-09-20 |
# rmt: 注意ネットワークが視覚トランスフォーマーに対応 RMT: Retentive Networks Meet Vision Transformers ( http://arxiv.org/abs/2309.11523v1 ) ライセンス: Link先を確認 | Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu and Ran He | (参考訳) Transformerは自然言語処理の分野で最初に登場し、後にコンピュータビジョン領域に移行し、視覚タスクにおける優れたパフォーマンスを示す。
しかし、最近、Retentive Network(RetNet)はTransformerを置き換える可能性のあるアーキテクチャとして登場し、NLPコミュニティで広く注目を集めている。
したがって、retnetのアイデアをビジョンに移すことが視覚タスクに優れたパフォーマンスをもたらすかどうかという疑問を提起する。
これを解決するために、RetNetとTransformerを組み合わせてRTTを提案する。
retnetにインスパイアされたrmtは、視覚バックボーンに明示的な減衰を導入し、視覚モデルに空間距離に関する事前知識をもたらす。
この距離に関連する空間的事前は、各トークンが参加できるトークンの範囲を明確に制御することができる。
さらに,大域モデリングの計算コストを低減するため,画像の2つの座標軸に沿ってこのモデリングプロセスを分解する。
冗長な実験により、RTTは様々なコンピュータビジョンタスクにおいて例外的な性能を示した。
例えば、rmt は 4.5g のフロップを用いて imagenet-1k 上で 84.1% の top1-acc を達成している。
我々の知る限りでは、RTTはモデルが同じサイズで同じ戦略で訓練された場合、トップ1-accを達成しています。
さらにRTTは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクにおいて、既存のビジョンバックボーンを著しく上回る。
私たちの仕事はまだ進行中です。 Transformer first appears in the field of natural language processing and is later migrated to the computer vision domain, where it demonstrates excellent performance in vision tasks. However, recently, Retentive Network (RetNet) has emerged as an architecture with the potential to replace Transformer, attracting widespread attention in the NLP community. Therefore, we raise the question of whether transferring RetNet's idea to vision can also bring outstanding performance to vision tasks. To address this, we combine RetNet and Transformer to propose RMT. Inspired by RetNet, RMT introduces explicit decay into the vision backbone, bringing prior knowledge related to spatial distances to the vision model. This distance-related spatial prior allows for explicit control of the range of tokens that each token can attend to. Additionally, to reduce the computational cost of global modeling, we decompose this modeling process along the two coordinate axes of the image. Abundant experiments have demonstrated that our RMT exhibits exceptional performance across various computer vision tasks. For example, RMT achieves 84.1% Top1-acc on ImageNet-1k using merely 4.5G FLOPs. To the best of our knowledge, among all models, RMT achieves the highest Top1-acc when models are of similar size and trained with the same strategy. Moreover, RMT significantly outperforms existing vision backbones in downstream tasks such as object detection, instance segmentation, and semantic segmentation. Our work is still in progress. | 翻訳日:2023-09-22 18:24:43 公開日:2023-09-20 |
# ディジタル量子コンピュータにおけるロバストな大周期離散時間結晶とそのシグネチャ A Robust Large-Period Discrete Time Crystal and its Signature in a Digital Quantum Computer ( http://arxiv.org/abs/2309.11560v1 ) ライセンス: Link先を確認 | Tianqi Chen, Ruizhe Shen, Ching Hua Lee, Bo Yang, Raditya Weda Bomantara | (参考訳) 離散時間結晶(DTCs)は、時間変換対称性を破る物質の非平衡量子状態である。
これまでのところ、周期双曲力学を示す最も単純なDTCのみが実験で明らかに実現されている。
我々は,非自明なDTC(4T$-DTCs)をサポートする直感的なスピン-1/2$システムを開発し,そのディジタルシミュレーションをノイズ量子プロセッサ上で実証する。
注目すべきことに、予測される4T$-DTCの強いサインが見つかり、場合によってはさまざまな種類の障害によって増幅される。
以上の結果から,時間結晶性形成における障害と量子相互作用の相互作用に光を当てるとともに,物質の非平衡量子状態をシミュレートするための,既存のノイズの多い中間量子デバイスの可能性を示すことができた。 Discrete time crystals (DTCs) are novel out-of-equilibrium quantum states of matter which break time translational symmetry. So far, only the simplest form of DTCs that exhibit period-doubling dynamics has been unambiguously realized in experiments. We develop an intuitive interacting spin-$1/2$ system that supports the more non-trivial period-quadrupling DTCs ($4T$-DTCs) and demonstrate its digital simulation on a noisy quantum processor. Remarkably, we found a strong signature of the predicted $4T$-DTC that is robust against and, in some cases, amplified by different types of disorders. Our findings thus shed light on the interplay between disorder and quantum interactions on the formation of time crystallinity beyond periodic-doubling, as well as demonstrate the potential of existing noisy intermediate-scale quantum devices for simulating exotic non-equilibrium quantum states of matter. | 翻訳日:2023-09-22 18:15:26 公開日:2023-09-20 |
# 神経形嗅覚回路における臭気認識と一般化の限界 Limitations in odour recognition and generalisation in a neuromorphic olfactory circuit ( http://arxiv.org/abs/2309.11555v1 ) ライセンス: Link先を確認 | Nik Dennler, Andr\'e van Schaik, Michael Schmuker | (参考訳) ニューロモルフィックコンピューティング(neuromorphic computing)は、機械学習や人工知能の消費電力を大幅に削減する可能性のある、現在のアプローチの1つだ。
Imam & Cleland氏は、ニューロモルフィックアーキテクチャ上で動作し、哺乳類の嗅球に記述された回路にインスパイアされた、臭気学習アルゴリズムを紹介した。
彼らは、異なる臭気提示のガスセンサの一連の記録を用いて、ガス臭気および無臭ガス(短い「ガス」)の「ラピッドオンライン学習と識別」におけるアルゴリズムの性能を評価し、インパルスノイズによってそれらを破損させた。
私たちは研究の一部を複製し、引き出された結論に影響を及ぼす限界を発見しました。
まず、使用するデータセットはセンサドリフトと非ランダムな測定プロトコルに悩まされ、臭気識別ベンチマークに限られている。
第二に、同じ気体の繰り返しのプレゼンテーションを一般化する能力に制限があることが判明した。
本研究では,提案する課題を単純なハッシュテーブルアプローチで解決できることを示し,その結果を精度と実行時間で一致または超えることを示した。
したがって、学習したデータサンプルの復元を超えるモデルの検証は、特に識別タスクの臭気に対する適合性を示す必要がある。 Neuromorphic computing is one of the few current approaches that have the potential to significantly reduce power consumption in Machine Learning and Artificial Intelligence. Imam & Cleland presented an odour-learning algorithm that runs on a neuromorphic architecture and is inspired by circuits described in the mammalian olfactory bulb. They assess the algorithm's performance in "rapid online learning and identification" of gaseous odorants and odorless gases (short "gases") using a set of gas sensor recordings of different odour presentations and corrupting them by impulse noise. We replicated parts of the study and discovered limitations that affect some of the conclusions drawn. First, the dataset used suffers from sensor drift and a non-randomised measurement protocol, rendering it of limited use for odour identification benchmarks. Second, we found that the model is restricted in its ability to generalise over repeated presentations of the same gas. We demonstrate that the task the study refers to can be solved with a simple hash table approach, matching or exceeding the reported results in accuracy and runtime. Therefore, a validation of the model that goes beyond restoring a learned data sample remains to be shown, in particular its suitability to odour identification tasks. | 翻訳日:2023-09-22 18:15:10 公開日:2023-09-20 |
# スピン-ボーソンモデルに対するハイブリッド量子古典的確率論的アプローチ Hybrid Quantum-Classical Stochastic Approach to Spin-Boson Models ( http://arxiv.org/abs/2309.11553v1 ) ライセンス: Link先を確認 | Naushad A. Kamar and Mohammad Maghrebi | (参考訳) 相互作用するスピン-ボーソンモデルは、単一のスピンでボソニック浴(量子不純物問題のパラダイム)と相互作用するモデルと、キャビティモードと相互作用する多くのスピンを持つモデルにまたがる、大きな種類の物理系を包含する。
このようなモデルは様々な量子シミュレーションプラットフォームに登場し、さらにノイズや損失のあるダイナミクスの対象となる。
汎用多体系として、スピンボーソンモデルの力学は難しい問題となっている。
本稿では,異なるスピン-ボーソンモデルに対する完全ハイブリッド量子古典的確率的アプローチを提案する。
このアプローチでは、古典的確率方程式(ボソニックモードを模倣する)の解がスピンの量子確率方程式に入力される。
さらに、スピンはそれぞれの確率的実現のために効果的に分離されるが、これは非物理的状態のサンプリングに費やされる。
驚くべきことに、このダイナミクスは強い結合体制においても私たちのアプローチにおいてマルコフ的のままです。
さらに、マルコフ散逸を利用して \textit{causality} を表わし、各実現のための密度行列のハーミシティ(正の値ではないが)を保証する。
最後に、多くの既存の方法とは対照的に、初期状態に制限を課さず、さらにボソニックモードの固有非線形性はこの枠組みの中で取り組めると論じる。
我々はいくつかの例、特に正確な数値計算が届かない場合に、この手法の有用性をベンチマークして紹介する。 Interacting spin-boson models encompass a large class of physical systems, spanning models with a single spin interacting with a bosonic bath -- a paradigm of quantum impurity problems -- to models with many spins interacting with a cavity mode -- a paradigm of quantum optics. Such models have emerged in various quantum simulation platforms which are further subject to noise and lossy dynamics. As generic many-body systems, dynamics of spin-boson models constitutes a challenging problem. In this paper, we present an exact hybrid quantum-classical stochastic approach to different spin-boson models which are typically treated using distinct techniques. In this approach, the solution of a classical stochastic equation (mimicking the bosonic modes) is input into a quantum stochastic equation for the spins. Furthermore, the spins are effectively decoupled for each stochastic realization, but this comes at the expense of sampling over unphysical states. Remarkably, the dynamics remains Markovian in our approach even in the strong coupling regime. Moreover, we utilize Markovian dissipation to make \textit{causality} manifest, thus ensuring hermiticity (though not positivity) of the density matrix for each realization. Finally, in contrast with many existing methods, we place no restriction on the initial state, and further argue that an intrinsic nonlinearity of the bosonic modes can be tackled within this framework. We benchmark and showcase the utility of our approach in several examples, specifically in cases where an exact numerical calculation is far from reach. | 翻訳日:2023-09-22 18:14:46 公開日:2023-09-20 |
# 量子コンピュータ上でのロバスト有限温度多体スキャリング Robust Finite-Temperature Many-Body Scarring on a Quantum Computer ( http://arxiv.org/abs/2309.11543v1 ) ライセンス: Link先を確認 | Jean-Yves Desaules, Erik J. Gustafson, Andy C. Y. Li, Zlatko Papi\'c, Jad C. Halimeh | (参考訳) ヒルベルト空間のフラグメンテーションや量子多体傷のような無秩序多体系の熱化を抑制するメカニズムは、最近量子統計物理学や潜在的な量子情報処理応用の基礎に大きな関心を集めている。
しかし、有限温度のような現実的な効果に対する感度はほとんど解明されていない。
そこで本研究では,ibmのコルカタ量子プロセッサを用いて,熱ギブスアンサンブルにおいて,有限温度における量子多体傷の予期せぬロバスト性を示す。
ライドバーグ原子配列と超低温原子の実験系における量子多体傷を説明するpxpモデルにおいて,このような頑健性が確認された。
対照的に、正確な量子多体傷を負う他の理論モデルは、そのような堅牢性に欠けており、その傷跡特性は温度とともに急速に崩壊する。
本研究は, 有限温度に対する弾力性に影響を与える代数的構造の観点から, スカーレッドモデル間の重要な違いを明らかにした。 Mechanisms for suppressing thermalization in disorder-free many-body systems, such as Hilbert space fragmentation and quantum many-body scars, have recently attracted much interest in foundations of quantum statistical physics and potential quantum information processing applications. However, their sensitivity to realistic effects such as finite temperature remains largely unexplored. Here, we have utilized IBM's Kolkata quantum processor to demonstrate an unexpected robustness of quantum many-body scars at finite temperatures when the system is prepared in a thermal Gibbs ensemble. We identify such robustness in the PXP model, which describes quantum many-body scars in experimental systems of Rydberg atom arrays and ultracold atoms in tilted Bose--Hubbard optical lattices. By contrast, other theoretical models which host exact quantum many-body scars are found to lack such robustness, and their scarring properties quickly decay with temperature. Our study sheds light on the important differences between scarred models in terms of their algebraic structures, which impacts their resilience to finite temperature. | 翻訳日:2023-09-22 18:14:20 公開日:2023-09-20 |
# ニューラル量子状態はボリュームロー基底状態を学ぶことができるか? Comment on "Can Neural Quantum States Learn Volume-Law Ground States?" ( http://arxiv.org/abs/2309.11534v1 ) ライセンス: Link先を確認 | Zakari Denis, Alessandro Sinibaldi, Giuseppe Carleo | (参考訳) パセッティとアル。
[物理レビュー文字131,036502 (2023)]最近、ボリュームローの絡み合いスケーリングによる基底状態波動関数の学習におけるニューラル量子状態(nqs)の可能性を評価した。
彼らはフィードフォワードニューラルネットワークを用いてNQSに焦点を当て、特にフェルミオンの複雑なSYKハミルトニアンに適用した。
彼らの数値結果は、システムのサイズが大きくなるにつれて必要な変動パラメータが指数関数的に増加することを示唆している。
このことは、非常に絡み合った波動関数に対するNQSの汎用性に挑戦し、確立された解析的および数値的な結果とは対照的である。
実験の結果, スピン問題とフェルミオン問題の両方において, NQS は体積法に絡み合った基底状態を学習できることがわかった。
本報告では,エンタングルメント内容と学習困難度との一般的な関係ではなく,非フェルミイオン性nqsのフェルミオン状態学習における非効率性を明らかにする。 Passetti et al. [Physical Review Letters 131, 036502 (2023)] recently assessed the potential of neural quantum states (NQS) in learning ground-state wave functions with volume-law entanglement scaling. They focused on NQS using feedforward neural networks, specifically applied to the complex SYK Hamiltonian for fermions. Their numerical results hint at an exponential increase in the required variational parameters as the system size grows, apparently tied to the entanglement growth within the SYK ground state. This challenges the general utility of NQS for highly entangled wavefunctions, contrasting with established analytical and numerical findings. Based on our experiments, we show that suitably chosen NQS can learn ground states with volume-law entanglement both for spin and fermionic problems. We argue that the setup utilized in the aforementioned letter reveals the inefficiency of non-fermionic NQS to learn fermionic states, rather than a general connection between entanglement content and learnability hardness. | 翻訳日:2023-09-22 18:14:03 公開日:2023-09-20 |
# EPTQ: Label-free Hessianによるトレーニング後の量子化の強化 EPTQ: Enhanced Post-Training Quantization via Label-Free Hessian ( http://arxiv.org/abs/2309.11531v1 ) ライセンス: Link先を確認 | Ofir Gordon, Hai Victor Habi and Arnon Netzer | (参考訳) ディープニューラルネットワーク(DNN)の量子化は、エンドユーザーデバイスにそのようなネットワークを埋め込む上で重要な要素となっている。
しかし、現在の量子化法は通常、コストのかかる精度劣化に悩まされる。
本稿では,EPTQと呼ばれるポストトレーニング量子化の高速化手法を提案する。
この方法は、層を適応重み付けした知識蒸留に基づいている。
さらに,タスク損失のヘッセン的トレースを近似する新しいラベルフリー手法である Label-Free Hessian を導入する。
このテクニックは、Hessianを計算するためのラベル付きデータセットの必要性を取り除く。
適応的な知識蒸留は、最適化を行いながらモデルの繊細な部分に注意を向けるためにラベルフリー・ヘッセン法を用いる。
EPTQを用いることで、ImageNet分類、COCOオブジェクト検出、意味的セグメンテーションのためのPascal-VOCなど、さまざまなモデル、タスク、データセットの最先端結果が得られます。
我々は,CNN,トランスフォーマー,ハイブリッド,MPPのみのモデルを含む拡張アーキテクチャ上でのEPTQの性能と互換性を実証する。 Quantization of deep neural networks (DNN) has become a key element in the efforts of embedding such networks on end-user devices. However, current quantization methods usually suffer from costly accuracy degradation. In this paper, we propose a new method for Enhanced Post Training Quantization named EPTQ. The method is based on knowledge distillation with an adaptive weighting of layers. In addition, we introduce a new label-free technique for approximating the Hessian trace of the task loss, named Label-Free Hessian. This technique removes the requirement of a labeled dataset for computing the Hessian. The adaptive knowledge distillation uses the Label-Free Hessian technique to give greater attention to the sensitive parts of the model while performing the optimization. Empirically, by employing EPTQ we achieve state-of-the-art results on a wide variety of models, tasks, and datasets, including ImageNet classification, COCO object detection, and Pascal-VOC for semantic segmentation. We demonstrate the performance and compatibility of EPTQ on an extended set of architectures, including CNNs, Transformers, hybrid, and MLP-only models. | 翻訳日:2023-09-22 18:13:39 公開日:2023-09-20 |
# 帰納的リンク予測のための関係の完全なトポロジ-アウェア相関 Learning Complete Topology-Aware Correlations Between Relations for Inductive Link Prediction ( http://arxiv.org/abs/2309.11528v1 ) ライセンス: Link先を確認 | Jie Wang, Hanzhu Chen, Qitan Lv, Zhihao Shi, Jiajun Chen, Huarui He, Hongtao Xie, Yongdong Zhang, and Feng Wu | (参考訳) インダクティブリンク予測 -- トレーニング中のエンティティと推論段階が異なる場合 -- は、エンティティに依存しない方法で進化する知識グラフを完了させる大きな可能性を示している。
多くの一般的な手法はグラフレベルの特徴のモデリングに重点を置いているが、エッジレベルの相互作用(特に関係間の意味的相関)は研究されていない。
しかしながら、関係間の意味的相関の望ましい性質は、本質的にエッジレベルとエンティティ非依存であることに気付く。
これは、エンティティに依存しない帰納的リンク予測タスクに対する意味的相関の大きな可能性を意味する。
本研究は, グラフ内のトポロジ構造と高い相関関係を持つ関係関係のトポロジ・アウェア・コレーションをモデル化するための, 新たなサブグラフベース手法であるTACOを提案する。
具体的には,2つの関係間の意味的相関を7つのトポロジ的パターンに分類し,各パターンの重要性を学習するために関係相関ネットワーク(RCN)を提案する。
RCN のポテンシャルをさらに活用するために,この部分グラフ内の完全なトポロジカルパターンを効果的に保存できる完全コモンニアインダストリアルサブグラフを提案する。
広範な実験により、tacoはグラフレベルの情報とエッジレベルのインタラクションを効果的に統合して推論を行い、インダクティブリンク予測タスクの既存の最先端手法よりも優れたパフォーマンスをもたらすことが示されている。 Inductive link prediction -- where entities during training and inference stages can be different -- has shown great potential for completing evolving knowledge graphs in an entity-independent manner. Many popular methods mainly focus on modeling graph-level features, while the edge-level interactions -- especially the semantic correlations between relations -- have been less explored. However, we notice a desirable property of semantic correlations between relations is that they are inherently edge-level and entity-independent. This implies the great potential of the semantic correlations for the entity-independent inductive link prediction task. Inspired by this observation, we propose a novel subgraph-based method, namely TACO, to model Topology-Aware COrrelations between relations that are highly correlated to their topological structures within subgraphs. Specifically, we prove that semantic correlations between any two relations can be categorized into seven topological patterns, and then proposes Relational Correlation Network (RCN) to learn the importance of each pattern. To further exploit the potential of RCN, we propose Complete Common Neighbor induced subgraph that can effectively preserve complete topological patterns within the subgraph. Extensive experiments demonstrate that TACO effectively unifies the graph-level information and edge-level interactions to jointly perform reasoning, leading to a superior performance over existing state-of-the-art methods for the inductive link prediction task. | 翻訳日:2023-09-22 18:13:21 公開日:2023-09-20 |
# TrueLearn:(例)フィードバックによるパーソナライズされた情報レコメンデーションのためのPythonライブラリ TrueLearn: A Python Library for Personalised Informational Recommendations with (Implicit) Feedback ( http://arxiv.org/abs/2309.11527v1 ) ライセンス: Link先を確認 | Yuxiang Qiu, Karim Djemili, Denis Elezi, Aaneel Shalman, Mar\'ia P\'erez-Ortiz, Sahan Bulathwela | (参考訳) 教育的(あるいはより一般的に情報的)レコメンデーションシステムを構築するための、オンライン学習ベイズモデルのファミリを含む、truelearn pythonライブラリについて説明する。
このモデル群は、人間直観的なユーザー表現を用いて「オープン学習者」の概念に従って設計された。
解釈可能性とユーザ制御のために、TrueLearnライブラリには、エンドユーザーが学習者モデルを視覚化するのに役立つさまざまな表現が含まれている。
ライブラリとともに、モデルの性能を測定するための評価指標を備えた暗黙的なフィードバック教育データセットを以前公開しました。
広範なドキュメンテーションとコーディングの例によって、機械学習開発者と教育データマイニングと学習分析の実践者の両方にとって、ライブラリは高いアクセス性を持つ。
ライブラリとサンプルによるサポートドキュメントはhttps://truelearn.readthedocs.io/en/latest.com/で入手できる。 This work describes the TrueLearn Python library, which contains a family of online learning Bayesian models for building educational (or more generally, informational) recommendation systems. This family of models was designed following the "open learner" concept, using humanly-intuitive user representations. For the sake of interpretability and putting the user in control, the TrueLearn library also contains different representations to help end-users visualise the learner models, which may in the future facilitate user interaction with their own models. Together with the library, we include a previously publicly released implicit feedback educational dataset with evaluation metrics to measure the performance of the models. The extensive documentation and coding examples make the library highly accessible to both machine learning developers and educational data mining and learning analytic practitioners. The library and the support documentation with examples are available at https://truelearn.readthedocs.io/en/latest. | 翻訳日:2023-09-22 18:12:54 公開日:2023-09-20 |
# iotシステムにおけるエキスパート支援分散学習アルゴリズムのためのラピッドベースセンサキャリブレーション Likelihood-based Sensor Calibration for Expert-Supported Distributed Learning Algorithms in IoT Systems ( http://arxiv.org/abs/2309.11526v1 ) ライセンス: Link先を確認 | R\"udiger Machhamer, Lejla Begic Fazlic, Eray Guven, David Junk, Gunes Karabulut Kurt, Stefan Naumann, Stephan Didas, Klaus-Uwe Gollmer, Ralph Bergmann, Ingo J. Timm, and Guido Dartmann | (参考訳) センサ技術の分野における重要な課題は、あるセンサから同じ設計の別のセンサーへの測定の適応手順の効率的な実装である。
1つの考え方は、専門家の知識によって改善できる、異なるシステム間のアフィン変換の推定を使用することである。
本稿では,1973年に発表された氷河研究による改良解を提案する。
このソリューションは,センサのソフトウェアキャリブレーション,エキスパートベース適応の実装,フェデレーション学習手法に適応できることが示されている。
シミュレーションと8つの同一センサを用いたマルチセンサボードの実測データを用いて本研究を評価した。
その結果,実データを用いたシミュレーションと実験の両面で改善が見られた。 An important task in the field of sensor technology is the efficient implementation of adaptation procedures of measurements from one sensor to another sensor of identical design. One idea is to use the estimation of an affine transformation between different systems, which can be improved by the knowledge of experts. This paper presents an improved solution from Glacier Research that was published back in 1973. It is shown that this solution can be adapted for software calibration of sensors, implementation of expert-based adaptation, and federated learning methods. We evaluate our research with simulations and also with real measured data of a multi-sensor board with 8 identical sensors. The results show an improvement for both the simulation and the experiments with real data. | 翻訳日:2023-09-22 18:12:37 公開日:2023-09-20 |
# 単視点新規ビュー合成のための光拡散 Light Field Diffusion for Single-View Novel View Synthesis ( http://arxiv.org/abs/2309.11525v1 ) ライセンス: Link先を確認 | Yifeng Xiong, Haoyu Ma, Shanlin Sun, Kun Han, Xiaohui Xie | (参考訳) 単一の参照画像に基づいて新たな視点から画像を生成する単一視点新規ビュー合成は,コンピュータビジョンにおいて重要な課題であるが難しい課題である。
近年,高忠実度画像を生成する能力が強かったため,この領域ではデノイジン拡散確率モデル(ddpm)が普及している。
しかし、現在の拡散に基づく方法は、カメラのポーズ行列を直接観察条件として、グローバルかつ暗黙的に3d制約を導入する。
これらの方法は、特に複雑なテクスチャや構造を持つ領域において、異なる視点から生成された画像間の一貫性に苦しむ可能性がある。
本研究では,単一ビュー新規ビュー合成のための条件付き拡散モデルである光場拡散(LFD)を提案する。
カメラポーズ行列を用いた従来の方法とは異なり、LFDはカメラビュー情報を光フィールド符号化に変換し、参照画像と組み合わせる。
この設計は拡散モデルに局所的な画素幅の制約を導入し、マルチビューの一貫性を向上させる。
いくつかのデータセットの実験では、LFDは高忠実度画像を効率よく生成し、複雑な領域でもより良い3D一貫性を維持することができる。
本手法は,nrfベースモデルよりも高品質な画像を生成することができ,他の拡散ベースモデルと類似したサンプル品質が得られるが,モデルサイズは3分の1に過ぎない。 Single-view novel view synthesis, the task of generating images from new viewpoints based on a single reference image, is an important but challenging task in computer vision. Recently, Denoising Diffusion Probabilistic Model (DDPM) has become popular in this area due to its strong ability to generate high-fidelity images. However, current diffusion-based methods directly rely on camera pose matrices as viewing conditions, globally and implicitly introducing 3D constraints. These methods may suffer from inconsistency among generated images from different perspectives, especially in regions with intricate textures and structures. In this work, we present Light Field Diffusion (LFD), a conditional diffusion-based model for single-view novel view synthesis. Unlike previous methods that employ camera pose matrices, LFD transforms the camera view information into light field encoding and combines it with the reference image. This design introduces local pixel-wise constraints within the diffusion models, thereby encouraging better multi-view consistency. Experiments on several datasets show that our LFD can efficiently generate high-fidelity images and maintain better 3D consistency even in intricate regions. Our method can generate images with higher quality than NeRF-based models, and we obtain sample quality similar to other diffusion-based models but with only one-third of the model size. | 翻訳日:2023-09-22 18:12:28 公開日:2023-09-20 |
# CATS:ディープラーニングを用いたプライバシー保護トラジェクトリデータパブリケーションのための条件付き逆軌道合成 CATS: Conditional Adversarial Trajectory Synthesis for Privacy-Preserving Trajectory Data Publication Using Deep Learning Approaches ( http://arxiv.org/abs/2309.11587v1 ) ライセンス: Link先を確認 | Jinmeng Rao, Song Gao, Sijia Zhu | (参考訳) ユビキタスな位置認識デバイスとモバイルインターネットの普及により,ユーザから膨大な個人レベルの軌跡データセットを収集できる。
このような軌道上のビッグデータは、人間のモビリティ研究に新たな機会をもたらすだけでなく、位置情報のプライバシーに関する公衆の懸念も引き起こす。
本研究では、プライバシー保護トラジェクトリデータ生成と公開のためのディープラーニングベースのGeoAI方法論フレームワークであるConditional Adversarial Trajectory Synthesis (CATS)を提案する。
CATSは人間の運動の時空間分布にK匿名性を適用し、分散レベルの強いプライバシー保証を提供する。
CTSは、K-匿名化された人間の移動行列に対する条件付き逆行訓練、注目に基づくメカニズムを用いた軌跡グローバルな学習、および隣接する軌跡の2部グラフマッチングを活用することにより、条件付きサンプリングされた場所から軌道トポロジを再構築し、プライバシー保護トラジェクトリデータ公開のための原データの補足や代替となる高品質な個別レベルの合成トラジェクトリデータを生成することができる。
実験の結果,90k以上のGPSトラジェクトリでは,プライバシ保存,時空間特性保存,下流ユーティリティが基本手法よりも優れており,生成AI技術を用いたプライバシ保存人間のモビリティ研究への新たな洞察をもたらし,GIScienceにおけるデータ倫理問題を探ることができた。 The prevalence of ubiquitous location-aware devices and mobile Internet enables us to collect massive individual-level trajectory dataset from users. Such trajectory big data bring new opportunities to human mobility research but also raise public concerns with regard to location privacy. In this work, we present the Conditional Adversarial Trajectory Synthesis (CATS), a deep-learning-based GeoAI methodological framework for privacy-preserving trajectory data generation and publication. CATS applies K-anonymity to the underlying spatiotemporal distributions of human movements, which provides a distributional-level strong privacy guarantee. By leveraging conditional adversarial training on K-anonymized human mobility matrices, trajectory global context learning using the attention-based mechanism, and recurrent bipartite graph matching of adjacent trajectory points, CATS is able to reconstruct trajectory topology from conditionally sampled locations and generate high-quality individual-level synthetic trajectory data, which can serve as supplements or alternatives to raw data for privacy-preserving trajectory data publication. The experiment results on over 90k GPS trajectories show that our method has a better performance in privacy preservation, spatiotemporal characteristic preservation, and downstream utility compared with baseline methods, which brings new insights into privacy-preserving human mobility research using generative AI techniques and explores data ethics issues in GIScience. | 翻訳日:2023-09-22 18:04:10 公開日:2023-09-20 |
# SpeechAlign: 音声翻訳アライメント評価のためのフレームワーク SpeechAlign: a Framework for Speech Translation Alignment Evaluation ( http://arxiv.org/abs/2309.11585v1 ) ライセンス: Link先を確認 | Belen Alastruey, Aleix Sant, Gerard I. G\'allego, David Dale and Marta R. Costa-juss\`a | (参考訳) 音声対音声翻訳と音声対テキスト翻訳は現在、ダイナミックな研究分野である。
これらの分野に寄与するために,音声モデルのソース・ターゲットアライメントの未熟な分野を評価するためのフレームワークである speechalign を提案する。
私たちのフレームワークには2つのコアコンポーネントがあります。
まず、適切な評価データセットの欠如に対処するために、英語とドイツ語の翻訳用ゴールドアライメントデータセット上に構築された音声ゴールドアライメントデータセットを提案する。
次に,音声モデルのアライメント品質を評価するために,音声アライメント誤り率(saer)と時間重み付け音声アライメント誤り率(tw-saer)という2つの新しい指標を導入する。
speechalignを公開することにより,モデル評価のためのアクセシブルな評価フレームワークを提供し,オープンソース音声翻訳モデルのベンチマークに活用する。 Speech-to-Speech and Speech-to-Text translation are currently dynamic areas of research. To contribute to these fields, we present SpeechAlign, a framework to evaluate the underexplored field of source-target alignment in speech models. Our framework has two core components. First, to tackle the absence of suitable evaluation datasets, we introduce the Speech Gold Alignment dataset, built upon a English-German text translation gold alignment dataset. Secondly, we introduce two novel metrics, Speech Alignment Error Rate (SAER) and Time-weighted Speech Alignment Error Rate (TW-SAER), to evaluate alignment quality in speech models. By publishing SpeechAlign we provide an accessible evaluation framework for model assessment, and we employ it to benchmark open-source Speech Translation models. | 翻訳日:2023-09-22 18:03:41 公開日:2023-09-20 |
# マルチタスク学習によるコリファレンスレゾリューションにおけるシングルトンとレファレンスに基づく機能の統合による一般化 Incorporating Singletons and Mention-based Features in Coreference Resolution via Multi-task Learning for Better Generalization ( http://arxiv.org/abs/2309.11582v1 ) ライセンス: Link先を確認 | Yilun Zhu, Siyao Peng, Sameer Pradhan, Amir Zeldes | (参考訳) 英語のエンドツーエンドのニューラルコア参照解決に参照検出のステップを組み込もうとする以前の試みは、シングルトン参照スパンデータや他のエンティティ情報の欠如によって妨げられていた。
本稿では,シングルトンを学習するコリファレンスモデルと,マルチタスク学習に基づくエンティティタイプや情報ステータスなどの特徴について述べる。
このアプローチはOntoGUMベンチマーク(+2.7ポイント)の新たな最先端スコアを実現し、複数のドメイン外のデータセット(+2.3ポイント平均)の堅牢性を高める。 Previous attempts to incorporate a mention detection step into end-to-end neural coreference resolution for English have been hampered by the lack of singleton mention span data as well as other entity information. This paper presents a coreference model that learns singletons as well as features such as entity type and information status via a multi-task learning-based approach. This approach achieves new state-of-the-art scores on the OntoGUM benchmark (+2.7 points) and increases robustness on multiple out-of-domain datasets (+2.3 points on average), likely due to greater generalizability for mention detection and utilization of more data from singletons when compared to only coreferent mention pair matching. | 翻訳日:2023-09-22 18:03:26 公開日:2023-09-20 |
# 静的データセットを用いた数値騒音検出モデルの限界の検討 Examining the Limitations of Computational Rumor Detection Models Trained on Static Datasets ( http://arxiv.org/abs/2309.11576v1 ) ライセンス: Link先を確認 | Yida Mu, Xingyi Song, Kalina Bontcheva, Nikolaos Aletras | (参考訳) 噂検出モデルの重要な側面は、その一般化能力、特に、以前に未知の噂を検出する能力である。
過去の研究では、コンテンツベース(つまり、入力としてのみソースポストを使用する)の噂検出モデルは、目に見えない噂に対して効果が低い傾向があることが示されている。
同時に、コンテキストベースのモデルの可能性はほとんど未解決のままである。
本研究の主な貢献は、コンテンツとコンテキストベースモデル間の性能ギャップの詳細な評価であり、特に新しい未知の噂を検出することである。
以上の結果から,コンテクストベースモデルはまだ,情報源からの情報に過度に依存しており,コンテクスト情報が果たす重要な役割を見逃しがちであることが示された。
また,データ分割戦略が分類器の性能に及ぼす影響についても検討した。
実験結果に基づいて,噂検出手法の訓練において,静的データセットにおける時間的概念ドリフトの影響を最小限に抑えるための実用的な提案を行った。 A crucial aspect of a rumor detection model is its ability to generalize, particularly its ability to detect emerging, previously unknown rumors. Past research has indicated that content-based (i.e., using solely source posts as input) rumor detection models tend to perform less effectively on unseen rumors. At the same time, the potential of context-based models remains largely untapped. The main contribution of this paper is in the in-depth evaluation of the performance gap between content and context-based models specifically on detecting new, unseen rumors. Our empirical findings demonstrate that context-based models are still overly dependent on the information derived from the rumors' source post and tend to overlook the significant role that contextual information can play. We also study the effect of data split strategies on classifier performance. Based on our experimental results, the paper also offers practical suggestions on how to minimize the effects of temporal concept drift in static datasets during the training of rumor detection methods. | 翻訳日:2023-09-22 18:03:13 公開日:2023-09-20 |
# 安全基準からの反対意見の蒸留:反対者ニブラーチャレンジの報告 Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge ( http://arxiv.org/abs/2309.11575v1 ) ライセンス: Link先を確認 | Manuel Brack, Patrick Schramowski, Kristian Kersting | (参考訳) テキスト条件付き画像生成モデルは最近、画像品質とアライメントの結果を驚くべきものにしている。
その結果、急速に成長するアプリケーションに採用されている。
非常にデータ駆動であり、Webからランダムにスクラップされた数十億規模のデータセットに依存しているため、安全でないコンテンツも生成する。
Adversarial Nibblerチャレンジへのコントリビューションとして、既存の安全ベンチマークから1,000以上の潜在的な敵入力を抽出する。
収集したプロンプトとそれに対応する画像の解析は,入力フィルタの脆弱性を示し,現在の生成画像モデルにおける系統的安全性に関するさらなる知見を提供する。 Text-conditioned image generation models have recently achieved astonishing image quality and alignment results. Consequently, they are employed in a fast-growing number of applications. Since they are highly data-driven, relying on billion-sized datasets randomly scraped from the web, they also produce unsafe content. As a contribution to the Adversarial Nibbler challenge, we distill a large set of over 1,000 potential adversarial inputs from existing safety benchmarks. Our analysis of the gathered prompts and corresponding images demonstrates the fragility of input filters and provides further insights into systematic safety issues in current generative image models. | 翻訳日:2023-09-22 18:02:55 公開日:2023-09-20 |
# 長尺映像理解のための適応トークン化器としてのカーネル時間分割の再検討 Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for Long-form Video Understanding ( http://arxiv.org/abs/2309.11569v1 ) ライセンス: Link先を確認 | Mohamed Afham, Satya Narayan Shukla, Omid Poursaeed, Pengchuan Zhang, Ashish Shah, Sernam Lim | (参考訳) ほとんどの現代のビデオ理解モデルは短い範囲のクリップで動くが、実世界のビデオはしばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理する一般的なアプローチは、一定時間の長さの均一にサンプリングされたクリップに短いビデオモデルを適用し、出力を集約することである。
このアプローチは、固定長クリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
本稿では,デファクトの一様サンプリングに代えて,長尺ビデオに対して汎用的かつ適応的なサンプリング手法を提供することを目的とする。
KTS(Kernel Temporal Segmentation)をベースとした,長いビデオのサンプリングとトークン化のためのタスク非依存,教師なし,スケーラブルなアプローチを定式化する。
本手法は,映像分類や時間的行動の局所化などの映像理解タスクにおいて,既存の手法よりも一貫した向上を示し,映像モデリングにおける最先端のパフォーマンスを実現する。 While most modern video understanding models operate on short-range clips, real-world videos are often several minutes long with semantically consistent segments of variable length. A common approach to process long videos is applying a short-form video model over uniformly sampled clips of fixed temporal length and aggregating the outputs. This approach neglects the underlying nature of long videos since fixed-length clips are often redundant or uninformative. In this paper, we aim to provide a generic and adaptive sampling approach for long-form videos in lieu of the de facto uniform sampling. Viewing videos as semantically consistent segments, we formulate a task-agnostic, unsupervised, and scalable approach based on Kernel Temporal Segmentation (KTS) for sampling and tokenizing long videos. We evaluate our method on long-form video understanding tasks such as video classification and temporal action localization, showing consistent gains over existing approaches and achieving state-of-the-art performance on long-form video modeling. | 翻訳日:2023-09-22 18:02:46 公開日:2023-09-20 |
# BTLM-3B-8K: 3Bパラメータモデルにおける7Bパラメータ性能 BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model ( http://arxiv.org/abs/2309.11568v1 ) ライセンス: Link先を確認 | Nolan Dey and Daria Soboleva and Faisal Al-Khateeb and Bowen Yang and Ribhu Pathria and Hemant Khachane and Shaheer Muhammad and Zhiming (Charles) Chen and Robert Myers and Jacob Robert Steeves and Natalia Vassilieva and Marvin Tom and Joel Hestness | (参考訳) btlm-3b-8kとよばれるbittensor言語モデルを紹介し,30億パラメータのオープンソース言語モデルについて述べる。
BTLM-3B-8Kは、SlimPajamaデータセットから627Bトークンを2,048と8,192のコンテキスト長でトレーニングした。
BTLM-3B-8Kは、下流のタスクで既存の3Bパラメータモデルを2-5.5%上回っている。
BTLM-3B-8Kは7Bパラメータモデルと競合する。
さらにBTLM-3B-8Kは、MPT-7B-8KとXGen-7B-8Kを最大8,192のコンテキスト長で上回っている。
我々は,SlimPajamaデータセットを用いてモデルをトレーニングし,<textmu Pハイパーパラメータとスケジュールを積極的に調整し,ALiBi位置埋め込みを使用し,SwiGLU非線形性を採用した。
Hugging Faceでは、最も人気のあるモデルは7Bパラメータを持ち、ユーザーが7Bモデルの品質サイズ比を好むことを示している。
7bパラメータモデルから3bパラメータモデルへのコンパクト化は、パフォーマンスへの影響が少なく、重要なマイルストーンです。
btlm-3b-8kは4ビットの精度で3gbのメモリしか必要とせず、7bモデルよりも2.5倍の計算量を必要とする。
BTLM-3B-8KはHugging FaceのApache 2.0ライセンスで利用可能である。 We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and 8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B parameter models. Additionally, BTLM-3B-8K provides excellent long context performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192 context length. We trained the model on a cleaned and deduplicated SlimPajama dataset; aggressively tuned the \textmu P hyperparameters and schedule; used ALiBi position embeddings; and adopted the SwiGLU nonlinearity. On Hugging Face, the most popular models have 7B parameters, indicating that users prefer the quality-size ratio of 7B models. Compacting the 7B parameter model to one with 3B parameters, with little performance impact, is an important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision and takes 2.5x less inference compute than 7B models, helping to open up access to a powerful language model on mobile and edge devices. BTLM-3B-8K is available under an Apache 2.0 license on Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base. | 翻訳日:2023-09-22 18:02:27 公開日:2023-09-20 |
# SignBank+: 多言語手話翻訳データセット SignBank+: Multilingual Sign Language Translation Dataset ( http://arxiv.org/abs/2309.11566v1 ) ライセンス: Link先を確認 | Amit Moryossef, Zifan Jiang | (参考訳) 本研究は,手話機械翻訳の分野を,データセットの品質と翻訳システムの単純化に焦点をあてて前進させる。
機械翻訳用に最適化されたSignBankデータセットのクリーンバージョンであるSignBank+を紹介する。
翻訳に複雑な因子分解技術を用いた先行研究とは対照的に, 単純なテキスト間翻訳アプローチを提唱する。
我々の評価によると、SignBank+でトレーニングされたモデルは、オリジナルのデータセットを上回り、新しいベンチマークを確立し、将来の研究のためのオープンリソースを提供する。 This work advances the field of sign language machine translation by focusing on dataset quality and simplification of the translation system. We introduce SignBank+, a clean version of the SignBank dataset, optimized for machine translation. Contrary to previous works that employ complex factorization techniques for translation, we advocate for a simplified text-to-text translation approach. Our evaluation shows that models trained on SignBank+ surpass those on the original dataset, establishing a new benchmark and providing an open resource for future research. | 翻訳日:2023-09-22 18:02:02 公開日:2023-09-20 |
# Floquet Engineeringによる非エルミート界面系における高次ファンホーブ特異点の配置 Tailoring higher-order van Hove singularities in non-Hermitian interface systems via Floquet engineering ( http://arxiv.org/abs/2309.11565v1 ) ライセンス: Link先を確認 | Ayan Banerjee, Debashree Chowdhury, Awadhesh Narayan | (参考訳) 本稿では,高次ファンホーブ特異点の生成と調整のためのプラットフォームとして,光場によって駆動される2つのNHノダル線半金属の間に形成される非エルミタン(NH)インタフェースシステムを提案する。
状態密度(DOS)の分析分析により、エルミート極限に対数発散を持つVHSが見つかる。
NH項を導入すると、フェルミ線の両側に4つの例外環が形成される。
NHパラメータと光振幅を調整することにより、1つの例外環がフェルミ線を交差し、サドル点が出現し、元の周囲に対のVHSが生じる状況が分かる。
対照的に、例外的な輪郭がフェルミエネルギーに存在しているとき、サドル点が臨界的に破壊され、我々はDOSの1つのピークを得る。
NH系に現れるこれらの高次発散は、ヘルミタン系における高次VHSとは異なる起源を持つ。
以上の結果から, NHインターフェースは高次VHSの探索に有効であることが示唆された。 We propose a non-Hermitian (NH) interface system formed between two NH nodal line semimetals driven by optical fields as a platform for generation and tailoring of higher-order van Hove singularities (VHS). Through an analytical analysis of the density of states (DOS), we find VHS with logarithmic divergences in the Hermitian limit. Upon introducing NH terms, four exceptional rings on two sides of the Fermi line are formed. By tuning the NH parameters and the light amplitude, we find a situation when one exceptional ring crosses the Fermi line, where a saddle point appears and results in a paired VHS around the origin. In contrast, when an exceptional contour resides at the Fermi energy, the saddle points critically get destroyed and we obtain a single peak in the DOS, with power-law divergences. These higher-order divergences that appear in an NH system have a different origin than that of the higher-order VHS in Hermitian systems, where no saddle point merging is noted. Our results suggest NH interfaces to be promising avenues for exploring higher-order VHS. | 翻訳日:2023-09-22 18:01:52 公開日:2023-09-20 |
# 自然言語サブゴールを用いた階層的強化学習 Hierarchical reinforcement learning with natural language subgoals ( http://arxiv.org/abs/2309.11564v1 ) ライセンス: Link先を確認 | Arun Ahuja, Kavya Kopparapu, Rob Fergus, Ishita Dasgupta | (参考訳) 階層的強化学習は、アクションの長いシーケンスで目標指向行動を達成するための説得力のあるアプローチである。
しかし、現実的あるいはオープンな環境で実装することは困難である。
主な課題は、階層をインスタンス化するサブゴールの適切なスペースを見つけることである。
本稿では,これらの課題を解決する人間のデータを用いて,3次元エンボディ環境において,一連の長距離タスクの目標空間をソフトに監視する新しい手法を提案する。
特に、制約のない自然言語を使ってこの空間をパラメータ化する。
これは2つの利点がある: 第一に、人間に優しい参加者からこのデータを生成するのは簡単である; 第二に、人間に関連するタスクにおいて、幅広いサブゴールを表現するのに十分な柔軟性がある。
提案手法は,これらのタスクにおいて専門家の振る舞いをクローンするエージェントと,この教師付きサブゴール空間を使わずにゼロからHRLを向上する。
本研究は,人間エキスパートの監督と強化学習の利点と柔軟性を組み合わせた新しいアプローチを提案する。 Hierarchical reinforcement learning has been a compelling approach for achieving goal directed behavior over long sequences of actions. However, it has been challenging to implement in realistic or open-ended environments. A main challenge has been to find the right space of sub-goals over which to instantiate a hierarchy. We present a novel approach where we use data from humans solving these tasks to softly supervise the goal space for a set of long range tasks in a 3D embodied environment. In particular, we use unconstrained natural language to parameterize this space. This has two advantages: first, it is easy to generate this data from naive human participants; second, it is flexible enough to represent a vast range of sub-goals in human-relevant tasks. Our approach outperforms agents that clone expert behavior on these tasks, as well as HRL from scratch without this supervised sub-goal space. Our work presents a novel approach to combining human expert supervision with the benefits and flexibility of reinforcement learning. | 翻訳日:2023-09-22 18:01:33 公開日:2023-09-20 |
# IAB TCFペイウォールの大規模測定と法的コンプライアンス Legitimate Interest is the New Consent -- Large-Scale Measurement and Legal Compliance of IAB TCF Paywalls ( http://arxiv.org/abs/2309.11625v1 ) ライセンス: Link先を確認 | Victor Morel, Cristiana Santos, Viktor Fredholm, Adam Thunberg | (参考訳) cookie paywallsは、ウェブサイトの訪問者が料金を支払うかトラッキングを受けるかの選択をした後にのみ、そのコンテンツにアクセスできるようにする。
欧州データ保護機関(dpas)は最近、ペイウォールの合法性に関するガイドラインと決定を下したが、ウェブサイトがそれに従うかどうかはまだ不明である。
本稿では,自動クローラを用いた上位100万サイトにおけるクッキーペイウォールの普及状況について検討する。
我々は431個のcookie paywallsを特定し、すべてtransparency and consent framework (tcf) を用いている。
次に、これらのペイウォールがTCFを通じて通信するデータ、特に個人データの収集に使用される法的根拠と目的を分析します。
我々はクッキー・ペイウォールが合法的な利子関係の法的根拠に広く依存しているのを観察する。
また、ペイウォールの存在と、DPAによる法的決定やガイドラインとの相関関係の欠如も観察する。 Cookie paywalls allow visitors of a website to access its content only after they make a choice between paying a fee or accept tracking. European Data Protection Authorities (DPAs) recently issued guidelines and decisions on paywalls lawfulness, but it is yet unknown whether websites comply with them. We study in this paper the prevalence of cookie paywalls on the top one million websites using an automatic crawler. We identify 431 cookie paywalls, all using the Transparency and Consent Framework (TCF). We then analyse the data these paywalls communicate through the TCF, and in particular, the legal grounds and the purposes used to collect personal data. We observe that cookie paywalls extensively rely on legitimate interest legal basis systematically conflated with consent. We also observe a lack of correlation between the presence of paywalls and legal decisions or guidelines by DPAs. | 翻訳日:2023-09-22 17:55:48 公開日:2023-09-20 |
# 逐次音楽レコメンデーションのための自己注意による負信号の活用 Leveraging Negative Signals with Self-Attention for Sequential Music Recommendation ( http://arxiv.org/abs/2309.11623v1 ) ライセンス: Link先を確認 | Pavan Seshadri, Peter Knees | (参考訳) 音楽ストリーミングサービスは、消費者にコンテンツを継続的に提供するためのレコメンデーションエンジンに大きく依存している。
その結果, 長期的・短期的ユーザ履歴や項目的特徴といった文脈情報を活用する自己意図的モデルに焦点が当てられている現在の文献では, それらの研究の多くは, ショートフォームではなく, ロングフォームなコンテンツドメイン(小売, 映画など)に焦点が当てられている。
さらに、トレーニング中にネガティブなセッションレベルのフィードバックを取り入れようとはしない人も多い。
本研究では,変圧器をベースとした自己注意型アーキテクチャを用いて,楽譜レコメンデーションのための暗黙的なセッションレベル情報を学習する。
また、ネガティブなフィードバック(例えば、スキップトラック)を取り入れ、ポジティブなヒットを促進し、ネガティブなヒットを罰する対照的な学習タスクを提案する。
このタスクは単純な損失項として定式化され、シーケンシャルなレコメンデーションのために様々なディープラーニングアーキテクチャに組み込むことができる。
実験の結果,これはユーザからのネガティブなフィードバックを無視したベースラインアーキテクチャよりも一貫したパフォーマンス向上をもたらすことがわかった。 Music streaming services heavily rely on their recommendation engines to continuously provide content to their consumers. Sequential recommendation consequently has seen considerable attention in current literature, where state of the art approaches focus on self-attentive models leveraging contextual information such as long and short-term user history and item features; however, most of these studies focus on long-form content domains (retail, movie, etc.) rather than short-form, such as music. Additionally, many do not explore incorporating negative session-level feedback during training. In this study, we investigate the use of transformer-based self-attentive architectures to learn implicit session-level information for sequential music recommendation. We additionally propose a contrastive learning task to incorporate negative feedback (e.g skipped tracks) to promote positive hits and penalize negative hits. This task is formulated as a simple loss term that can be incorporated into a variety of deep learning architectures for sequential recommendation. Our experiments show that this results in consistent performance gains over the baseline architectures ignoring negative user feedback. | 翻訳日:2023-09-22 17:55:33 公開日:2023-09-20 |
# クラウドに基づく階層型模倣学習による作業者から支援ロボットへの建設スキルのスケーラブル移行 Cloud-Based Hierarchical Imitation Learning for Scalable Transfer of Construction Skills from Human Workers to Assisting Robots ( http://arxiv.org/abs/2309.11619v1 ) ライセンス: Link先を確認 | Hongrui Yu, Vineet R. Kamat, Carol C. Menassa | (参考訳) 反復的および物理的に要求される建設作業をロボットに割り当てることで、人間の作業員の職業的負傷への曝露を軽減できる。
建設作業の委任と高品質なロボット構築作業を実現するためには,作業者からロボットへ必要な巧妙で適応的な工芸技能を移譲することが不可欠である。
事前定義された運動計画スクリプトは、非構造的な建設現場環境において、剛体で衝突を起こしやすいロボットの挙動を生成する傾向がある。
対照的に、模倣学習(il)はより堅牢で柔軟なスキル転送スキームを提供する。
しかし、ILアルゴリズムの大多数は、建設作業において非生産的で不可能なタスク性能をフルスケールで繰り返し示すために、ヒューマンワーカーに依存している。
そこで本稿では,2つの目的を果たす没入型クラウドロボティクスベースの仮想デモンストレーションフレームワークを提案する。
まず、デモプロセスをデジタル化し、重い建設オブジェクトの反復的な物理的操作を不要にする。
第2に、将来同様のタスクで転送可能な再利用可能なデモのフェデレーションコレクションを使用することで、ヒューマンエージェントによるタスクの反復的なイラストレーションの必要性を低減することができる。
さらに、ロボット訓練の信頼性、説明性、倫理的健全性を高めるために、階層的模倣学習(hil)モデルを用いて、人間の操作スキルを逐次かつリアクティブなサブスキルに分解する。
これら2つのスキル層は、ロボットアクションの適応制御を可能にする深層生成モデルによって表現される。
建設作業の物理的歪みを人体訓練ロボットに委譲することにより、建設産業における多様な身体能力と教育的背景を持つ労働者の参加を促進する。 Assigning repetitive and physically-demanding construction tasks to robots can alleviate human workers's exposure to occupational injuries. Transferring necessary dexterous and adaptive artisanal construction craft skills from workers to robots is crucial for the successful delegation of construction tasks and achieving high-quality robot-constructed work. Predefined motion planning scripts tend to generate rigid and collision-prone robotic behaviors in unstructured construction site environments. In contrast, Imitation Learning (IL) offers a more robust and flexible skill transfer scheme. However, the majority of IL algorithms rely on human workers to repeatedly demonstrate task performance at full scale, which can be counterproductive and infeasible in the case of construction work. To address this concern, this paper proposes an immersive, cloud robotics-based virtual demonstration framework that serves two primary purposes. First, it digitalizes the demonstration process, eliminating the need for repetitive physical manipulation of heavy construction objects. Second, it employs a federated collection of reusable demonstrations that are transferable for similar tasks in the future and can thus reduce the requirement for repetitive illustration of tasks by human agents. Additionally, to enhance the trustworthiness, explainability, and ethical soundness of the robot training, this framework utilizes a Hierarchical Imitation Learning (HIL) model to decompose human manipulation skills into sequential and reactive sub-skills. These two layers of skills are represented by deep generative models, enabling adaptive control of robot actions. By delegating the physical strains of construction work to human-trained robots, this framework promotes the inclusion of workers with diverse physical capabilities and educational backgrounds within the construction industry. | 翻訳日:2023-09-22 17:55:10 公開日:2023-09-20 |
# 量子学習の統計的複雑性 Statistical Complexity of Quantum Learning ( http://arxiv.org/abs/2309.11617v1 ) ライセンス: Link先を確認 | Leonardo Banchi, Jason Luke Pereira, Sharu Theresa Jose, Osvaldo Simeone | (参考訳) 近年、量子システムの特性の学習や量子コンピューティングによる古典的あるいは量子的データの処理のためにデータを使用するという問題に対して、重要な活動が行われている。
古典的な学習と同様に、量子学習の問題には、データを生成するメカニズムが未知な設定が含まれており、学習アルゴリズムの主目的は、データへのアクセスのみを与えられたときや、専門家の知識のようなサイド情報に対して、十分な精度のレベルを確保することである。
本稿では,データ複雑性,コピー複雑性,モデル複雑性に着目し,情報理論を用いた量子学習の複雑さを概観する。
コピー複雑性は、処理すべき状態が不可逆的に変化し、量子データについて抽出できる情報が制限される量子測定の破壊的な性質から生じる。
例えば、量子システムでは、古典的な機械学習とは異なり、同じ量子データを用いて複数の仮説で同時にトレーニング損失を評価することはできない。
論文を様々な研究コミュニティで自己完結・接近可能にするために,統計学習理論による古典的結果や量子状態の識別性に関する幅広い背景資料を提供する。
全体として,教師付き学習と教師なし学習の両方に対処して,量子学習と古典学習の違いを強調し,文献への広範なポインタを提供する。 Recent years have seen significant activity on the problem of using data for the purpose of learning properties of quantum systems or of processing classical or quantum data via quantum computing. As in classical learning, quantum learning problems involve settings in which the mechanism generating the data is unknown, and the main goal of a learning algorithm is to ensure satisfactory accuracy levels when only given access to data and, possibly, side information such as expert knowledge. This article reviews the complexity of quantum learning using information-theoretic techniques by focusing on data complexity, copy complexity, and model complexity. Copy complexity arises from the destructive nature of quantum measurements, which irreversibly alter the state to be processed, limiting the information that can be extracted about quantum data. For example, in a quantum system, unlike in classical machine learning, it is generally not possible to evaluate the training loss simultaneously on multiple hypotheses using the same quantum data. To make the paper self-contained and approachable by different research communities, we provide extensive background material on classical results from statistical learning theory, as well as on the distinguishability of quantum states. Throughout, we highlight the differences between quantum and classical learning by addressing both supervised and unsupervised learning, and we provide extensive pointers to the literature. | 翻訳日:2023-09-22 17:54:41 公開日:2023-09-20 |
# 深層学習を用いたアルジェリア方言のヘイトスピーチ検出 Hate speech detection in algerian dialect using deep learning ( http://arxiv.org/abs/2309.11611v1 ) ライセンス: Link先を確認 | Dihia Lanasri, Juan Olano, Sifal Klioui, Sin Liang Lee, Lamia Sekkai | (参考訳) 乱暴な言語、サイバーいじめ、暴力など、さまざまな形態のソーシャルネットワーク上でのヘイトスピーチの拡散により、人々は暴力を著しく増加させ、不快な状況や脅威に陥りつつある。
ここ数年、この現象を克服し、英語、フランス語、アラビア語など、さまざまな構造化言語でヘイトスピーチを検出する努力が続けられてきた。
しかし、チュニジア語、エジプト語、ガルフ語、主にアルジェリア語といったアラビア語の方言を扱う作品が減っている。
このギャップを埋めるため,本研究では,オンラインアルジェリアメッセージ上でヘイトスピーチを検出するための完全なアプローチを提案する。
多くのディープラーニングアーキテクチャが、アルジェリアのソーシャルネットワーク(Facebook、YouTube、Twitter)から作成したコーパスで評価されています。
このコーパスにはアラビア語で書かれたアルジェ語方言の13.5K以上の文書が含まれており、憎しみや非憎しみが込められている。
その結果,提案手法の効率性を示す結果が得られた。 With the proliferation of hate speech on social networks under different formats, such as abusive language, cyberbullying, and violence, etc., people have experienced a significant increase in violence, putting them in uncomfortable situations and threats. Plenty of efforts have been dedicated in the last few years to overcome this phenomenon to detect hate speech in different structured languages like English, French, Arabic, and others. However, a reduced number of works deal with Arabic dialects like Tunisian, Egyptian, and Gulf, mainly the Algerian ones. To fill in the gap, we propose in this work a complete approach for detecting hate speech on online Algerian messages. Many deep learning architectures have been evaluated on the corpus we created from some Algerian social networks (Facebook, YouTube, and Twitter). This corpus contains more than 13.5K documents in Algerian dialect written in Arabic, labeled as hateful or non-hateful. Promising results are obtained, which show the efficiency of our approach. | 翻訳日:2023-09-22 17:54:18 公開日:2023-09-20 |
# トランスファー学習とディープアンサンブル学習を用いた2段階学習による手のジェスチャー認識 Hand Gesture Recognition with Two Stage Approach Using Transfer Learning and Deep Ensemble Learning ( http://arxiv.org/abs/2309.11610v1 ) ライセンス: Link先を確認 | Serkan Sava\c{s}, Atilla Erg\"uzen | (参考訳) HCI(Human-Computer Interaction)は長年にわたって研究の対象となっており、近年では様々な技術による性能向上に重点を置いている。
過去10年間、ディープラーニングの研究は様々な研究領域で高いパフォーマンスを示しており、研究者はhciへの応用を探っている。
畳み込みニューラルネットワークは、深層アーキテクチャを使用して画像からのハンドジェスチャを認識するために使用できる。
本研究では,14種類のハンドジェスチャクラスからなるhg14データセット上で,事前学習したハイパフォーマンスなディープアーキテクチャを評価した。
22の異なるモデルの中で、vggnetとmobilenetのモデルが最も高い精度を達成した。
具体的には、VGG16とVGG19はそれぞれ94.64%と94.36%の精度を達成し、MobileNetとMobileNetV2は96.79%と94.43%の精度を達成した。
最も成功した4つのモデルを組み合わせたアンサンブル学習手法を用いて,データセット上で手のジェスチャー認識を行った。
これらのモデルをベースラーナーとして利用し,ディリクレアンサンブル法を適用し,98.88%の精度を達成した。
これらの結果は,HCIの深層アンサンブル学習技術の有効性と,拡張現実,仮想現実,ゲーム技術といった分野への応用の可能性を示している。 Human-Computer Interaction (HCI) has been the subject of research for many years, and recent studies have focused on improving its performance through various techniques. In the past decade, deep learning studies have shown high performance in various research areas, leading researchers to explore their application to HCI. Convolutional neural networks can be used to recognize hand gestures from images using deep architectures. In this study, we evaluated pre-trained high-performance deep architectures on the HG14 dataset, which consists of 14 different hand gesture classes. Among 22 different models, versions of the VGGNet and MobileNet models attained the highest accuracy rates. Specifically, the VGG16 and VGG19 models achieved accuracy rates of 94.64% and 94.36%, respectively, while the MobileNet and MobileNetV2 models achieved accuracy rates of 96.79% and 94.43%, respectively. We performed hand gesture recognition on the dataset using an ensemble learning technique, which combined the four most successful models. By utilizing these models as base learners and applying the Dirichlet ensemble technique, we achieved an accuracy rate of 98.88%. These results demonstrate the effectiveness of the deep ensemble learning technique for HCI and its potential applications in areas such as augmented reality, virtual reality, and game technologies. | 翻訳日:2023-09-22 17:54:00 公開日:2023-09-20 |
# Dataset Factory: 生成するコンピュータビジョンデータセットのためのツールチェーン Dataset Factory: A Toolchain For Generative Computer Vision Datasets ( http://arxiv.org/abs/2309.11608v1 ) ライセンス: Link先を確認 | Daniel Kharitonov and Ryan Turner | (参考訳) ジェネレーティブAIワークフローは、アノテーションフィールドによるサンプルのフィルタリング、ベクトル距離、カスタム分類器によるスコアなど、データ中心のタスクに大きく依存している。
同時に、コンピュータビジョンデータセットはペタバイト単位に急速に接近し、データのレンダリングが困難になっている。
さらに、データ準備の反復的な性質は、堅牢なデータセット共有とバージョニングメカニズムを必要とし、どちらもアドホックを実装するのが難しい。
これらの課題を解決するために,我々は,サンプルの保存と処理をメタデータから分離し,機械学習チームや個々の研究者を対象とした大規模データ中心操作を可能にする「データセットファクトリ」アプローチを提案する。 Generative AI workflows heavily rely on data-centric tasks - such as filtering samples by annotation fields, vector distances, or scores produced by custom classifiers. At the same time, computer vision datasets are quickly approaching petabyte volumes, rendering data wrangling difficult. In addition, the iterative nature of data preparation necessitates robust dataset sharing and versioning mechanisms, both of which are hard to implement ad-hoc. To solve these challenges, we propose a "dataset factory" approach that separates the storage and processing of samples from metadata and enables data-centric operations at scale for machine learning teams and individual researchers. | 翻訳日:2023-09-22 17:53:36 公開日:2023-09-20 |
# 構造成分設計のための潜在拡散モデル Latent Diffusion Models for Structural Component Design ( http://arxiv.org/abs/2309.11601v1 ) ライセンス: Link先を確認 | Ethan Herron, Jaydeep Rade, Anushrut Jignasu, Baskar Ganapathysubramanian, Aditya Balu, Soumik Sarkar, Adarsh Krishnamurthy | (参考訳) 最近の生成モデリングの進歩、すなわち拡散モデルは生成モデリングに革命をもたらし、ユーザーのニーズに合わせた高品質な画像生成を可能にした。
本稿では,構造部品の生成設計のための枠組みを提案する。
具体的には, 潜在拡散モデルを用いて, 問題固有の負荷条件を満たしたコンポーネントのポテンシャル設計を行う。
我々のアプローチがGAN(Generative Adversarial Network)のような他のジェネレーティブアプローチよりも優れている点の1つは、既存のデザインの編集を可能にすることである。
SIMPアルゴリズムを用いて構造的トポロジ最適化から得られたジオメトリのデータセットを用いてモデルを訓練する。
その結果,本フレームワークは本質的に準最適設計を生成する。
本研究は,生成した設計の構造的性能と候補設計の変動性をサポートする定量的な結果を示す。
さらに、ボクセルドメイン上で32^3$から128^3$の解像度で操作することで、フレームワークのスケーラビリティを示す。
本手法はトポロジー最適化設計と類似した新しい近似最適設計の出発点として使用できる。 Recent advances in generative modeling, namely Diffusion models, have revolutionized generative modeling, enabling high-quality image generation tailored to user needs. This paper proposes a framework for the generative design of structural components. Specifically, we employ a Latent Diffusion model to generate potential designs of a component that can satisfy a set of problem-specific loading conditions. One of the distinct advantages our approach offers over other generative approaches, such as generative adversarial networks (GANs), is that it permits the editing of existing designs. We train our model using a dataset of geometries obtained from structural topology optimization utilizing the SIMP algorithm. Consequently, our framework generates inherently near-optimal designs. Our work presents quantitative results that support the structural performance of the generated designs and the variability in potential candidate designs. Furthermore, we provide evidence of the scalability of our framework by operating over voxel domains with resolutions varying from $32^3$ to $128^3$. Our framework can be used as a starting point for generating novel near-optimal designs similar to topology-optimized designs. | 翻訳日:2023-09-22 17:53:23 公開日:2023-09-20 |
# 解答接地のための文注意ブロック Sentence Attention Blocks for Answer Grounding ( http://arxiv.org/abs/2309.11593v1 ) ライセンス: Link先を確認 | Seyedalireza Khoshsirat and Chandra Kambhamettu | (参考訳) 回答の根拠付けは、視覚的な質問応答タスクに関連する視覚的な証拠を見つける作業である。
この課題に様々な注意法が導入されたが、それらは以下の3つの問題に悩まされている: 事前訓練済みのネットワークの使用を許可せず、大規模データ事前学習の恩恵を受けない設計、事前訓練前の設計に基づいていないカスタムデザイン、ネットワークの学習能力の制限、ネットワークの再実装や改善を困難にする複雑な設計。
本稿では,これらの問題を解決するために,文注意ブロックと呼ぶ新しいアーキテクチャブロックを提案する。
提案ブロックは,画像特徴マップと文埋め込みの相互依存性を明示的にモデル化することにより,チャネルワイズな特徴マップを再検討する。
我々は,このブロックが文の埋め込みに基づいて,無関係な特徴マップチャネルをフィルタする様子を視覚的に示す。
我々は,よく知られた注意の手法で設計を開始し,マイナーな修正を行うことで,最先端の精度を達成するために結果を改善する。
提案手法の柔軟性により,事前学習したバックボーンネットワークの利用が容易になり,そのシンプルさにより理解や再実装が容易になる。
提案手法の有効性を,TextVQA-X,VQS,VQA-X,VizWiz-VQA-Groundingデータセットに示す。
我々は設計選択の有効性を示すために複数のアブレーション研究を行う。 Answer grounding is the task of locating relevant visual evidence for the Visual Question Answering task. While a wide variety of attention methods have been introduced for this task, they suffer from the following three problems: designs that do not allow the usage of pre-trained networks and do not benefit from large data pre-training, custom designs that are not based on well-grounded previous designs, therefore limiting the learning power of the network, or complicated designs that make it challenging to re-implement or improve them. In this paper, we propose a novel architectural block, which we term Sentence Attention Block, to solve these problems. The proposed block re-calibrates channel-wise image feature-maps by explicitly modeling inter-dependencies between the image feature-maps and sentence embedding. We visually demonstrate how this block filters out irrelevant feature-maps channels based on sentence embedding. We start our design with a well-known attention method, and by making minor modifications, we improve the results to achieve state-of-the-art accuracy. The flexibility of our method makes it easy to use different pre-trained backbone networks, and its simplicity makes it easy to understand and be re-implemented. We demonstrate the effectiveness of our method on the TextVQA-X, VQS, VQA-X, and VizWiz-VQA-Grounding datasets. We perform multiple ablation studies to show the effectiveness of our design choices. | 翻訳日:2023-09-22 17:53:05 公開日:2023-09-20 |
# 光電界ネットワークにおける詳細連続レベル Continuous Levels of Detail for Light Field Networks ( http://arxiv.org/abs/2309.11591v1 ) ライセンス: Link先を確認 | David Li, Brandon Y. Feng, Amitabh Varshney | (参考訳) 近年、複数の詳細レベル(LOD)で神経表現を生成するためのいくつかのアプローチが出現している。
LODは解像度が低く、モデルサイズが小さいことでレンダリングを改善することができる。
しかし、既存のメソッドは、詳細が変更され、リソース制限に適応するために粒度が制限されるため、エイリアスやフリックアーティファクトに苦しむいくつかの離散LODに焦点を当てている。
本稿では,連続的lodで光電界ネットワークを符号化し,レンダリング条件に微調整を施す手法を提案する。
トレーニング手順では,様々なLODで効率よく連続的なフィルタリングが可能となる。
さらに,光電界ネットワークが,特に低いLODに制限されたキャパシティを分散して,視聴者が最も注目するであろう詳細を示すために,サリエンシに基づく重要度サンプリングを利用する。
連続LODをニューラル表現に組み込むことで、ニューラル表現のプログレッシブストリーミングを可能にし、レンダリングのレイテンシとリソース利用を削減できる。 Recently, several approaches have emerged for generating neural representations with multiple levels of detail (LODs). LODs can improve the rendering by using lower resolutions and smaller model sizes when appropriate. However, existing methods generally focus on a few discrete LODs which suffer from aliasing and flicker artifacts as details are changed and limit their granularity for adapting to resource limitations. In this paper, we propose a method to encode light field networks with continuous LODs, allowing for finely tuned adaptations to rendering conditions. Our training procedure uses summed-area table filtering allowing efficient and continuous filtering at various LODs. Furthermore, we use saliency-based importance sampling which enables our light field networks to distribute their capacity, particularly limited at lower LODs, towards representing the details viewers are most likely to focus on. Incorporating continuous LODs into neural representations enables progressive streaming of neural representations, decreasing the latency and resource utilization for rendering. | 翻訳日:2023-09-22 17:52:37 公開日:2023-09-20 |
# 急激な倒壊を伴う GLM の回帰 GLM Regression with Oblivious Corruptions ( http://arxiv.org/abs/2309.11657v1 ) ライセンス: Link先を確認 | Ilias Diakonikolas, Sushrut Karmalkar, Jongho Park, Christos Tzamos | (参考訳) 一般化線形モデル (glms) の回帰問題に対して, 付加的オブリベート雑音の存在下で最初のアルゴリズムを提示する。
例の$(x, ) へのサンプルアクセスがあると仮定します。
y)$ ここで$y$は$g(w^* \cdot のノイズ測定である
x)$。
特に、new{the noisy labels は $y = g(w^* \cdot である。
x) + \xi + \epsilon$, where $\xi$ は$x$ \new{and satisfies} $\Pr[\xi = 0] \geq o(1)$, $\epsilon \sim \mathcal N(0, \sigma^2)$ から独立に引かれる難聴ノイズである。
我々のゴールは、$g(w \cdot) 関数が $new{parameter vector $w$ を正確に回復することである。
x)$ \new{has} 真の値 $g(w^* \cdot と比較して任意に小さな誤差
x)$, 騒がしい測定値が$y$ではなく$である。
我々は、最も一般的な分布非依存な設定で \new{this} 問題に取り組むアルゴリズムを提示し、解が \new{even} を同定できない可能性がある。
new{Our} アルゴリズムは、その解が特定可能であれば、解のnew{an 正確な推定を返し、そうでなければ候補の小さなリストを返し、そのうちの1つは真の解に近い。
さらに、new{provide} は、幅広い設定で保持される識別可能性に対して必要かつ十分な条件である。
\new{Specifically,} 問題は、$\xi + \epsilon = 0$ の量子が知られているときや、仮説の族が翻訳された $g(w^* \cdot にほぼ等しい候補を含まないときである。
x) + a$ ある実数に対して$a$ である一方で、$g(w^* \cdot と比較すると大きな誤差がある。
x)$。
これは glm 回帰 \new{with oblivious noise} に対する最初の \new{algorithmic} の結果であり、サンプルの半分以上が任意に破損している。
以前の研究は主に線形回帰の設定に集中し、制限的な仮定の下でアルゴリズムを与えた。 We demonstrate the first algorithms for the problem of regression for generalized linear models (GLMs) in the presence of additive oblivious noise. We assume we have sample access to examples $(x, y)$ where $y$ is a noisy measurement of $g(w^* \cdot x)$. In particular, \new{the noisy labels are of the form} $y = g(w^* \cdot x) + \xi + \epsilon$, where $\xi$ is the oblivious noise drawn independently of $x$ \new{and satisfies} $\Pr[\xi = 0] \geq o(1)$, and $\epsilon \sim \mathcal N(0, \sigma^2)$. Our goal is to accurately recover a \new{parameter vector $w$ such that the} function $g(w \cdot x)$ \new{has} arbitrarily small error when compared to the true values $g(w^* \cdot x)$, rather than the noisy measurements $y$. We present an algorithm that tackles \new{this} problem in its most general distribution-independent setting, where the solution may not \new{even} be identifiable. \new{Our} algorithm returns \new{an accurate estimate of} the solution if it is identifiable, and otherwise returns a small list of candidates, one of which is close to the true solution. Furthermore, we \new{provide} a necessary and sufficient condition for identifiability, which holds in broad settings. \new{Specifically,} the problem is identifiable when the quantile at which $\xi + \epsilon = 0$ is known, or when the family of hypotheses does not contain candidates that are nearly equal to a translated $g(w^* \cdot x) + A$ for some real number $A$, while also having large error when compared to $g(w^* \cdot x)$. This is the first \new{algorithmic} result for GLM regression \new{with oblivious noise} which can handle more than half the samples being arbitrarily corrupted. Prior work focused largely on the setting of linear regression, and gave algorithms under restrictive assumptions. | 翻訳日:2023-09-22 17:45:39 公開日:2023-09-20 |
# 「フェアゲーム」か、それとも「フェアゲーム」か。
LLMを用いた会話エージェントを用いた情報開示リスクとメリットのナビゲート方法の検討 "It's a Fair Game'', or Is It? Examining How Users Navigate Disclosure Risks and Benefits When Using LLM-Based Conversational Agents ( http://arxiv.org/abs/2309.11653v1 ) ライセンス: Link先を確認 | Zhiping Zhang, Michelle Jia, Hao-Ping (Hank) Lee, Bingsheng Yao, Sauvik Das, Ada Lerner, Dakuo Wang, Tianshi Li | (参考訳) 大規模言語モデル(LLM)ベースの会話エージェント(CA)の普及は、特に高い領域において、多くのプライバシー上の懸念を提起している。
ユーザプライバシを尊重する倫理的LCMベースのCAを構築するには、ユーザを最も心配するプライバシーリスクを深く理解する必要があります。
しかし、既存の研究は主にモデル中心であり、ユーザーの視点についての洞察を与えていない。
このギャップを埋めるために,現実のChatGPT会話における機密情報開示を分析し,19のLCMベースのCAユーザを対象に半構造化インタビューを行った。
LLMベースのCAを使用する場合,ユーザは常に,プライバシやユーティリティ,利便性のトレードオフに直面しています。
しかし、ユーザの誤ったメンタルモデルとシステム設計の暗黒パターンは、プライバシリスクに対する意識と理解を制限した。
さらに、人間のようなインタラクションによってより機密性の高い開示が促進され、ユーザーはトレードオフをナビゲートする能力が複雑になった。
llmベースのcaユーザのプライバシを保護するための,実用的な設計ガイドラインとパラダイムシフトの必要性について論じる。 The widespread use of Large Language Model (LLM)-based conversational agents (CAs), especially in high-stakes domains, raises many privacy concerns. Building ethical LLM-based CAs that respect user privacy requires an in-depth understanding of the privacy risks that concern users the most. However, existing research, primarily model-centered, does not provide insight into users' perspectives. To bridge this gap, we analyzed sensitive disclosures in real-world ChatGPT conversations and conducted semi-structured interviews with 19 LLM-based CA users. We found that users are constantly faced with trade-offs between privacy, utility, and convenience when using LLM-based CAs. However, users' erroneous mental models and the dark patterns in system design limited their awareness and comprehension of the privacy risks. Additionally, the human-like interactions encouraged more sensitive disclosures, which complicated users' ability to navigate the trade-offs. We discuss practical design guidelines and the needs for paradigmatic shifts to protect the privacy of LLM-based CA users. | 翻訳日:2023-09-22 17:45:00 公開日:2023-09-20 |
# 高次元RBMのドリフト制御:ニューラルネットワークに基づく計算法 Drift Control of High-Dimensional RBM: A Computational Method Based on Neural Networks ( http://arxiv.org/abs/2309.11651v1 ) ライセンス: Link先を確認 | Baris Ata, J. Michael Harrison, Nian Si | (参考訳) 待ち行列理論の応用に動機づけられ、状態空間が$d$-dimensional positive orthantである確率的制御問題を考える。
制御過程 $z$ は、オーサントの境界面からの反射方向と同様に、共分散行列が外在的に特定される反射ブラウン運動として発展する。
システムマネージャは、各時刻に$z$の履歴に基づいて$t$のドリフトベクトル$\theta(t)$を選択し、その時点のコストは$z(t)$と$\theta(t)$の両方に依存する。
最初の問題定式化では、無限の計画地平線上で期待される割引コストを最小化し、その後、対応するエルゴード制御問題を扱う。
han et al. (proceedings of the national academy of sciences, 2018, 8505-8510) による初期の研究を拡張し、深層ニューラルネットワーク技術に大きく依存するシミュレーションベースの計算手法を開発し、解説する。
これまでに検討したテスト問題では,提案手法は1パーセント以内の精度で,少なくとも$d=30$の次元で計算可能であった。 Motivated by applications in queueing theory, we consider a stochastic control problem whose state space is the $d$-dimensional positive orthant. The controlled process $Z$ evolves as a reflected Brownian motion whose covariance matrix is exogenously specified, as are its directions of reflection from the orthant's boundary surfaces. A system manager chooses a drift vector $\theta(t)$ at each time $t$ based on the history of $Z$, and the cost rate at time $t$ depends on both $Z(t)$ and $\theta(t)$. In our initial problem formulation, the objective is to minimize expected discounted cost over an infinite planning horizon, after which we treat the corresponding ergodic control problem. Extending earlier work by Han et al. (Proceedings of the National Academy of Sciences, 2018, 8505-8510), we develop and illustrate a simulation-based computational method that relies heavily on deep neural network technology. For test problems studied thus far, our method is accurate to within a fraction of one percent, and is computationally feasible in dimensions up to at least $d=30$. | 翻訳日:2023-09-22 17:44:42 公開日:2023-09-20 |
# 軌道AIに基づく自律給油ソリューション Orbital AI-based Autonomous Refuelling Solution ( http://arxiv.org/abs/2309.11648v1 ) ライセンス: Link先を確認 | Duarte Rondao, Lei He, Nabil Aouf | (参考訳) カメラは、小さなフォームファクターと安価な電力、質量、ボリュームコストのために、オンボードセンサーのスペースランデブーへの選択が急速に進んでいる。
しかしドッキングに関しては、通常は二次的な役割を担うが、主な仕事はライダーのようなアクティブなセンサーによって行われる。
本稿では,ドッキング・オン・オービット・サービテーション(oos)の主センサとして搭載可能な可視波長カメラの利用を成熟させ,lidarへの依存度を低減し,コストを大幅に削減することを目的とした,aiベースのナビゲーションアルゴリズムの開発について述べる。
具体的には、AIを使用することで、ターゲットや照明条件など、古典的な画像処理手法を使ってケースバイケースで作成する必要がある複数のシナリオのクラスへの相対的なナビゲーションソリューションの拡張が可能になる。
複数の畳み込みニューラルネットワーク(CNN)のバックボーンアーキテクチャは、国際宇宙ステーション(ISS)とのドッキング操作の合成データに基づいてベンチマークされ、それぞれ1%の領域正規化と1デグに近い位置と姿勢の推定が達成される。
再給油機構の物理的プロトタイプと溶液の統合は、ロボットアームを用いてバーシング手順をシミュレートするために実験室で検証される。 Cameras are rapidly becoming the choice for on-board sensors towards space rendezvous due to their small form factor and inexpensive power, mass, and volume costs. When it comes to docking, however, they typically serve a secondary role, whereas the main work is done by active sensors such as lidar. This paper documents the development of a proposed AI-based (artificial intelligence) navigation algorithm intending to mature the use of on-board visible wavelength cameras as a main sensor for docking and on-orbit servicing (OOS), reducing the dependency on lidar and greatly reducing costs. Specifically, the use of AI enables the expansion of the relative navigation solution towards multiple classes of scenarios, e.g., in terms of targets or illumination conditions, which would otherwise have to be crafted on a case-by-case manner using classical image processing methods. Multiple convolutional neural network (CNN) backbone architectures are benchmarked on synthetically generated data of docking manoeuvres with the International Space Station (ISS), achieving position and attitude estimates close to 1% range-normalised and 1 deg, respectively. The integration of the solution with a physical prototype of the refuelling mechanism is validated in laboratory using a robotic arm to simulate a berthing procedure. | 翻訳日:2023-09-22 17:44:18 公開日:2023-09-20 |
# 量子機械学習におけるランダムフーリエ特徴の可能性と限界 Potential and limitations of random Fourier features for dequantizing quantum machine learning ( http://arxiv.org/abs/2309.11647v1 ) ライセンス: Link先を確認 | Ryan Sweke, Erik Recio, Sofiene Jerbi, Elies Gil-Fuster, Bryce Fuller, Jens Eisert, Johannes Jakob Meyer | (参考訳) 量子機械学習は、おそらく、短期量子デバイスの最も検討された応用の1つである。
パラメータ化量子回路(PQC)を学習モデルとして使用する変分量子機械学習の概念に多くの焦点が当てられている。
これらのPQCモデルはリッチな構造を持ち、ランダムフーリエ特徴 (RFF) を通した効率的な量子化が可能であることを示している。
本研究では,rffがレグレッションのための変分量子機械学習の効率的な解量化を実現するための必要十分条件を確立する。
我々はこれらの知見に基づいてpqcアーキテクチャ設計の具体的な提案を行い、pqcベースの最適化によって潜在的な量子優位性を認める回帰問題に必要な構造を特定する。 Quantum machine learning is arguably one of the most explored applications of near-term quantum devices. Much focus has been put on notions of variational quantum machine learning where parameterized quantum circuits (PQCs) are used as learning models. These PQC models have a rich structure which suggests that they might be amenable to efficient dequantization via random Fourier features (RFF). In this work, we establish necessary and sufficient conditions under which RFF does indeed provide an efficient dequantization of variational quantum machine learning for regression. We build on these insights to make concrete suggestions for PQC architecture design, and to identify structures which are necessary for a regression problem to admit a potential quantum advantage via PQC based optimization. | 翻訳日:2023-09-22 17:43:53 公開日:2023-09-20 |
# 機械学習を用いた自閉症スペクトラム障害の早期診断 Early diagnosis of autism spectrum disorder using machine learning approaches ( http://arxiv.org/abs/2309.11646v1 ) ライセンス: Link先を確認 | Rownak Ara Rasul, Promy Saha, Diponkor Bala, S M Rakib Ul Karim, Ibrahim Abdullah and Bishwajit Saha | (参考訳) 自閉症スペクトラム障害(Autistic Spectrum disorder、ASD)は、社会的相互作用、コミュニケーション、反復活動の困難を特徴とする神経疾患である。
これらの困難の深刻さは様々であり、この診断を受けた人は独特の困難に直面する。
その起源は遺伝学にあるが、早期の同定と対処は、その状態の増強に寄与する。
近年、機械学習によるインテリジェントな診断が従来の臨床手法の補足として登場し、時間とコストのかかる従来の手法の潜在的な欠点に対処しようとしている。
本研究では,様々な機械学習アルゴリズムを用いて,asdの最も重要な特徴を見つけ,診断プロセスの自動化を行う。
我々は6つの分類モデルを調査し、どのモデルがASDを特定するのに最適かを確認し、また5つの一般的なクラスタリング手法を調べてこれらのASDデータセットについて有意義な洞察を得る。
これらのバイナリデータセットに対して最適な分類器を見つけるために、精度、精度、リコール、特異性、F1スコア、AUC、kaappa、ログ損失メトリクスを用いてモデルを評価する。
評価の結果、選択した6モデルのうち5つのモデルが例外的に動作し、各モデルに対してハイパーパラメータが慎重に調整された場合、ALDデータセット上で100%の精度が達成された。
ほぼすべての分類モデルが100%の精度が得られるため、これらのデータセットに一般的なクラスタリングアルゴリズムを実装することで、データセットの基盤となる洞察を観察することに興味を持つようになりました。
正規化相互情報(nmi)、調整されたランド指数(ari)、シルエット係数(sc)のメトリクスを計算し、最適なクラスタリングモデルを選択する。
評価の結果、スペクトルクラスタリングはNMIとARIの指標で他のベンチマーククラスタリングモデルよりも優れており、k-meansによって達成された最適なSCとの互換性も示している。 Autistic Spectrum Disorder (ASD) is a neurological disease characterized by difficulties with social interaction, communication, and repetitive activities. The severity of these difficulties varies, and those with this diagnosis face unique challenges. While its primary origin lies in genetics, identifying and addressing it early can contribute to the enhancement of the condition. In recent years, machine learning-driven intelligent diagnosis has emerged as a supplement to conventional clinical approaches, aiming to address the potential drawbacks of time-consuming and costly traditional methods. In this work, we utilize different machine learning algorithms to find the most significant traits responsible for ASD and to automate the diagnostic process. We study six classification models to see which model works best to identify ASD and also study five popular clustering methods to get a meaningful insight of these ASD datasets. To find the best classifier for these binary datasets, we evaluate the models using accuracy, precision, recall, specificity, F1-score, AUC, kappa and log loss metrics. Our evaluation demonstrates that five out of the six selected models perform exceptionally, achieving a 100% accuracy rate on the ASD datasets when hyperparameters are meticulously tuned for each model. As almost all classification models are able to get 100% accuracy, we become interested in observing the underlying insights of the datasets by implementing some popular clustering algorithms on these datasets. We calculate Normalized Mutual Information (NMI), Adjusted Rand Index (ARI) & Silhouette Coefficient (SC) metrics to select the best clustering models. Our evaluation finds that spectral clustering outperforms all other benchmarking clustering models in terms of NMI & ARI metrics and it also demonstrates comparability to the optimal SC achieved by k-means. | 翻訳日:2023-09-22 17:43:40 公開日:2023-09-20 |
# 注意VQ-VAE Attentive VQ-VAE ( http://arxiv.org/abs/2309.11641v1 ) ライセンス: Link先を確認 | Mariano Rivera and Angello Hoyos | (参考訳) 本稿では,Attentive Residual Encoder (AREN)とResidual Pixel Attention Layerを統合することで,VQVAEモデルの能力を高める新しいアプローチを提案する。
本研究の目的は,実用的なパラメータレベルを維持しつつ,VQVAEの性能を向上させることである。
ARENエンコーダは複数のレベルで効果的に動作し、多様なアーキテクチャの複雑さを収容するように設計されている。
重要なイノベーションは、ARENエンコーダにピクセル間自動アテンション機構を統合することである。
このアプローチにより,潜在ベクトル間のコンテキスト情報を効率的にキャプチャし,活用することができる。
さらに,モデルの表現力を高めるために,追加のエンコーディングレベルを用いる。
我々の注目層は最小パラメータのアプローチを採用し、他の画素からの関連する情報が利用可能である場合にのみ潜在ベクトルが修正されることを保証する。
実験の結果,提案する修正によりデータ表現と生成が大幅に改善され,vqvaeがより広い範囲のアプリケーションに適していることがわかった。 We present a novel approach to enhance the capabilities of VQVAE models through the integration of an Attentive Residual Encoder (AREN) and a Residual Pixel Attention layer. The objective of our research is to improve the performance of VQVAE while maintaining practical parameter levels. The AREN encoder is designed to operate effectively at multiple levels, accommodating diverse architectural complexities. The key innovation is the integration of an inter-pixel auto-attention mechanism into the AREN encoder. This approach allows us to efficiently capture and utilize contextual information across latent vectors. Additionally, our models uses additional encoding levels to further enhance the model's representational power. Our attention layer employs a minimal parameter approach, ensuring that latent vectors are modified only when pertinent information from other pixels is available. Experimental results demonstrate that our proposed modifications lead to significant improvements in data representation and generation, making VQVAEs even more suitable for a wide range of applications. | 翻訳日:2023-09-22 17:43:09 公開日:2023-09-20 |
# 否定を伴う逐次パターンの意味論に関する調査 A survey on the semantics of sequential patterns with negation ( http://arxiv.org/abs/2309.11638v1 ) ライセンス: Link先を確認 | Thomas Guyet | (参考訳) 否定のある逐次パターン(英: sequential pattern)または負の逐次パターン(英: negative sequential pattern)は、パターンの項目セットのいくつかの前で否定記号が使われる逐次パターンの形式をとる。
直感的には、このようなパターンは、否定されたアイテムセットがシーケンスに存在しない場合のシーケンスで発生する。
最近の研究は、異なる意味論がこれらのパターン形式に起因できることを示し、最先端のアルゴリズムが同じパターンの集合を抽出しないことを示した。
これにより、否定を伴うシーケンシャルパターンの解釈可能性に関する重要な疑問が提起される。
そこで本研究では,ユーザが逐次的パターンで否定を認識できる可能性を探究する。
我々の目的は、特定の意味論が他のものよりも「直感的」であるかどうか、そしてそれらが1つ以上の最先端のアルゴリズムが採用する意味論と一致するかどうかを決定することである。
そこで我々は,各ユーザの意味的直感を明らかにするためのアンケートを設計した。
本稿では,アンケートの設計と得られた124回答の詳細な分析について述べる。
結果は、2つの意味論が主に直感的であることを示しているが、どちらも主要な最先端アルゴリズムのセマンティクスと一致していない。
その結果,結論の相違を考慮に入れた勧告が得られた。 A sequential pattern with negation, or negative sequential pattern, takes the form of a sequential pattern for which the negation symbol may be used in front of some of the pattern's itemsets. Intuitively, such a pattern occurs in a sequence if negated itemsets are absent in the sequence. Recent work has shown that different semantics can be attributed to these pattern forms, and that state-of-the-art algorithms do not extract the same sets of patterns. This raises the important question of the interpretability of sequential pattern with negation. In this study, our focus is on exploring how potential users perceive negation in sequential patterns. Our aim is to determine whether specific semantics are more "intuitive" than others and whether these align with the semantics employed by one or more state-of-the-art algorithms. To achieve this, we designed a questionnaire to reveal the semantics' intuition of each user. This article presents both the design of the questionnaire and an in-depth analysis of the 124 responses obtained. The outcomes indicate that two of the semantics are predominantly intuitive; however, neither of them aligns with the semantics of the primary state-of-the-art algorithms. As a result, we provide recommendations to account for this disparity in the conclusions drawn. | 翻訳日:2023-09-22 17:42:49 公開日:2023-09-20 |
# ハドロン電荷パリティ違反の次世代探索のための候補分子 Candidate Molecules for Next-Generation Searches of Hadronic Charge-Parity Violation ( http://arxiv.org/abs/2309.11633v1 ) ライセンス: Link先を確認 | Aur\'elien Marc, Micka\"el Hubert and Timo Fleig | (参考訳) レーザー可溶性原子からなる強極性ヘテロ原子二原子分子群をハドロン系物質の新しい電荷パリティ違反の感度プローブとして体系的に研究した。
relativistic general-excitation-rank configuration interaction theoryを用いて、この集合において最も有望な系としてフランシウム-シルバー(frag)分子を選択し、その核シッフ-モーメント相互作用定数をw^\mathrm{frag}_{sm}(\mathrm{fr}) = 30168 \pm 2504\mathrm{a.u.}$とする。
我々の研究は、各分子の標的原子に対するシステム調整原子ガウス基底セットの開発を含む。 We systematically study a set of strongly polar heteronuclear diatomic molecules composed of laser-coolable atoms for their suitability as sensitive probes of new charge-parity violation in the hadron sector of matter. Using relativistic general-excitation-rank configuration interaction theory we single out the molecule francium-silver (FrAg) as the most promising system in this set and calculate its nuclear Schiff-moment interaction constant to $W^\mathrm{FrAg}_{SM}(\mathrm{Fr}) = 30168 \pm 2504\mathrm{a.u.}$ for the target nucleus Fr. Our work includes the development of system-tailored atomic Gaussian basis sets for the target atom in each respective molecule. | 翻訳日:2023-09-22 17:42:11 公開日:2023-09-20 |
# GenLayNeRF:多視点合成のための3次元モデルアライメント付き一般化可能な層表現 GenLayNeRF: Generalizable Layered Representations with 3D Model Alignment for Multi-Human View Synthesis ( http://arxiv.org/abs/2309.11627v1 ) ライセンス: Link先を確認 | Youssef Abdelkareem, Shady Shehata, Fakhri Karray | (参考訳) マルチヒューマンシーンの新しいビュー合成(NVS)は、複雑な人間間閉塞による課題を課している。
階層表現は、シーンを多層ラミアンスフィールドに分割することで複雑度を処理するが、それらは主にシーンごとの最適化によって非効率に制限される。
一般化可能な人間の視線合成法は、事前に適合した3次元メッシュと画像特徴を組み合わせて一般化するが、主に単体シーンで動作するように設計されている。
もう1つの欠点は、合成された視点で幻覚を引き起こすスパースビュー設定で画像と不一致に苦しむ3dボディモデルのパラメトリックプリフィッティングのためのマルチステップ最適化技術への依存である。
本稿では,シーンごとの最適化を必要とせず,非常にスパースなビューを入力として必要とする,複数の被験者の自由視点レンダリングのための一般化可能な階層化シーン表現GenLayNeRFを提案する。
3dボディメッシュで固定されたマルチヒューマンレイヤーにシーンを分割する。
次に,多視点特徴融合と組み合わせた反復的パラメトリック補正を行い,協調した3次元モデルを生成する,新しいエンドツーエンドのトレーニング可能なモジュールによって,ボディモデルの画素レベルのアライメントを確保する。
NVSでは,自己注意モジュールとクロスアテンションモジュールを用いて相関して融合する特徴を抽出する。
低レベルのRGB値を注目ベースのRGB融合モジュールで機能に拡張する。
提案手法を評価するために,DeepMultiSynとZJU-MultiHumanという2つのマルチヒューマンビュー合成データセットを構築した。
その結果,提案手法は,テスト時間最適化を伴わない階層化手法と同等に動作しながら,一般化可能かつ非人為的NeRF法よりも優れていた。 Novel view synthesis (NVS) of multi-human scenes imposes challenges due to the complex inter-human occlusions. Layered representations handle the complexities by dividing the scene into multi-layered radiance fields, however, they are mainly constrained to per-scene optimization making them inefficient. Generalizable human view synthesis methods combine the pre-fitted 3D human meshes with image features to reach generalization, yet they are mainly designed to operate on single-human scenes. Another drawback is the reliance on multi-step optimization techniques for parametric pre-fitting of the 3D body models that suffer from misalignment with the images in sparse view settings causing hallucinations in synthesized views. In this work, we propose, GenLayNeRF, a generalizable layered scene representation for free-viewpoint rendering of multiple human subjects which requires no per-scene optimization and very sparse views as input. We divide the scene into multi-human layers anchored by the 3D body meshes. We then ensure pixel-level alignment of the body models with the input views through a novel end-to-end trainable module that carries out iterative parametric correction coupled with multi-view feature fusion to produce aligned 3D models. For NVS, we extract point-wise image-aligned and human-anchored features which are correlated and fused using self-attention and cross-attention modules. We augment low-level RGB values into the features with an attention-based RGB fusion module. To evaluate our approach, we construct two multi-human view synthesis datasets; DeepMultiSyn and ZJU-MultiHuman. The results indicate that our proposed approach outperforms generalizable and non-human per-scene NeRF methods while performing at par with layered per-scene methods without test time optimization. | 翻訳日:2023-09-22 17:41:41 公開日:2023-09-20 |
# Dr. FERMI:確率的分布的ロバストな実証的リスク最小化フレームワーク Dr. FERMI: A Stochastic Distributionally Robust Fair Empirical Risk Minimization Framework ( http://arxiv.org/abs/2309.11682v1 ) ライセンス: Link先を確認 | Sina Baharlouei, Meisam Razaviyayn | (参考訳) 公正な機械学習モデルのトレーニングは近年広く研究されているが、ほとんどの開発手法は、トレーニングデータとテストデータが同じような分布を持つという仮定に依存している。
分布シフトが存在する場合、公正なモデルはテストデータに対して不公平に振る舞うことがある。
この欠点に対処するために、分散シフトに堅牢な公平な学習のための開発がいくつかある。
しかし、ほとんどの提案された解は、異なる特徴の相互作用を記述する因果グラフにアクセスできるという仮定に基づいている。
さらに、既存のアルゴリズムではデータへの完全なアクセスが必要であり、小さなバッチを使用する場合は使用できない(stochastic/batch実装)。
本稿では,因果グラフの知識を必要としない収束保証を持つ最初の確率分布的ロバストな公平性フレームワークを提案する。
より具体的には、正則性違反の尺度として指数renyi相互情報(ermi)に関する$l_p$ノルム不確実性集合の分布的ロバストな最適化問題として分布シフトの存在下で公正な推論を定式化する。
次に,提案手法を確率的に実装する方法について議論する。
提案フレームワークの性能と効率を,分散シフトによる実データセットの広範囲な実験により評価した。 While training fair machine learning models has been studied extensively in recent years, most developed methods rely on the assumption that the training and test data have similar distributions. In the presence of distribution shifts, fair models may behave unfairly on test data. There have been some developments for fair learning robust to distribution shifts to address this shortcoming. However, most proposed solutions are based on the assumption of having access to the causal graph describing the interaction of different features. Moreover, existing algorithms require full access to data and cannot be used when small batches are used (stochastic/batch implementation). This paper proposes the first stochastic distributionally robust fairness framework with convergence guarantees that do not require knowledge of the causal graph. More specifically, we formulate the fair inference in the presence of the distribution shift as a distributionally robust optimization problem under $L_p$ norm uncertainty sets with respect to the Exponential Renyi Mutual Information (ERMI) as the measure of fairness violation. We then discuss how the proposed method can be implemented in a stochastic fashion. We have evaluated the presented framework's performance and efficiency through extensive experiments on real datasets consisting of distribution shifts. | 翻訳日:2023-09-22 17:35:01 公開日:2023-09-20 |
# ニューラルネットワークを用いたフェデレーション学習 Federated Learning with Neural Graphical Models ( http://arxiv.org/abs/2309.11680v1 ) ライセンス: Link先を確認 | Urszula Chajewska, Harsh Shrivastava | (参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントが自身のデータに対して排他的コントロールを保持するように、プロプライエタリなデータに基づいたモデルを作成する必要性に対処します。
最近提案されたニューラルグラフモデル(NGM)は、ニューラルネットワークの表現力を利用して入力特徴間の複雑な非線形依存を学習する確率的グラフィカルモデルである。
基礎となるデータ分布をキャプチャし、推論とサンプリングのための効率的なアルゴリズムを持つ。
我々は,学習データをクライアントの環境に保持しながら,ローカルなNGMモデルから平均情報を学習するグローバルなNGMモデルを維持するFLフレームワークを開発した。
私たちの設計であるfeedngmsは、モデルパラメータの爆発に苦しむfederated matched averagingのようなニューロンマッチングフレームワークの落とし穴や欠点を避けています。
私たちのグローバルモデルのサイズはプロセスを通して一定です。
統合グローバル分布の一部ではないローカル変数をクライアントが持つ場合、クライアントのデータを用いて追加変数をマージすることでグローバルngmモデルをパーソナライズする'stitching'アルゴリズムを提案する。
FedNGMはデータ不均一性、多数の参加者、限られた通信帯域幅に対して堅牢である。 Federated Learning (FL) addresses the need to create models based on proprietary data in such a way that multiple clients retain exclusive control over their data, while all benefit from improved model accuracy due to pooled resources. Recently proposed Neural Graphical Models (NGMs) are Probabilistic Graphical models that utilize the expressive power of neural networks to learn complex non-linear dependencies between the input features. They learn to capture the underlying data distribution and have efficient algorithms for inference and sampling. We develop a FL framework which maintains a global NGM model that learns the averaged information from the local NGM models while keeping the training data within the client's environment. Our design, FedNGMs, avoids the pitfalls and shortcomings of neuron matching frameworks like Federated Matched Averaging that suffers from model parameter explosion. Our global model size remains constant throughout the process. In the cases where clients have local variables that are not part of the combined global distribution, we propose a `Stitching' algorithm, which personalizes the global NGM models by merging the additional variables using the client's data. FedNGM is robust to data heterogeneity, large number of participants, and limited communication bandwidth. | 翻訳日:2023-09-22 17:34:43 公開日:2023-09-20 |
# 機械翻訳におけるパラダイムシフト:大規模言語モデルの翻訳性能の向上 A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models ( http://arxiv.org/abs/2309.11674v1 ) ライセンス: Link先を確認 | Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla | (参考訳) 生成型大規模言語モデル(LLM)は様々なNLPタスクにおいて顕著な進歩を遂げている。
しかし、これらの進歩は翻訳タスク、特に従来の教師付きエンコーダ・デコーダ翻訳モデルより遅れている中程度のモデルサイズ(7Bまたは13Bパラメータ)では反映されていない。
これまでの研究では、これらの中等度LSMの翻訳能力の改善が試みられてきたが、その利益は限られている。
本研究では、従来の翻訳モデルが依存する豊富な並列データの必要性をなくし、翻訳タスク用に特別に設計されたllmのための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
本稿では,ALMA (Advanced Language Model-based trAnslator) として,この戦略によって開発された LLM を紹介する。
LLaMA-2を基礎モデルとして,WMT'21(2方向)およびWMT'22(8方向)テストデータセットから10の翻訳方向にわたるゼロショット性能に対して,12BLEUおよび12COMET以上の平均的改善を達成できることを示す。
NLLB-54BモデルやGPT-3.5-text-davinci-003よりは優れており、7Bまたは13Bパラメータのみである。
この手法は機械翻訳における新しい訓練パラダイムの基礎を確立する。 Generative Large Language Models (LLMs) have achieved remarkable advancements in various NLP tasks. However, these advances have not been reflected in the translation task, especially those with moderate model sizes (i.e., 7B or 13B parameters), which still lag behind conventional supervised encoder-decoder translation models. Previous studies have attempted to improve the translation capabilities of these moderate LLMs, but their gains have been limited. In this study, we propose a novel fine-tuning approach for LLMs that is specifically designed for the translation task, eliminating the need for the abundant parallel data that traditional translation models usually depend on. Our approach consists of two fine-tuning stages: initial fine-tuning on monolingual data followed by subsequent fine-tuning on a small set of high-quality parallel data. We introduce the LLM developed through this strategy as Advanced Language Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our results show that the model can achieve an average improvement of more than 12 BLEU and 12 COMET over its zero-shot performance across 10 translation directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test datasets. The performance is significantly better than all prior work and even superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or 13B parameters. This method establishes the foundation for a novel training paradigm in machine translation. | 翻訳日:2023-09-22 17:34:23 公開日:2023-09-20 |
# 一般化超高速符号化を用いた誤り検出による誤り除去 Error mitigation via error detection using Generalized Superfast Encodings ( http://arxiv.org/abs/2309.11673v1 ) ライセンス: Link先を確認 | Tobias Hagge and Nathan Wiebe | (参考訳) 量子化学シミュレーションにおける誤り低減のための新しいアプローチとして,Bravyi-Kitaevスーパーファストエンコーディングを用いて,フェルミオンエンコーディング内に量子エラー検出コードを実装する。
私たちの建設にも低重量のパリティチェックがあります。
最寄りの反発項を持つスピンレスハバードモデルでは、1量子ビットの誤差を検出でき、より複雑な誤差を高い確率で検出できることを示す。
我々の誤り検出には追加の量子回路が必要であるが、誤り除去の利点が追加の回路による追加の誤りの有害な影響よりも優れていると我々は主張する。
提案手法は,現実的なqubit接続条件下で実装可能であることを示す。 We provide a new approach to error mitigation for quantum chemistry simulation that uses a Bravyi-Kitaev Superfast encoding to implement a quantum error detecting code within the fermionic encoding. Our construction has low-weight parity checks as well. We show that for the spinless Hubbard model with nearest-neighbor repulsion terms, one-qubit errors are detectable, and more complicated errors are detectable with high probability. While our error-detection requires additional quantum circuitry, we argue that there is a regime in which the beneficial effect of error-mitigation outweighs the deleterious effects of additional errors due to additional circuitry. We show that our scheme can be implemented under realistic qubit connectivity requirements. | 翻訳日:2023-09-22 17:33:58 公開日:2023-09-20 |
# マフィア型ゲームシミュレーションにおける生成ai Generative AI in Mafia-like Game Simulation ( http://arxiv.org/abs/2309.11672v1 ) ライセンス: Link先を確認 | Munyeong Kim and Sungsu Kim | (参考訳) 本研究では,有名なマフィア型ゲームであるSpyfallで実証されたロールプレイングシミュレーションの応用に焦点を当て,生成AIモデルの有効性と可能性を検討する。
GPT-4の高度な能力を活用して、ゲームシナリオにおける理解、意思決定、相互作用のモデルの可能性を明らかにすることを目的とした。
GPT-4とそれ以前のGPT-3.5-turboの比較分析により、GPT-4のゲーム環境への適応性が向上し、関連する質問のポーズや人間のような反応が大幅に改善された。
しかし、モデルのような課題、ブラッフィングや対戦相手の動きを予測する際の限界が現れた。
ゲーム開発や金融上の制約、非言語的な制限についても考察した。
この結果は、GPT-4は以前のモデルよりも有望な進歩を示すが、さらに発展する可能性があり、特にAIに人間のような属性を注入する可能性があることを示唆している。 In this research, we explore the efficacy and potential of Generative AI models, specifically focusing on their application in role-playing simulations exemplified through Spyfall, a renowned mafia-style game. By leveraging GPT-4's advanced capabilities, the study aimed to showcase the model's potential in understanding, decision-making, and interaction during game scenarios. Comparative analyses between GPT-4 and its predecessor, GPT-3.5-turbo, demonstrated GPT-4's enhanced adaptability to the game environment, with significant improvements in posing relevant questions and forming human-like responses. However, challenges such as the model;s limitations in bluffing and predicting opponent moves emerged. Reflections on game development, financial constraints, and non-verbal limitations of the study were also discussed. The findings suggest that while GPT-4 exhibits promising advancements over earlier models, there remains potential for further development, especially in instilling more human-like attributes in AI. | 翻訳日:2023-09-22 17:33:46 公開日:2023-09-20 |
# 地域音楽レコメンデーションにおける人気低下バイアス Popularity Degradation Bias in Local Music Recommendation ( http://arxiv.org/abs/2309.11671v1 ) ライセンス: Link先を確認 | April Trainor and Douglas Turnbull | (参考訳) 本稿では,地域音楽レコメンデーションの文脈における人気低下バイアスの影響について検討する。
具体的には,WRMF (Weight Relevance Matrix Factorization) とmultinomial Variational Autoencoder (Mult-VAE) の2つのトップパフォーマンスレコメンデーションアルゴリズムが,アーティストをアーティストの人気関数として推奨しているかを検討する。
どちらのアルゴリズムも人気アーティストのレコメンデーションパフォーマンスを改善しており、人気低下バイアスを呈している。
どちらのアルゴリズムも、よりポピュラーなアーティストに同様のレベルのパフォーマンスをもたらすが、Mult-VAEは、あまり人気のないアーティストにより良い相対的なパフォーマンスを示す。
これは、このアルゴリズムがローカル(ロングテール)音楽アーティストの推薦に好まれるべきであることを示唆している。 In this paper, we study the effect of popularity degradation bias in the context of local music recommendations. Specifically, we examine how accurate two top-performing recommendation algorithms, Weight Relevance Matrix Factorization (WRMF) and Multinomial Variational Autoencoder (Mult-VAE), are at recommending artists as a function of artist popularity. We find that both algorithms improve recommendation performance for more popular artists and, as such, exhibit popularity degradation bias. While both algorithms produce a similar level of performance for more popular artists, Mult-VAE shows better relative performance for less popular artists. This suggests that this algorithm should be preferred for local (long-tail) music artist recommendation. | 翻訳日:2023-09-22 17:33:30 公開日:2023-09-20 |
# 周期的評価によるペアリング知識グラフテキストデータセットの構築 Construction of Paired Knowledge Graph-Text Datasets Informed by Cyclic Evaluation ( http://arxiv.org/abs/2309.11669v1 ) ライセンス: Link先を確認 | Ali Mousavi, Xin Zhan, He Bai, Peng Shi, Theo Rekatsinas, Benjamin Han, Yunyao Li, Jeff Pound, Josh Susskind, Natalie Schluter, Ihab Ilyas, Navdeep Jaitly | (参考訳) 知識グラフ(KG)とテキストの組み合わせ(KG-T)は、KGからテキストを生成する前方および逆ニューラルネットワークモデルのトレーニングに使用することができる。
しかし、kgとテキストペアが等価でないデータセットでトレーニングされたモデルは、幻覚やリコールに苦しむことがある。
本稿では,雑音のレベルが異なるデータセットを生成してこれを実証的に検証し,ノイズの多いデータセットがより幻覚を引き起こすことを確かめる。
我々は、ソースkgまたはテキストを循環的に再生成するためにデータセットでトレーニングされた前方および逆のモデルの能力は、データセット内のkgとテキストの等価性のプロキシであると主張する。
循環的評価を用いて、手動で作成したWebNLGは、TeKGenとT-RExを自動生成するよりもはるかに優れている。
これらの結果から,KGとテキストの等価性を向上し,各ヒューリスティックが循環評価に与える影響を示すヒューリスティックスを用いて,LAGRANGEと呼ばれる新しい改良データセットを構築した。
また,大言語モデル (LLM) を用いて2つの合成データセットを構築し,これらはテキストの周期的生成に大きく寄与するが,KGの周期的生成にはあまり寄与しないモデルに対して,一貫したオントロジーが欠如しているためと考えられる。 Datasets that pair Knowledge Graphs (KG) and text together (KG-T) can be used to train forward and reverse neural models that generate text from KG and vice versa. However models trained on datasets where KG and text pairs are not equivalent can suffer from more hallucination and poorer recall. In this paper, we verify this empirically by generating datasets with different levels of noise and find that noisier datasets do indeed lead to more hallucination. We argue that the ability of forward and reverse models trained on a dataset to cyclically regenerate source KG or text is a proxy for the equivalence between the KG and the text in the dataset. Using cyclic evaluation we find that manually created WebNLG is much better than automatically created TeKGen and T-REx. Guided by these observations, we construct a new, improved dataset called LAGRANGE using heuristics meant to improve equivalence between KG and text and show the impact of each of the heuristics on cyclic evaluation. We also construct two synthetic datasets using large language models (LLMs), and observe that these are conducive to models that perform significantly well on cyclic generation of text, but less so on cyclic generation of KGs, probably because of a lack of a consistent underlying ontology. | 翻訳日:2023-09-22 17:33:16 公開日:2023-09-20 |
# 大規模言語モデルを用いた機械翻訳の効果的曖昧化に向けて Towards Effective Disambiguation for Machine Translation with Large Language Models ( http://arxiv.org/abs/2309.11668v1 ) ライセンス: Link先を確認 | Vivek Iyer, Pinzhen Chen and Alexandra Birch | (参考訳) 意味的曖昧さの解消は、機械翻訳の分野における中心的な課題として認識されてきた。
あいまいな文に対する翻訳性能のベンチマークに関する最近の研究は、従来のニューラルマシン翻訳(NMT)システムの限界を明らかにしており、これらのケースの多くを捉えていない。
大規模言語モデル(LLM)は有望な代替として登場し、従来のNMTモデルに匹敵する性能を示しながら、ターゲット出力を制御する新しいパラダイムを導入している。
本稿では,多文語とまれな単語感覚を含む曖昧な文を翻訳するLLMの能力について検討する。
また,これらの曖昧さの処理を,コンテキスト内学習と微調整により改善する方法を2つ提案する。
実験の結果,deepl や nllb のような最先端のシステムでは,5つの言語方向のうち4つが一致した。
本研究は,機械翻訳における曖昧さに対するLLMの効果的適応に関する貴重な知見を提供する。 Resolving semantic ambiguity has long been recognised as a central challenge in the field of machine translation. Recent work on benchmarking translation performance on ambiguous sentences has exposed the limitations of conventional Neural Machine Translation (NMT) systems, which fail to capture many of these cases. Large language models (LLMs) have emerged as a promising alternative, demonstrating comparable performance to traditional NMT models while introducing new paradigms for controlling the target outputs. In this paper, we study the capabilities of LLMs to translate ambiguous sentences containing polysemous words and rare word senses. We also propose two ways to improve the handling of such ambiguity through in-context learning and fine-tuning on carefully curated ambiguous datasets. Experiments show that our methods can match or outperform state-of-the-art systems such as DeepL and NLLB in four out of five language directions. Our research provides valuable insights into effectively adapting LLMs for disambiguation during machine translation. | 翻訳日:2023-09-22 17:32:52 公開日:2023-09-20 |
# 3次元ポーズ推定におけるポーズと外観の絡み合いの理解 Understanding Pose and Appearance Disentanglement in 3D Human Pose Estimation ( http://arxiv.org/abs/2309.11667v1 ) ライセンス: Link先を確認 | Krishna Kanth Nakka and Mathieu Salzmann | (参考訳) 教師付き学習シナリオでは,3次元のポーズ推定が極めて高い精度で達成できるようになったため,3次元のポーズアノテーションが利用できないケースに対処することが注目されている。
特に、ポーズ情報から外観情報を切り離すために、自己教師型で画像表現を学習する方法がいくつか提案されている。
それらの手法は、ポーズ関連潜伏ベクトルを入力として、ポーズ回帰器を訓練するために少数の教師付きデータしか必要としない。
そこで本稿では,映像の出現情報とポーズ情報とを真に分離した,最先端の異種表現学習手法を理解するために,詳細な分析を行う。
まず, 自己教師ネットワークの観点から, 多様な画像合成実験を通して, 絡み合いについて検討する。
第2に,3次元ポーズレグレッセプタに対する対向攻撃の観点からの絡み合いについて検討する。
具体的には,対象者の自然な外観変化の発生に着目した敵戦略をデザインし,異種ネットワークの堅牢化を期待する。
分析結果から,3つの不連続表現学習フレームワークにおける不連続は,完成までに程遠い場合と,ポーズコードに有意な出現情報が含まれていることが示された。
本手法は,自己監督型3次元ポーズ推定における外見からのポーズのゆがみの程度を評価する上で,有効なテストベッドを提供すると考えられる。 As 3D human pose estimation can now be achieved with very high accuracy in the supervised learning scenario, tackling the case where 3D pose annotations are not available has received increasing attention. In particular, several methods have proposed to learn image representations in a self-supervised fashion so as to disentangle the appearance information from the pose one. The methods then only need a small amount of supervised data to train a pose regressor using the pose-related latent vector as input, as it should be free of appearance information. In this paper, we carry out in-depth analysis to understand to what degree the state-of-the-art disentangled representation learning methods truly separate the appearance information from the pose one. First, we study disentanglement from the perspective of the self-supervised network, via diverse image synthesis experiments. Second, we investigate disentanglement with respect to the 3D pose regressor following an adversarial attack perspective. Specifically, we design an adversarial strategy focusing on generating natural appearance changes of the subject, and against which we could expect a disentangled network to be robust. Altogether, our analyses show that disentanglement in the three state-of-the-art disentangled representation learning frameworks if far from complete, and that their pose codes contain significant appearance information. We believe that our approach provides a valuable testbed to evaluate the degree of disentanglement of pose from appearance in self-supervised 3D human pose estimation. | 翻訳日:2023-09-22 17:32:36 公開日:2023-09-20 |
# Masked Sparse Visual Representation を用いたニューラル画像圧縮 Neural Image Compression Using Masked Sparse Visual Representation ( http://arxiv.org/abs/2309.11661v1 ) ライセンス: Link先を確認 | Wei Jiang and Wei Wang and Yue Chen | (参考訳) 本研究では,sparse visual representation (svr) に基づいて,学習した視覚コードブックにまたがる離散的潜在空間に画像を埋め込むニューラル画像圧縮について検討する。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームな整数コードワードインデックスを転送し、デコーダはインデクタを使って埋め込み潜在機能を復元する。
従来のsvrベースの圧縮は、高い再構成品質か低い伝送ビットレートのみを追求できるレートディストリクトトレードオフの効果的なメカニズムを欠いている。
本稿では,マスクを潜在機能部分空間に適用し,ビットレートと再構成品質のバランスをとるMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
セマンティクスクラス依存の基底コードブックのセットが学習され、それらは重み付けされ、高品質な再構築のために豊富な潜在機能を生成する。
結合重みは各入力画像から適応的に導出され、追加の伝送コストで忠実度情報を提供する。
エンコーダ内の重要でない重みをマスキングしてデコーダで復元することで、伝送ビットの再構成品質をトレードオフすることができ、マスキングレートがビットレートと歪みのバランスを制御する。
JPEG-AIデータセット上での実験では、M-AdaCodeアプローチの有効性が示されている。 We study neural image compression based on the Sparse Visual Representation (SVR), where images are embedded into a discrete latent space spanned by learned visual codebooks. By sharing codebooks with the decoder, the encoder transfers integer codeword indices that are efficient and cross-platform robust, and the decoder retrieves the embedded latent feature using the indices for reconstruction. Previous SVR-based compression lacks effective mechanism for rate-distortion tradeoffs, where one can only pursue either high reconstruction quality or low transmission bitrate. We propose a Masked Adaptive Codebook learning (M-AdaCode) method that applies masks to the latent feature subspace to balance bitrate and reconstruction quality. A set of semantic-class-dependent basis codebooks are learned, which are weighted combined to generate a rich latent feature for high-quality reconstruction. The combining weights are adaptively derived from each input image, providing fidelity information with additional transmission costs. By masking out unimportant weights in the encoder and recovering them in the decoder, we can trade off reconstruction quality for transmission bits, and the masking rate controls the balance between bitrate and distortion. Experiments over the standard JPEG-AI dataset demonstrate the effectiveness of our M-AdaCode approach. | 翻訳日:2023-09-22 17:32:11 公開日:2023-09-20 |
# コントラスト学習による半教師付きニュース談話プロファイリング Semi-supervised News Discourse Profiling with Contrastive Learning ( http://arxiv.org/abs/2309.11692v1 ) ライセンス: Link先を確認 | Ming Li and Ruihong Huang | (参考訳) News Discourse Profilingは、ニュース記事の中で各文のイベント関連の役割を精査し、様々な下流アプリケーションで有用であることが証明されている。
具体的には、所定のニュース談話の文脈において、各文は、ニュースイベント構造の描写に基づいて予め定義されたカテゴリに割り当てられる。
しかし、既存のアプローチは、談話レベルのアノテーションを生成するのに手間がかかり、時間を要する性質のため、利用可能な人間の注釈データの不足に苦しめられている。
本稿では,その特異な構造的特徴を活かし,ニュース談話のプロファイリングタスクに取り組むための文書内コントラスト学習(icld)という新しい手法を提案する。
特に、私たちはこのタスクパラダイムに半教師ありの方法論を初めて適用し、評価が提案手法の有効性を示しています。 News Discourse Profiling seeks to scrutinize the event-related role of each sentence in a news article and has been proven useful across various downstream applications. Specifically, within the context of a given news discourse, each sentence is assigned to a pre-defined category contingent upon its depiction of the news event structure. However, existing approaches suffer from an inadequacy of available human-annotated data, due to the laborious and time-intensive nature of generating discourse-level annotations. In this paper, we present a novel approach, denoted as Intra-document Contrastive Learning with Distillation (ICLD), for addressing the news discourse profiling task, capitalizing on its unique structural characteristics. Notably, we are the first to apply a semi-supervised methodology within this task paradigm, and evaluation demonstrates the effectiveness of the presented approach. | 翻訳日:2023-09-22 17:21:41 公開日:2023-09-20 |
# RAI4IoE: エネルギーのインターネットを実現するための責任あるAI RAI4IoE: Responsible AI for Enabling the Internet of Energy ( http://arxiv.org/abs/2309.11691v1 ) ライセンス: Link先を確認 | Minhui Xue, Surya Nepal, Ling Liu, Subbu Sethuvenkatraman, Xingliang Yuan, Carsten Rudolph, Ruoxi Sun, Greg Eisenhauer | (参考訳) 本稿では,インターネット・オブ・エナジー(IoE)のための技術とアルゴリズム,すなわちRAI4IoEを実現するための,等価で責任性の高いAIフレームワークの開発を計画する。
エネルギーセクターは、ゼロ炭素エネルギーセクタの構築とエネルギーインフラのデジタルトランスフォーメーションという、2つの主要な要因によって大きく変化している。
電気自動車、蓄電池、風力タービン、太陽光発電(pv)などの再生可能分散型エネルギー資源(ders)を、高度な5g-6gネットワークとai技術を活用することで、信頼性の高いエネルギー流通のために接続し統合することが可能である。
これにより、DER所有者はエネルギー市場に参加し、経済インセンティブを導き出すことができる。
DERは本質的に資産駆動であり、公平な課題(公正、多様性、包括的)に直面している。
平等なアクセスがなければ、特権のある個人、グループ、組織は不利なグループのコストで参加し、利益を得ることができる。
DERリソースのリアルタイム管理は、IoEに株式問題をもたらすだけでなく、AIによって強化された予測、最適化と優先順位付けサービス、柔軟なリソースの自動管理のために、責任ある処理を必要とする、高度にセンシティブな位置、時間、活動に依存したデータも収集する。
我々のプロジェクトのビジョンは、コミュニティメンバーの公平な参加と、IoEにおけるデータの責任を負うことで、AIの進歩の恩恵を享受し、安全で信頼性があり持続可能なエネルギーサービスを提供することです。 This paper plans to develop an Equitable and Responsible AI framework with enabling techniques and algorithms for the Internet of Energy (IoE), in short, RAI4IoE. The energy sector is going through substantial changes fueled by two key drivers: building a zero-carbon energy sector and the digital transformation of the energy infrastructure. We expect to see the convergence of these two drivers resulting in the IoE, where renewable distributed energy resources (DERs), such as electric cars, storage batteries, wind turbines and photovoltaics (PV), can be connected and integrated for reliable energy distribution by leveraging advanced 5G-6G networks and AI technology. This allows DER owners as prosumers to participate in the energy market and derive economic incentives. DERs are inherently asset-driven and face equitable challenges (i.e., fair, diverse and inclusive). Without equitable access, privileged individuals, groups and organizations can participate and benefit at the cost of disadvantaged groups. The real-time management of DER resources not only brings out the equity problem to the IoE, it also collects highly sensitive location, time, activity dependent data, which requires to be handled responsibly (e.g., privacy, security and safety), for AI-enhanced predictions, optimization and prioritization services, and automated management of flexible resources. The vision of our project is to ensure equitable participation of the community members and responsible use of their data in IoE so that it could reap the benefits of advances in AI to provide safe, reliable and sustainable energy services. | 翻訳日:2023-09-22 17:21:27 公開日:2023-09-20 |
# LLM誘導インダクティブ推論による構成問題の解法 LLM Guided Inductive Inference for Solving Compositional Problems ( http://arxiv.org/abs/2309.11688v1 ) ライセンス: Link先を確認 | Abhigya Sodani, Lauren Moos, Matthew Mirman | (参考訳) 大規模言語モデル(llm)は質問応答タスクにおいて印象的な性能を示しているが、モデルのトレーニングデータに含まれない知識が必要で、実世界との直接的観察やインタラクションによってのみ取得可能な場合、その性能は限られている。
既存のメソッドは、順次呼び出されたモジュールを使って推論タスクを分解し、深い推論タスクに答える能力を制限する。
本稿では,動的計画やフォワードチェイン戦略などの自動推論技術を用いて,オープンワールド,ディープ推論タスクを処理する手法であるRecursion Based Extensible LLM (REBEL)を提案する。
REBELは、再帰的な問題分解と外部ツールの利用を通じてLCMを推論することを可能にする。
REBELが使用するツールは、自然言語記述によってのみ指定される。
さらに、構成的および会話的設定において、外部ツールを深くネストした使用を必要とする一連の問題に対してREBEL機能を実証する。 While large language models (LLMs) have demonstrated impressive performance in question-answering tasks, their performance is limited when the questions require knowledge that is not included in the model's training data and can only be acquired through direct observation or interaction with the real world. Existing methods decompose reasoning tasks through the use of modules invoked sequentially, limiting their ability to answer deep reasoning tasks. We introduce a method, Recursion based extensible LLM (REBEL), which handles open-world, deep reasoning tasks by employing automated reasoning techniques like dynamic planning and forward-chaining strategies. REBEL allows LLMs to reason via recursive problem decomposition and utilization of external tools. The tools that REBEL uses are specified only by natural language description. We further demonstrate REBEL capabilities on a set of problems that require a deeply nested use of external tools in a compositional and conversational setting. | 翻訳日:2023-09-22 17:20:59 公開日:2023-09-20 |
# 大規模事前学習はアクティブラーニングに基づく分子バーチャルスクリーニングのサンプル効率を改善する Large-scale Pretraining Improves Sample Efficiency of Active Learning based Molecule Virtual Screening ( http://arxiv.org/abs/2309.11687v1 ) ライセンス: Link先を確認 | Zhonglin Cao, Simone Sciabola, Ye Wang | (参考訳) 潜在的なヒット候補を特定するための大規模な複合ライブラリの仮想スクリーニングは、薬物発見の最も初期のステップの1つである。
市販の複合コレクションのサイズが数十億の規模に指数関数的に拡大するにつれて、ドッキングなどの従来のツールを用いたブルートフォース仮想スクリーニングは、時間と計算資源の観点から実現不可能となる。
アクティブラーニングとベイズ最適化は、最近検索空間を狭める効果的な方法として証明されている。
これらの手法における重要な要素は、化合物の望ましい性質を予測するために、ライブラリの小さなサブセットで訓練された代理機械学習モデルである。
正確なモデルは、ライブラリ全体のほんの一部しか表示されていない最も有望な化合物を見つけることで、高いサンプル効率を達成できる。
本研究では,ベイズ最適化能動学習フレームワークにおける事前学習型トランスフォーマベース言語モデルとグラフニューラルネットワークの性能について検討した。
最高の事前訓練されたモデルは、995万の化合物を含む超大型図書館のわずか0.6%をスクリーニングした後、ドッキングスコアによってトップ50000の58.97%を識別し、以前の最先端のベースラインよりも8%改善した。
広範なベンチマークを通じて,事前学習モデルの優れた性能は,構造ベースとリガンドベースの薬物発見の両方において持続することを示した。
このようなモデルは、アクティブラーニングに基づく分子仮想スクリーニングの精度とサンプル効率の向上に寄与する。 Virtual screening of large compound libraries to identify potential hit candidates is one of the earliest steps in drug discovery. As the size of commercially available compound collections grows exponentially to the scale of billions, brute-force virtual screening using traditional tools such as docking becomes infeasible in terms of time and computational resources. Active learning and Bayesian optimization has recently been proven as effective methods of narrowing down the search space. An essential component in those methods is a surrogate machine learning model that is trained with a small subset of the library to predict the desired properties of compounds. Accurate model can achieve high sample efficiency by finding the most promising compounds with only a fraction of the whole library being virtually screened. In this study, we examined the performance of pretrained transformer-based language model and graph neural network in Bayesian optimization active learning framework. The best pretrained models identifies 58.97% of the top-50000 by docking score after screening only 0.6% of an ultra-large library containing 99.5 million compounds, improving 8% over previous state-of-the-art baseline. Through extensive benchmarks, we show that the superior performance of pretrained models persists in both structure-based and ligand-based drug discovery. Such model can serve as a boost to the accuracy and sample efficiency of active learning based molecule virtual screening. | 翻訳日:2023-09-22 17:20:43 公開日:2023-09-20 |
# 照射された交互ねじれ多層グラフェン中の位相的フロッケフラットバンド Topological Floquet Flat Bands in Irradiated Alternating Twist Multilayer Graphene ( http://arxiv.org/abs/2309.11685v1 ) ライセンス: Link先を確認 | Yingyi Huang | (参考訳) 本研究は,第1次マジック角近傍の相対ねじれ角$\pm\theta$の交互2重グラフェン(ATMG)におけるトポロジカルフロケフラットバンドの出現について検討する。
この系は静的な場合、平らなバンドと急なディラック錐の両方を収容するが、円偏光レーザービームはモワール・ボアのK$ポイントでギャップを開き、非ゼロチャーン数を持つフロケ平らなバンドを作ることができる。
近年の格子緩和結果を考えると, トポロジカルフラットバンドは, 有効層間トンネルとして$n=3, 4, 5$層で分離されている。
このような動的に生成されたトポロジカルフラットバンドは、実験で潜在的に観察され、チャーン絶縁体を実現するための実現可能な方法を提供する。 We study the appearance of topological Floquet flat bands in alternating-twist multilayer graphene (ATMG) which has an alternating relative twist angle $\pm\theta$ near the first magic angle. While the system hosts both flat bands and a steep Dirac cone in the static case, the circularly polarized laser beam can open a gap at the Moir\'{e} $K$ point and create Floquet flat bands carrying non-zero Chern numbers. Considering the recent lattice-relaxation results, we find that the topological flat band is well-isolated for the effective interlayer tunneling in $n=3, 4, 5$ layer. Such dynamically produced topological flat bands are potentially observed in the experiment and thus provide a feasible way to realize the fractional Chern insulator. | 翻訳日:2023-09-22 17:20:17 公開日:2023-09-20 |
# SR-PredictAO:高機能予測器アドオンによるセッションベース勧告 SR-PredictAO: Session-based Recommendation with High-Capability Predictor Add-On ( http://arxiv.org/abs/2309.12218v1 ) ライセンス: Link先を確認 | Ruida Wang, Raymond Chi-Wing Wong, Weile Tan | (参考訳) セッションベースのレコメンデーションでは,ランダムなユーザ行動が存在する場合にのみ,単一のセッションの情報に基づいて次の項目のクリックを予測できるようにすることが,複雑な問題である。
この複雑な問題は、ユーザの次のアクションを予測する高機能モデルを必要とする。
すべての研究において、エンコーダモジュールをパラダイム内で広範囲に最適化する方法に重点を置いているが、予測モジュールの最適化方法については無視されている。
本稿では,既存モデルにおける低能力予測モジュールの問題点を明らかにする。
そこで,本研究では, \emph{\underline{S}ession-based \underline{R}ecommendation with \underline{Pred}ictor \underline{A}dd-\underline{O}n} (SR-PredictAO) という新しいフレームワークを提案する。
本稿では,ランダムなユーザの振る舞いが予測に与える影響を緩和できる高機能予測モジュールを提案する。
このフレームワークが既存のモデルにも適用可能であり、フレームワークをさらに最適化する機会を与えてくれる点に注意が必要だ。
3つの最先端モデルのための2つの実ベンチマークデータセットに対する大規模な実験により、 \emph{SR-PredictAO}はHR@20では2.9\%、MRR@20では2.3\%まで、現在の最先端モデルを上回っている。
さらに重要なのは、この改善はすべてのデータセットにある既存のほぼすべてのモデルに一貫したものであり、この分野における重要な貢献と見なすことができる。 Session-based recommendation, aiming at making the prediction of the user's next item click based on the information in a single session only even in the presence of some random user's behavior, is a complex problem. This complex problem requires a high-capability model of predicting the user's next action. Most (if not all) existing models follow the encoder-predictor paradigm where all studies focus on how to optimize the encoder module extensively in the paradigm but they ignore how to optimize the predictor module. In this paper, we discover the existing critical issue of the low-capability predictor module among existing models. Motivated by this, we propose a novel framework called \emph{\underline{S}ession-based \underline{R}ecommendation with \underline{Pred}ictor \underline{A}dd-\underline{O}n} (SR-PredictAO). In this framework, we propose a high-capability predictor module which could alleviate the effect of random user's behavior for prediction. It is worth mentioning that this framework could be applied to any existing models, which could give opportunities for further optimizing the framework. Extensive experiments on two real benchmark datasets for three state-of-the-art models show that \emph{SR-PredictAO} out-performs the current state-of-the-art model by up to 2.9\% in HR@20 and 2.3\% in MRR@20. More importantly, the improvement is consistent across almost all the existing models on all datasets, which could be regarded as a significant contribution in the field. | 翻訳日:2023-09-22 14:18:16 公開日:2023-09-20 |
# crowdotic:非音声によるプライバシー保護型待合室群集密度推定 Crowdotic: A Privacy-Preserving Hospital Waiting Room Crowd Density Estimation with Non-speech Audio ( http://arxiv.org/abs/2309.10280v2 ) ライセンス: Link先を確認 | Forsad Al Hossain, Tanjid Hasan Tonmoy, Andrew A. Lover, George A. Corey, Mohammad Arif Ul Alam, Tauhidur Rahman | (参考訳) プライバシを保存する群衆密度分析は、さまざまなシナリオにまたがるアプリケーションを見つけ、さまざまな領域におけるプライバシーの期待を保ちながら、スマートなビルディング操作と管理を大幅に強化する。
本稿では,トランスフォーマーモデルを利用した非音声音声によるクラウド分析手法を提案する。
以上の結果から,非音声のみを高精度に解析できることを示した。
我々の知る限りでは、非音声音声信号が占有率を予測するために提案されるのはこれが初めてである。
われわれが知る限り、この種のアプローチはこれ以前には他に類を見ない。
これを実現するために,我々はセンサベースのプラットフォームを大規模病院の待合室に配置し,数ヶ月間にわたりirbの承認を得て,モデルのトレーニングと評価のための非音声とサーマルイメージをキャプチャした。
提案手法はサーマルカメラベースモデルや他のベースラインよりも優れていた。
音声を使わずに優れた性能を示すことに加えて、差分プライバシー技術を用いてさらなる分析を行い、さらなるプライバシー保証を提供する。
全体として本研究は,非音声データを正確な占有率推定に活用し,音声関連コンテンツの排除と,差分プライバシー保証による堅牢なプライバシー保護を提供することを実証する。 Privacy-preserving crowd density analysis finds application across a wide range of scenarios, substantially enhancing smart building operation and management while upholding privacy expectations in various spaces. We propose a non-speech audio-based approach for crowd analytics, leveraging a transformer-based model. Our results demonstrate that non-speech audio alone can be used to conduct such analysis with remarkable accuracy. To the best of our knowledge, this is the first time when non-speech audio signals are proposed for predicting occupancy. As far as we know, there has been no other similar approach of its kind prior to this. To accomplish this, we deployed our sensor-based platform in the waiting room of a large hospital with IRB approval over a period of several months to capture non-speech audio and thermal images for the training and evaluation of our models. The proposed non-speech-based approach outperformed the thermal camera-based model and all other baselines. In addition to demonstrating superior performance without utilizing speech audio, we conduct further analysis using differential privacy techniques to provide additional privacy guarantees. Overall, our work demonstrates the viability of employing non-speech audio data for accurate occupancy estimation, while also ensuring the exclusion of speech-related content and providing robust privacy protections through differential privacy guarantees. | 翻訳日:2023-09-22 11:50:02 公開日:2023-09-20 |
# 深いパラメタライズド量子回路のためのバレンプラトーの統一理論 A Unified Theory of Barren Plateaus for Deep Parametrized Quantum Circuits ( http://arxiv.org/abs/2309.09342v2 ) ライセンス: Link先を確認 | Michael Ragone, Bojko N. Bakalov, Fr\'ed\'eric Sauvage, Alexander F. Kemper, Carlos Ortiz Marrero, Martin Larocca, and M. Cerezo | (参考訳) 変分量子コンピューティングスキームは、高い汎用性と、短期量子デバイスを実用化する可能性から、かなりの注目を集めている。
これらのモデルは、パラメータ化された量子回路を通じて初期状態を送信し、回路の出力で演算子の期待値を評価することで損失関数を訓練する。
それらの約束にもかかわらず、これらのアルゴリズムの練習性は、パラメトリック化量子回路の表現性、入力データの絡み合い、観測可能な局所性、ハードウェアノイズの存在によって引き起こされる不規則なプラトーによって妨げられる。
この時点まで、これらの不毛の台地は独立したものとされ、特定の回路構造のためにのみ研究されてきた。
本研究では,特定のノイズモデルが存在する場合でも,十分に深いパラメータ化された量子回路の損失関数の分散の正確な表現を提供する一般リー代数理論を提案する。
この結果は, エンタングルメントと作用素の局所性という一般化された(およびサブシステムに依存しない)概念と, ノイズによる代数的デコヒーレンスの概念を活用することによって, 上記のバレンプラトーのすべての源を単一の枠組みで統一する。
この理論的な跳躍は、パラメトリズド回路の生成元の損失集中度とリー代数の次元の間の関係に関する定在予想を解決している。 Variational quantum computing schemes have received considerable attention due to their high versatility and potential to make practical use of near-term quantum devices. At their core, these models train a loss function by sending an initial state through a parametrized quantum circuit, and evaluating the expectation value of some operator at the circuit's output. Despite their promise, the trainablity of these algorithms is hindered by barren plateaus induced by the expressiveness of the parametrized quantum circuit, the entanglement of the input data, the locality of the observable, or the presence of hardware noise. Up to this point, these sources of barren plateaus have been regarded as independent and have been studied only for specific circuit architectures. In this work, we present a general Lie algebraic theory that provides an exact expression for the variance of the loss function of sufficiently deep parametrized quantum circuits, even in the presence of certain noise models. Our results unify under one single framework all aforementioned sources of barren plateaus by leveraging generalized (and subsystem independent) notions of entanglement and operator locality, as well as generalized notions of algebraic decoherence due to noise. This theoretical leap resolves a standing conjecture about a connection between loss concentration and the dimension of the Lie algebra of the generators of the parametrized circuit. | 翻訳日:2023-09-22 11:49:04 公開日:2023-09-20 |
# 腫瘍血管新生最適化 : 新しいバイオインスパイアされたメタヒューリスティック Tumoral Angiogenic Optimizer: A new bio-inspired based metaheuristic ( http://arxiv.org/abs/2309.05947v3 ) ライセンス: Link先を確認 | Hern\'andez Rodr\'iguez, Mat\'ias Ezequiel | (参考訳) 本稿では,腫瘍血管新生過程中に発生する血管内皮細胞(ecs)の形態形成細胞運動に着想を得た新しいメタヒューリスティックを提案する。
このアルゴリズムはランダムな初期集団から始まる。
各反復において、最も優れた候補が腫瘍として選択され、人口の他の個体は、先端と追従心電図の間の空間的関係を通して、調整されたダイナミクスに従って腫瘍の方向に移動するECとして扱われる。
このアルゴリズムは、他の類似の最適化メタヒューリスティックと比較して利点がある: モデルパラメータは、既に腫瘍血管形成現象モデリングに従って設定されており、研究者が任意の値で初期化することを妨げている。
その後、このアルゴリズムをよく知られたベンチマーク関数と比較し、PSO(Particle Swarm Optimization)との比較研究により結果を検証する。
その結果,アルゴリズムは競争力の高い結果が得られることが示された。
さらに, 提案アルゴリズムは実世界の問題 (カンチレバービーム設計, 圧力容器設計, テンション/圧縮ばね, 持続的浮揚資源) に適用される。
その結果,提案アルゴリズムは制約付き最適化問題を効果的に解いた。
その結果,いくつかの既知のアルゴリズムと比較した。 In this article, we propose a new metaheuristic inspired by the morphogenetic cellular movements of endothelial cells (ECs) that occur during the tumor angiogenesis process. This algorithm starts with a random initial population. In each iteration, the best candidate selected as the tumor, while the other individuals in the population are treated as ECs migrating toward the tumor's direction following a coordinated dynamics through a spatial relationship between tip and follower ECs. This algorithm has an advantage compared to other similar optimization metaheuristics: the model parameters are already configured according to the tumor angiogenesis phenomenon modeling, preventing researchers from initializing them with arbitrary values. Subsequently, the algorithm is compared against well-known benchmark functions, and the results are validated through a comparative study with Particle Swarm Optimization (PSO). The results demonstrate that the algorithm is capable of providing highly competitive outcomes. Furthermore, the proposed algorithm is applied to real-world problems (cantilever beam design, pressure vessel design, tension/compression spring and sustainable explotation renewable resource). The results showed that the proposed algorithm worked effectively in solving constrained optimization problems. The results obtained were compared with several known algorithms. | 翻訳日:2023-09-22 11:48:36 公開日:2023-09-20 |
# Co-GAIL:人間-ロボット協調のための多様な戦略を学ぶ Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration ( http://arxiv.org/abs/2108.06038v2 ) ライセンス: Link先を確認 | Chen Wang, Claudia P\'erez-D'Arpino, Danfei Xu, Li Fei-Fei, C. Karen Liu, Silvio Savarese | (参考訳) 本稿では,人間とロボットの協調実験から人間とロボットの協調政策を学ぶ方法を提案する。
効果的なロボットアシスタントは、デモで示された多様な人間の行動に対処することを学び、オンラインタスク実行中に人間が戦略を調整すると頑健になる。
本手法は,対話型学習プロセスにおいて,人間ポリシーとロボットポリシーを協調的に最適化する。人間ポリシーは,実証から多種多様な協調行動を生成することを学習し,ロボットポリシーは人間の協力者の意図しない潜在戦略を推定することによって支援する。
2次元戦略ゲーム、人間-ロボットハンドオーバタスク、多段階協調操作タスクにおいて、シミュレーションによる評価と実際の人間のオペレーターによる実行の両方において、この方法が代替案を上回る。
補足資料とビデオ - https://sites.google.com/view/co-gail-web/home We present a method for learning a human-robot collaboration policy from human-human collaboration demonstrations. An effective robot assistant must learn to handle diverse human behaviors shown in the demonstrations and be robust when the humans adjust their strategies during online task execution. Our method co-optimizes a human policy and a robot policy in an interactive learning process: the human policy learns to generate diverse and plausible collaborative behaviors from demonstrations while the robot policy learns to assist by estimating the unobserved latent strategy of its human collaborator. Across a 2D strategy game, a human-robot handover task, and a multi-step collaborative manipulation task, our method outperforms the alternatives in both simulated evaluations and when executing the tasks with a real human operator in-the-loop. Supplementary materials and videos at https://sites.google.com/view/co-gail-web/home | 翻訳日:2023-09-22 02:57:35 公開日:2023-09-20 |
# 深い模倣学習を実践的に見る A Pragmatic Look at Deep Imitation Learning ( http://arxiv.org/abs/2108.01867v2 ) ライセンス: Link先を確認 | Kai Arulkumaran, Dan Ogawa Lillrank | (参考訳) gail(generative adversarial imitation learning)アルゴリズムの導入は、ディープニューラルネットワークを用いたスケーラブルな模倣学習手法の開発を促した。
続くアルゴリズムの多くは、オンポリシー・アクタ-クリティックアルゴリズムと逆強化学習を組み合わせた同様の手順を用いた。
最近では、もっと大きなアプローチがあり、そのほとんどは、非政治的なアルゴリズムを使っている。
しかし、アルゴリズムの広さによって、データセットからベース強化学習アルゴリズム、評価設定に至るまで、あらゆるものが異なるため、適切な比較が困難になる。
この作業では、6つの異なるilアルゴリズムを再実装し、3つをオフポリシーに更新し、それらを共通オフポリシーアルゴリズム(sac)にベースとし、最も一般的なベンチマーク(mujoco)のために広く使われている専門家軌道データセット(d4rl)で評価します。
すべてのアルゴリズムに同じハイパーパラメータ最適化予算を与えた後、その結果をさまざまな専門家の軌跡と比較する。
要約すると、GAILはすべての改善を伴い、一連のサンプルサイズで一貫してよく機能するが、AdRILは1つの重要なハイパーパラメータをチューニングするためにうまく機能する単純な競合子であり、データが豊富である場合に行動的クローンは強力なベースラインのままである。 The introduction of the generative adversarial imitation learning (GAIL) algorithm has spurred the development of scalable imitation learning approaches using deep neural networks. Many of the algorithms that followed used a similar procedure, combining on-policy actor-critic algorithms with inverse reinforcement learning. More recently there have been an even larger breadth of approaches, most of which use off-policy algorithms. However, with the breadth of algorithms, everything from datasets to base reinforcement learning algorithms to evaluation settings can vary, making it difficult to fairly compare them. In this work we re-implement 6 different IL algorithms, updating 3 of them to be off-policy, base them on a common off-policy algorithm (SAC), and evaluate them on a widely-used expert trajectory dataset (D4RL) for the most common benchmark (MuJoCo). After giving all algorithms the same hyperparameter optimisation budget, we compare their results for a range of expert trajectories. In summary, GAIL, with all of its improvements, consistently performs well across a range of sample sizes, AdRIL is a simple contender that performs well with one important hyperparameter to tune, and behavioural cloning remains a strong baseline when data is more plentiful. | 翻訳日:2023-09-22 02:57:19 公開日:2023-09-20 |
# サブポピュレーション間の視覚的差異に対するエビデンス強度の測定 Measure of Strength of Evidence for Visually Observed Differences between Subpopulations ( http://arxiv.org/abs/2101.00362v3 ) ライセンス: Link先を確認 | Xi Yang, Jan Hannig, Katherine A. Hoadley, Iain Carmichael, J.S. Marron | (参考訳) 視覚的に観察されたサブポピュレーション差の強さを測定するために,視覚的に観察されたサブポピュレーション差の統計的意義を評価するために,Population difference Criterionを提案する。
高次元の文脈では、分布モデルは疑わしいが、高信号の文脈では、従来の置換テストはペアワイズ比較が貧弱である。
注意深い分析に基づいて、バランスのとれた置換アプローチは、従来の置換よりも高符号の文脈でより強力であることが分かりました。
もうひとつの貢献は、ブートストラップ信頼区間による置換変動による不確実性の定量化である。
これらの概念の実用的有用性は、現代のがんデータのサブポピュレーションの比較で示される。 For measuring the strength of visually-observed subpopulation differences, the Population Difference Criterion is proposed to assess the statistical significance of visually observed subpopulation differences. It addresses the following challenges: in high-dimensional contexts, distributional models can be dubious; in high-signal contexts, conventional permutation tests give poor pairwise comparisons. We also make two other contributions: Based on a careful analysis we find that a balanced permutation approach is more powerful in high-signal contexts than conventional permutations. Another contribution is the quantification of uncertainty due to permutation variation via a bootstrap confidence interval. The practical usefulness of these ideas is illustrated in the comparison of subpopulations of modern cancer data. | 翻訳日:2023-09-22 02:56:11 公開日:2023-09-20 |
# 誤特定下の分類:半空間、一般化線形モデル、進化可能性への接続 Classification Under Misspecification: Halfspaces, Generalized Linear Models, and Connections to Evolvability ( http://arxiv.org/abs/2006.04787v2 ) ライセンス: Link先を確認 | Sitan Chen, Frederic Koehler, Ankur Moitra, Morris Yau | (参考訳) 本稿では,誤特定に基づく分類における古典的な問題を再考する。
特に、Massartノイズ下でのハーフスペースの学習問題を$\eta$で検討する。
最近の研究で、Diakonikolas、Goulekakis、Tzamosは、$\eta + \epsilon$ for any $\epsilon > 0$を学習するための最初の効率的なアルゴリズムを提供することで、長年の問題を解決した。
しかし、それらのアルゴリズムは複雑な仮説を出力し、空間を$\text{poly}(d,1/\epsilon)$ regionに分割する。
ここで、より単純なアルゴリズムを与え、その過程において、いくつかの未解決の問題を解決する: (1) マッサート半空間に対する最初の適切な学習者を与え、$\eta + \epsilon$ を得る。
また、多項式時間アルゴリズムによって実現可能なサンプル複雑性の限界も改善した。
2)(1)に基づいて,任意に複雑な分類器を等しく適切な分類器に変換するブラックボックス知識蒸留法を開発した。
(3) 単純だが見過ごされた接続を進化可能性に活用することにより、任意のSQアルゴリズムは、$\mathsf{OPT} + \epsilon$を達成するために超ポリノミカルな多くのクエリを必要とすることを示す。
さらに、任意の奇数、単調、リプシッツ関数 $\sigma$ に対して $\mathbb{E}[Y|\mathbf{X}] = \sigma(\langle \mathbf{w}^*, \mathbf{X}\rangle)$ を一般化線型モデルとして研究する。
このファミリーは、前述のハーフスペースモデルを特別なケースとして含むが、よりリッチで、ロジスティック回帰のような他の基本モデルを含んでいる。
我々は,マスアートノイズを一般化する新しい汚職モデルを提案し,この環境で学習する一般的なアルゴリズムを提案する。
我々のアルゴリズムは、誤特定の有無を分類する学習のための、小さなレシピセットに基づいている。
最後に,マスアート雑音下でのハーフスペース学習のためのアルゴリズムを実証的に検討し,公平性を示すことを示す。 In this paper we revisit some classic problems on classification under misspecification. In particular, we study the problem of learning halfspaces under Massart noise with rate $\eta$. In a recent work, Diakonikolas, Goulekakis, and Tzamos resolved a long-standing problem by giving the first efficient algorithm for learning to accuracy $\eta + \epsilon$ for any $\epsilon > 0$. However, their algorithm outputs a complicated hypothesis, which partitions space into $\text{poly}(d,1/\epsilon)$ regions. Here we give a much simpler algorithm and in the process resolve a number of outstanding open questions: (1) We give the first proper learner for Massart halfspaces that achieves $\eta + \epsilon$. We also give improved bounds on the sample complexity achievable by polynomial time algorithms. (2) Based on (1), we develop a blackbox knowledge distillation procedure to convert an arbitrarily complex classifier to an equally good proper classifier. (3) By leveraging a simple but overlooked connection to evolvability, we show any SQ algorithm requires super-polynomially many queries to achieve $\mathsf{OPT} + \epsilon$. Moreover we study generalized linear models where $\mathbb{E}[Y|\mathbf{X}] = \sigma(\langle \mathbf{w}^*, \mathbf{X}\rangle)$ for any odd, monotone, and Lipschitz function $\sigma$. This family includes the previously mentioned halfspace models as a special case, but is much richer and includes other fundamental models like logistic regression. We introduce a challenging new corruption model that generalizes Massart noise, and give a general algorithm for learning in this setting. Our algorithms are based on a small set of core recipes for learning to classify in the presence of misspecification. Finally we study our algorithm for learning halfspaces under Massart noise empirically and find that it exhibits some appealing fairness properties. | 翻訳日:2023-09-22 02:55:59 公開日:2023-09-20 |
# グラフニューラルネットワークを用いた電力グリッドトポロジの動的安定性評価に向けて Toward Dynamic Stability Assessment of Power Grid Topologies using Graph Neural Networks ( http://arxiv.org/abs/2206.06369v4 ) ライセンス: Link先を確認 | Christian Nauck, Michael Lindner, Konstantin Sch\"urholt, Frank Hellmann | (参考訳) 気候変動を緩和するには、発電における再生可能エネルギーのシェアを増やす必要がある。
再生可能エネルギーは、分散化による動的安定性、慣性の減少、生産のボラティリティに関する新しい課題を電力網に導入する。
動的安定性シミュレーションは大規模グリッドでは難解で費用がかかるため、グラフニューラルネットワーク(gnns)は電力グリッドの動的安定性を分析する計算労力を減らすための有望な方法である。
gnnモデルのテストベッドとして、合成電力グリッドの動的安定性の新しい大規模データセットを作成し、研究コミュニティにオープンソースリソースとして提供します。
gnnは位相情報のみから高度に非線形な目標を予測するのに驚くほど有効であることがわかった。
初めて、実用的なユースケースに適したパフォーマンスが達成される。
さらに、これらのモデルが電力グリッド内の特定の脆弱なノードを正確に識別する能力を示す。
最後に、小型グリッドで訓練されたGNNが、実際の応用の可能性を示すテキサス電力グリッドの大規模合成モデル上で正確な予測を生成することを発見した。 To mitigate climate change, the share of renewable energies in power production needs to be increased. Renewables introduce new challenges to power grids regarding the dynamic stability due to decentralization, reduced inertia, and volatility in production. Since dynamic stability simulations are intractable and exceedingly expensive for large grids, graph neural networks (GNNs) are a promising method to reduce the computational effort of analyzing the dynamic stability of power grids. As a testbed for GNN models, we generate new, large datasets of dynamic stability of synthetic power grids, and provide them as an open-source resource to the research community. We find that GNNs are surprisingly effective at predicting the highly non-linear targets from topological information only. For the first time, performance that is suitable for practical use cases is achieved. Furthermore, we demonstrate the ability of these models to accurately identify particular vulnerable nodes in power grids, so-called troublemakers. Last, we find that GNNs trained on small grids generate accurate predictions on a large synthetic model of the Texan power grid, which illustrates the potential for real-world applications. | 翻訳日:2023-09-22 01:07:57 公開日:2023-09-20 |
# 超音波信号処理:モデルからディープラーニングへ Ultrasound Signal Processing: From Models to Deep Learning ( http://arxiv.org/abs/2204.04466v2 ) ライセンス: Link先を確認 | Ben Luijten, Nishith Chennakeshava, Yonina C. Eldar, Massimo Mischi, Ruud J.G. van Sloun | (参考訳) 医用超音波画像は、信頼性と解釈可能な画像再構成を提供するために、高品質な信号処理に大きく依存している。
伝統的に、物理原理から派生した再構成アルゴリズム。
これらのアルゴリズムは、基礎となる測定モデルの仮定と近似に依存しており、これらの仮定が崩壊すると、設定における画質が制限される。
逆に、統計モデリング、慎重なパラメータチューニング、あるいはモデル複雑性の増大に基づくより洗練されたソリューションは、異なる環境に敏感である。
近年,データ駆動方式で最適化されたディープラーニングベースの手法が人気を集めている。
これらのモデルに依存しない手法は、しばしば一般的なモデル構造に依存し、堅牢な解に収束するために広大なトレーニングデータを必要とする。
比較的新しいパラダイムは、データ駆動ディープラーニングの活用とドメイン知識の活用という2つの力を組み合わせたものです。
これらのモデルベースのソリューションは高い堅牢性をもたらし、従来のニューラルネットワークよりもパラメータやトレーニングデータが少ない。
本稿では,これらの技術の概要を最近の文献から紹介し,様々な超音波応用について論じる。
我々は,この領域のさらなる研究を読者に促し,超音波信号処理の分野における機会に対処することを目的としている。
医用超音波のモデルベース深層学習技術に関する今後の展望を述べる。 Medical ultrasound imaging relies heavily on high-quality signal processing to provide reliable and interpretable image reconstructions. Conventionally, reconstruction algorithms where derived from physical principles. These algorithms rely on assumptions and approximations of the underlying measurement model, limiting image quality in settings were these assumptions break down. Conversely, more sophisticated solutions based on statistical modelling, careful parameter tuning, or through increased model complexity, can be sensitive to different environments. Recently, deep learning based methods, which are optimized in a data-driven fashion, have gained popularity. These model-agnostic techniques often rely on generic model structures, and require vast training data to converge to a robust solution. A relatively new paradigm combines the power of the two: leveraging data-driven deep learning, as well as exploiting domain knowledge. These model-based solutions yield high robustness, and require less parameters and training data than conventional neural networks. In this work we provide an overview of these techniques from recent literature, and discuss a wide variety of ultrasound applications. We aim to inspire the reader to further research in this area, and to address the opportunities within the field of ultrasound signal processing. We conclude with a future perspective on model-based deep learning techniques for medical ultrasound. | 翻訳日:2023-09-22 01:06:59 公開日:2023-09-20 |
# 任意の測定装置を使ってほぼ完璧な測定をする方法 How to use arbitrary measuring devices to perform almost perfect measurements ( http://arxiv.org/abs/2203.02593v3 ) ライセンス: Link先を確認 | Noah Linden and Paul Skrzypczyk | (参考訳) 我々は、別の量子測定を行う能力を考えると、1つの量子測定を再現する問題を考える。
この問題に対する一般的なフレームワークと具体的なプロトコルを提供します。
例えば、利用可能な"不完全"デバイスを、使用中の不完全測定数で指数関数的に減少する平均誤差でターゲット測定を実装するために、少量で使用する方法を示す。
これは、測定装置の軽量なエラー軽減の一種として、短期的な応用に有用であると期待する。
実用的応用の観点からは、利用可能な測定値と対象値の両方が任意の一般化された量子測定値であるような最も一般的な設定において、一般的な理論的観点から問題を考える。
この一般的な問題は、フォン・ノイマン測度(完全)の統計を再現する能力に還元され、利用可能な測定値の無限個の使用の漸近極限において、'古典的クローニング'に基づく単純なプロトコルがこの課題を完全に達成できることを示す。
漸近的に全ての(非自明な)量子測定が等価であることを示す。
また、利用可能な測定値の固定回数に対する最適プロトコルについても検討する。
これには、ノイズと損失量子の測定の両方の改善を含むが、制限されない。
さらに,複数の計測を並列に行う環境では,古典的情報理論のブロック符号化手法を用いて,有限レートの計測再現を実現することができることを示す。
最後に,確率的プロトコルを利用することで,メリットも享受できることを示す。 We consider the problem of reproducing one quantum measurement given the ability to perform another. We give a general framework and specific protocols for this problem. For example, we show how to use available "imperfect" devices a small number of times to implement a target measurement with average error that drops off exponentially with the number of imperfect measurements used. We hope that could be useful in near-term applications as a type of lightweight error mitigation of the measuring devices. As well as the view to practical applications, we consider the question from a general theoretical perspective in the most general setting where both the available and target measurements are arbitrary generalised quantum measurements. We show that this general problem in fact reduces to the ability to reproduce the statistics of (complete) von Neumann measurements, and that in the asymptotic limit of infinitely many uses of the available measurement, a simple protocol based upon `classical cloning' can perfectly achieve this task. We show that asymptotically all (non-trivial) quantum measurements are equivalent. We also study optimal protocols for a fixed number of uses of the available measurement. This includes, but is not limited to, improving both noisy and lossy quantum measurements. Furthermore, we show that, in a setting where we perform multiple measurements in parallel, we can achieve finite-rate measurement reproduction, by using block-coding techniques from classical information theory. Finally, we show that advantages can also be gained by making use of probabilistic protocols. | 翻訳日:2023-09-22 01:06:40 公開日:2023-09-20 |
# Coded ResNeXtによる情報経路の分散化 Towards Disentangling Information Paths with Coded ResNeXt ( http://arxiv.org/abs/2202.05343v2 ) ライセンス: Link先を確認 | Apostolos Avranas and Marios Kountouris | (参考訳) 従来のブラックボックスとして広く使われているディープラーニングモデルの扱いは、ニューラルネットワークの決定を導くメカニズムについて、限られた、あるいは全く洞察を与えない。
この問題に対処するための解釈可能なモデルの構築に、重要な研究努力が注がれている。
ほとんどの取り組みは、最後のレイヤに関連するハイレベルな機能にフォーカスするか、単一のレイヤの出力を解釈しようとするかのどちらかです。
本稿では,ネットワーク全体の機能の透明性を高めるための新しいアプローチを提案する。
本稿では,各クラスに関連する情報が特定の経路を流れる分類のためのニューラルネットワークアーキテクチャを提案する。
これらの経路は、コーディング理論を利用する訓練の前に事前に設計され、クラス間の意味的類似性に依存しない。
重要な特性は、各パスが自律的な単一目的モデルとして使用できることである。
これにより、追加のトレーニングなしで、任意のクラスに対して、元のネットワークよりも少なくとも60\%$のパラメータを持つ軽量バイナリ分類器を得ることができる。
さらに, 符号化理論に基づく手法により, ニューラルネットワークは推論中に中間層で初期予測を行うことができ, 完全な評価を必要としない。
注目すべきは、提案されたアーキテクチャは、上記のすべての特性を提供しながら、全体的な精度を向上させることである。
CIFAR-10/100 と ImageNet-1k でテストした ResNeXt モデル上でこれらの特性を示す。 The conventional, widely used treatment of deep learning models as black boxes provides limited or no insights into the mechanisms that guide neural network decisions. Significant research effort has been dedicated to building interpretable models to address this issue. Most efforts either focus on the high-level features associated with the last layers, or attempt to interpret the output of a single layer. In this paper, we take a novel approach to enhance the transparency of the function of the whole network. We propose a neural network architecture for classification, in which the information that is relevant to each class flows through specific paths. These paths are designed in advance before training leveraging coding theory and without depending on the semantic similarities between classes. A key property is that each path can be used as an autonomous single-purpose model. This enables us to obtain, without any additional training and for any class, a lightweight binary classifier that has at least $60\%$ fewer parameters than the original network. Furthermore, our coding theory based approach allows the neural network to make early predictions at intermediate layers during inference, without requiring its full evaluation. Remarkably, the proposed architecture provides all the aforementioned properties while improving the overall accuracy. We demonstrate these properties on a slightly modified ResNeXt model tested on CIFAR-10/100 and ImageNet-1k. | 翻訳日:2023-09-22 01:06:18 公開日:2023-09-20 |
# xnodrとxnidr:畳み込みニューラルネットワークのための2つの精度と高速の完全連結層 XnODR and XnIDR: Two Accurate and Fast Fully Connected Layers For Convolutional Neural Networks ( http://arxiv.org/abs/2111.10854v3 ) ライセンス: Link先を確認 | Jian Sun, Ali Pourramezan Fard, and Mohammad H. Mahoor | (参考訳) capsule networkは、視覚認識タスクのためのディープニューラルネットワークの機能間の位置関係を定義するのに有効であるが、計算コストは高く、モバイルデバイスで実行するには適さない。
ボトルネックはカプセル間の動的ルーティング機構の計算の複雑さにある。
一方、XNOR-Netは高速かつ計算効率が良いが、二項化処理における情報損失により精度が低下している。
動的ルーティング機構の計算負荷に対処するために,capsfc層内の動的ルーティングの外部または内部に線形射影をxnor化することにより,新しい完全接続(fc)層を提案する。
具体的には、提案するFC層は、XnODR(Xnorize the Linear Projection Outside Dynamic Routing)とXnIDR(Xnorize the Linear Projection Inside Dynamic Routing)の2つのバージョンを持つ。
XnODRとXnIDRの両方の一般化をテストするために、MobileNetV2とResNet-50の2つの異なるネットワークにそれらを挿入する。
MNIST,CIFAR-10,MultiMNISTの3つのデータセットについて実験を行った。
結果は、XnODRとXnIDRの両方のネットワークが、より低いFLOPと少ないパラメータ(例:2.99Mパラメータの96.14%、CIFAR-10の311.74M FLOP)で高い精度を持つことを示す。 Capsule Network is powerful at defining the positional relationship between features in deep neural networks for visual recognition tasks, but it is computationally expensive and not suitable for running on mobile devices. The bottleneck is in the computational complexity of the Dynamic Routing mechanism used between the capsules. On the other hand, XNOR-Net is fast and computationally efficient, though it suffers from low accuracy due to information loss in the binarization process. To address the computational burdens of the Dynamic Routing mechanism, this paper proposes new Fully Connected (FC) layers by xnorizing the linear projection outside or inside the Dynamic Routing within the CapsFC layer. Specifically, our proposed FC layers have two versions, XnODR (Xnorize the Linear Projection Outside Dynamic Routing) and XnIDR (Xnorize the Linear Projection Inside Dynamic Routing). To test the generalization of both XnODR and XnIDR, we insert them into two different networks, MobileNetV2 and ResNet-50. Our experiments on three datasets, MNIST, CIFAR-10, and MultiMNIST validate their effectiveness. The results demonstrate that both XnODR and XnIDR help networks to have high accuracy with lower FLOPs and fewer parameters (e.g., 96.14% correctness with 2.99M parameters and 311.74M FLOPs on CIFAR-10). | 翻訳日:2023-09-22 01:05:59 公開日:2023-09-20 |
# プログラムとしての手続き:自然言語によるエージェントの階層的制御 Procedures as Programs: Hierarchical Control of Situated Agents through Natural Language ( http://arxiv.org/abs/2109.08214v2 ) ライセンス: Link先を確認 | Shuyan Zhou, Pengcheng Yin, Graham Neubig | (参考訳) 人間が特定のタスクの実行方法を理解するとき、階層的に、上位レベルのタスクをより小さなサブタスクに分割する。
しかしながら、あるエージェントの自然言語(NL)コマンドに関する文献では、ほとんどの研究は、単純なアクションの平らなシーケンスとして実行される手順を扱い、あるいは手続きの階層は極端に浅かった。
本稿では,エージェント命令と制御のための階層的手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
さらに,nlインテントを実行可能なプログラムの予測に変換するプランナとリアクターで構成された階層型モジュールネットワークのモデリングパラダイムを提案し,プログラム実行に必要な情報を得るための環境を探索する。
NL命令のIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
私たちのモデルは、両方のデータセットに対して大きなマージンで、リアクティブベースラインよりも優れています。
また、当社のフレームワークはよりデータ効率が高く、迅速な反復開発を可能にすることも示しています。 When humans conceive how to perform a particular task, they do so hierarchically: splitting higher-level tasks into smaller sub-tasks. However, in the literature on natural language (NL) command of situated agents, most works have treated the procedures to be executed as flat sequences of simple actions, or any hierarchies of procedures have been shallow at best. In this paper, we propose a formalism of procedures as programs, a powerful yet intuitive method of representing hierarchical procedural knowledge for agent command and control. We further propose a modeling paradigm of hierarchical modular networks, which consist of a planner and reactors that convert NL intents to predictions of executable programs and probe the environment for information necessary to complete the program execution. We instantiate this framework on the IQA and ALFRED datasets for NL instruction following. Our model outperforms reactive baselines by a large margin on both datasets. We also demonstrate that our framework is more data-efficient, and that it allows for fast iterative development. | 翻訳日:2023-09-22 01:05:07 公開日:2023-09-20 |
# 重力理論の確率論的デコンストラクション,その1:平坦空間 Probabilistic deconstruction of a theory of gravity, Part I: flat space ( http://arxiv.org/abs/2108.10916v4 ) ライセンス: Link先を確認 | S. Josephine Suh | (参考訳) 境界の量子力学によって誘導される反ド・ジッター・ジャッキー・タイテルボイム重力の確率過程を定義し,解析し,その確率変数は$AdS_2$で値を取る。
熱状態の境界と適切なパラメータについて、短い時間スケールと平坦空間における量子過程の漸近極限をとり、関連する古典的ジョイント分布がマルコフ特性を持つことを示す。
アインシュタインの理論の方程式は、宇宙定数項に反し、漸近過程の下での確率の量子進化の半古典的極限に現れる。
特に平坦なジャッキー・テイテルボイム重力では、アインシュタイン方程式によって解かれたコンパクト化された空間の面積はマルコフ過程の下で進化する確率密度として同定できる。 We define and analyze a stochastic process in anti-de Sitter Jackiw-Teitelboim gravity, induced by the quantum dynamics of the boundary and whose random variable takes values in $AdS_2$. With the boundary in a thermal state and for appropriate parameters, we take the asymptotic limit of the quantum process at short time scales and flat space, and show associated classical joint distributions have the Markov property. We find that Einstein's equations of the theory, sans the cosmological constant term, arise in the semi-classical limit of the quantum evolution of probability under the asymptotic process. In particular, in flat Jackiw-Teitelboim gravity, the area of compactified space solved for by Einstein's equations can be identified as a probability density evolving under the Markovian process. | 翻訳日:2023-09-22 01:04:49 公開日:2023-09-20 |
# ImmFusion:全ての気象条件下での3次元人体再構築のためのロバストmmWave-RGB核融合 ImmFusion: Robust mmWave-RGB Fusion for 3D Human Body Reconstruction in All Weather Conditions ( http://arxiv.org/abs/2210.01346v3 ) ライセンス: Link先を確認 | Anjun Chen, Xiangyu Wang, Kun Shi, Shaohao Zhu, Bin Fang, Yingfeng Chen, Jiming Chen, Yuchi Huo, Qi Ye | (参考訳) RGB画像から3Dの人体を復元すると、天気は良いが、悪天候では劇的に劣化する。
補足式のmmWaveレーダーは、荒天で3Dの関節とメッシュを再構築するために使われてきた。
しかし、RGB と mmWave の信号を組み合わせることで、RGB 画像の脆弱さや、RGB 画像の脆弱性を考えると、3D の再現性は依然として未解決の課題である。
本稿では,全ての気象条件下で3次元人体を堅牢に再構成する最初のmmWave-RGB核融合法であるImmFusionを提案する。
具体的には,トークン特徴抽出のためのイメージバックボーンとポイントバックボーン,トークン融合のためのトランスフォーマーモジュールから構成される。
画像と点バックボーンはオリジナルデータからグローバルとローカルの特徴を洗練し、fusion transformerモジュールはインフォメーショントークンを動的に選択することで、2つのモダリティの効果的な情報融合を目指している。
大規模データセットmmBodyの広範囲な実験により、ImmFusionは2つのモードの情報を効率的に利用し、全ての気象条件下で堅牢な3次元人体再構築を実現することができることが示された。
さらに,本手法の精度は,最先端のトランスフォーマーベースLiDAR-camera融合法よりも優れている。 3D human reconstruction from RGB images achieves decent results in good weather conditions but degrades dramatically in rough weather. Complementary, mmWave radars have been employed to reconstruct 3D human joints and meshes in rough weather. However, combining RGB and mmWave signals for robust all-weather 3D human reconstruction is still an open challenge, given the sparse nature of mmWave and the vulnerability of RGB images. In this paper, we present ImmFusion, the first mmWave-RGB fusion solution to reconstruct 3D human bodies in all weather conditions robustly. Specifically, our ImmFusion consists of image and point backbones for token feature extraction and a Transformer module for token fusion. The image and point backbones refine global and local features from original data, and the Fusion Transformer Module aims for effective information fusion of two modalities by dynamically selecting informative tokens. Extensive experiments on a large-scale dataset, mmBody, captured in various environments demonstrate that ImmFusion can efficiently utilize the information of two modalities to achieve a robust 3D human body reconstruction in all weather conditions. In addition, our method's accuracy is significantly superior to that of state-of-the-art Transformer-based LiDAR-camera fusion methods. | 翻訳日:2023-09-22 00:59:01 公開日:2023-09-20 |
# 純ボソニック拡張による絡み合い検出 Detecting entanglement by pure bosonic extension ( http://arxiv.org/abs/2209.10934v2 ) ライセンス: Link先を確認 | Xuanran Zhu, Chao Zhang, Chenfeng Cao, Youning Li, Yiu Tung Poon, Bei Zeng | (参考訳) 量子情報理論の領域では、量子エンタングルメントの検出と量子化が最重要課題である。
絡み合いの相対エントロピー(REE)は絡み合いの顕著な尺度であり、多くの関連分野にまたがる広範な応用がある。
正部分変換(PPT)の基準は、REEの効率的な計算方法を提供しながら、残念ながら、有界絡みを扱う際には不足する。
本研究では,階層構造を通して「外側」から分離可能な状態の集合を近似する,$k$-ボソニック拡張の実用性を高めるために,「純ボソニック拡張」と呼ばれる手法を提案する。
これにより、k$-bosonic extendible state のセットの効率的なキャラクタリゼーションが可能になり、ree の正確な下限の導出が容易になる。
QETLABの対称/ボソニック拡張関数のような半定値プログラミング(SDP)手法と比較して、我々のアルゴリズムはより大きな次元とより高い拡張$k$をサポートする。 In the realm of quantum information theory, the detection and quantification of quantum entanglement stand as paramount tasks. The relative entropy of entanglement (REE) serves as a prominent measure of entanglement, with extensive applications spanning numerous related fields. The positive partial transpose (PPT) criterion, while providing an efficient method for the computation of REE, unfortunately, falls short when dealing with bound entanglement. In this study, we propose a method termed "pure bosonic extension" to enhance the practicability of $k$-bosonic extensions, which approximates the set of separable states from the "outside", through a hierarchical structure. It enables efficient characterization of the set of $k$-bosonic extendible states, facilitating the derivation of accurate lower bounds for REE. Compared to the Semi-Definite Programming (SDP) approach, such as the symmetric/bosonic extension function in QETLAB, our algorithm supports much larger dimensions and higher values of extension $k$. | 翻訳日:2023-09-22 00:58:17 公開日:2023-09-20 |
# 3Dポイントクラウドセグメンテーションのための解釈可能なエッジ強化と抑圧学習 Interpretable Edge Enhancement and Suppression Learning for 3D Point Cloud Segmentation ( http://arxiv.org/abs/2209.09483v2 ) ライセンス: Link先を確認 | Haoyi Xiu, Xin Liu, Weimin Wang, Kyoung-Sook Kim, Takayuki Shinohara, Qiong Chang, Masashi Matsuoka | (参考訳) 3次元点雲は連続表面の離散的なサンプルであり、様々な用途に利用できる。
しかし、真の接続情報、すなわちエッジ情報の欠如は、ポイントクラウド認識を困難にしている。
最近のエッジ認識手法は、エッジモデリングをネットワーク設計に組み込んで、局所構造をよりよく記述している。
これらの手法は、エッジ情報の導入が有用であることを示すが、エッジ情報がどのように役立つかは不明確であり、ユーザがその有用性を分析することは困難である。
そこで本研究では,エッジ情報を原理的かつ解釈可能な方法で処理し,良好な改善を実現するDiffusion Unit(DU)というアルゴリズムを提案する。
まず,duがタスク指向のエッジ強化と抑制を行うことを理論的に示す。
第2に,エッジの強化と抑制行動を実験的に観察し,検証する。
第3に、この振る舞いがパフォーマンス改善に寄与することを実証的に示します。
難解なベンチマークで行った広範囲な実験と分析は、duの有効性を検証する。
具体的には、ShapeNet部分とS3DISを用いたシーンセグメンテーションを用いて、オブジェクト部分セグメンテーションにおける最先端性能を実現する。
ソースコードはhttps://github.com/martianxiu/diffusionunitで入手できます。 3D point clouds are discrete samples of continuous surfaces which can be used for various applications. However, the lack of true connectivity information, i.e., edge information, makes point cloud recognition challenging. Recent edge-aware methods incorporate edge modeling into network designs to better describe local structures. Although these methods show that incorporating edge information is beneficial, how edge information helps remains unclear, making it difficult for users to analyze its usefulness. To shed light on this issue, in this study, we propose a new algorithm called Diffusion Unit (DU) that handles edge information in a principled and interpretable manner while providing decent improvement. First, we theoretically show that DU learns to perform task-beneficial edge enhancement and suppression. Second, we experimentally observe and verify the edge enhancement and suppression behavior. Third, we empirically demonstrate that this behavior contributes to performance improvement. Extensive experiments and analyses performed on challenging benchmarks verify the effectiveness of DU. Specifically, our method achieves state-of-the-art performance in object part segmentation using ShapeNet part and scene segmentation using S3DIS. Our source code is available at https://github.com/martianxiu/DiffusionUnit. | 翻訳日:2023-09-22 00:57:57 公開日:2023-09-20 |
# 実世界・小・高次元データセットのための量子転送学習 Quantum Transfer Learning for Real-World, Small, and High-Dimensional Datasets ( http://arxiv.org/abs/2209.07799v4 ) ライセンス: Link先を確認 | Soronzonbold Otgonbaatar, Gottfried Schwarz, Mihai Datcu, and Dieter Kranzlm\"uller | (参考訳) 量子機械学習(QML)ネットワークは、従来の深層学習(DL)技術よりも教師付きデータセット(衛星画像など)を局所的な有効次元を通じて表現力によって分類する際の計算的(または量子的)優位性を約束する。
しかし、約束された量子的優位性にかかわらず、主な課題は2つある。
1) 現在利用可能な量子ビット(量子ビット)は数が非常に少ないが、現実のデータセットは数百の高次元要素(すなわち特徴)によって特徴づけられる。
さらに、現実世界の高次元データセットを限られた数キュービットに埋め込むための単一の統一的なアプローチは存在しない。
2) 実世界のデータセットは複雑なQMLネットワークをトレーニングするには小さすぎる。
したがって、実世界、小規模、高次元のデータセット上でのQMLネットワークのベンチマークと検証の2つの課題に取り組むために、我々は、マルチキュービットQMLネットワークと非常に深い畳み込みネットワーク(VGG16アーキテクチャを含む)からなる量子トランスファー学習を用いて、どんな小さな高次元のデータセットからも情報的特徴を抽出する。
我々は,マルチキュービットQMLネットワークとして,データ再ロード層を伴わない実振幅および強絡N層QMLネットワークを用い,その局所有効次元を用いてその表現力を評価する。
数値計算の結果, 強絡N層QMLネットワークは実振幅QMLネットワークよりも局所的な有効次元が低く, 分類が難しい3クラスラベリング問題よりも優れていることがわかった。
さらに、量子転送学習は、実世界、小規模、高次元のデータセット上でのQMLネットワークのベンチマークと検証の2つの課題に取り組むのに役立つ。 Quantum machine learning (QML) networks promise to have some computational (or quantum) advantage for classifying supervised datasets (e.g., satellite images) over some conventional deep learning (DL) techniques due to their expressive power via their local effective dimension. There are, however, two main challenges regardless of the promised quantum advantage: 1) Currently available quantum bits (qubits) are very small in number, while real-world datasets are characterized by hundreds of high-dimensional elements (i.e., features). Additionally, there is not a single unified approach for embedding real-world high-dimensional datasets in a limited number of qubits. 2) Some real-world datasets are too small for training intricate QML networks. Hence, to tackle these two challenges for benchmarking and validating QML networks on real-world, small, and high-dimensional datasets in one-go, we employ quantum transfer learning composed of a multi-qubit QML network, and a very deep convolutional network (a with VGG16 architecture) extracting informative features from any small, high-dimensional dataset. We use real-amplitude and strongly-entangling N-layer QML networks with and without data re-uploading layers as a multi-qubit QML network, and evaluate their expressive power quantified by using their local effective dimension; the lower the local effective dimension of a QML network, the better its performance on unseen data. Our numerical results show that the strongly-entangling N-layer QML network has a lower local effective dimension than the real-amplitude QML network and outperforms it on the hard-to-classify three-class labelling problem. In addition, quantum transfer learning helps tackle the two challenges mentioned above for benchmarking and validating QML networks on real-world, small, and high-dimensional datasets. | 翻訳日:2023-09-22 00:57:43 公開日:2023-09-20 |
# 大量の注釈付きデータベースを用いたディープフェイク検出におけるAIバイアスの包括的解析 A Comprehensive Analysis of AI Biases in DeepFake Detection With Massively Annotated Databases ( http://arxiv.org/abs/2208.05845v3 ) ライセンス: Link先を確認 | Ying Xu, Philipp Terh\"orst, Kiran Raja, Marius Pedersen | (参考訳) 近年、Deepfakeによる画像とビデオの操作は、セキュリティと社会にとって深刻な懸念となっている。
ディープフェイクデータを確実に検出するために、多くの検出モデルとデータセットが提案されている。
しかし、これらのモデルとトレーニングデータベースが偏りがあり、ディープフェイク検出器が故障するのではないかとの懸念が高まっている。
本研究では,公開Deepfakeデータセットによるバイアス問題について検討する。
(a)5つの人気のDeepfakeデータセットに対して47の属性の大規模および非デコグラフィ属性アノテーションを提供する。
b) これらのデータセット上の3つの最先端のDeepfake検出バックボーンモデルのAIバイアスを包括的に分析する。
調査は,年齢,性別,民族,非デポグラフィ情報(髪,肌,アクセサリーなど)を含む,多種多様な特徴(65m以上のラベルを含む)が検出性能に与える影響を分析した。
その結果, データベースには多様性が欠如しており, さらに重要な点として, 利用済みのDeepfake検出バックボーンモデルが多くの属性に対して強く偏りがあることが示唆された。
バイアス付きデータセットでトレーニングされたDeepfake検出バックボーンメソッドは、誤った検出結果を出力し、汎用性、公正性、セキュリティ問題を引き起こす可能性がある。
本研究の成果とアノテーションデータベースが将来のDeepfake検出技術におけるバイアスの評価と緩和に役立つことを期待する。
アノテーションデータセットと対応するコードが公開されている。 In recent years, image and video manipulations with Deepfake have become a severe concern for security and society. Many detection models and datasets have been proposed to detect Deepfake data reliably. However, there is an increased concern that these models and training databases might be biased and, thus, cause Deepfake detectors to fail. In this work, we investigate the bias issue caused by public Deepfake datasets by (a) providing large-scale demographic and non-demographic attribute annotations of 47 different attributes for five popular Deepfake datasets and (b) comprehensively analysing AI-bias of three state-of-the-art Deepfake detection backbone models on these datasets. The investigation analyses the influence of a large variety of distinctive attributes (from over 65M labels) on the detection performance, including demographic (age, gender, ethnicity) and non-demographic (hair, skin, accessories, etc.) information. The results indicate that investigated databases lack diversity and, more importantly, show that the utilised Deepfake detection backbone models are strongly biased towards many investigated attributes. The Deepfake detection backbone methods, which are trained with biased datasets, might output incorrect detection results, thereby leading to generalisability, fairness, and security issues. We hope that the findings of this study and the annotation databases will help to evaluate and mitigate bias in future Deepfake detection techniques. The annotation datasets and the corresponding code are publicly available. | 翻訳日:2023-09-22 00:57:08 公開日:2023-09-20 |
# 神経ベクトル拡張数値解法を用いた力学系の高速シミュレーションについて On Fast Simulation of Dynamical System with Neural Vector Enhanced Numerical Solver ( http://arxiv.org/abs/2208.03680v3 ) ライセンス: Link先を確認 | Zhongzhan Huang, Senwei Liang, Hong Zhang, Haizhao Yang and Liang Lin | (参考訳) 力学系の大規模シミュレーションは多くの科学・工学分野において重要である。
しかし、従来の数値解法は積分を推定する際のステップサイズの選択によって制限され、精度と計算効率のトレードオフをもたらす。
この課題に対処するために,本研究では,統合誤差を補償し,シミュレーションにおいてより大きな時間ステップサイズを実現するニューラルベクター(neural vector,neurvec)と呼ばれる深層学習に基づく補正器を提案する。
様々な複雑な力学系ベンチマークに関する広範な実験により、NeurVecは、有限かつ離散的なデータを用いて訓練しても、連続位相空間において顕著な一般化能力を示すことが示された。
NeurVecは従来のソルバを著しく加速し、高いレベルの精度と安定性を維持しながら、数十倍から数百倍の速度を達成する。
さらに、neurvecの単純yet効率設計は実装の容易さと相まって、深層学習に基づく微分方程式を高速に解くための新しいパラダイムを確立する可能性を秘めている。 The large-scale simulation of dynamical systems is critical in numerous scientific and engineering disciplines. However, traditional numerical solvers are limited by the choice of step sizes when estimating integration, resulting in a trade-off between accuracy and computational efficiency. To address this challenge, we introduce a deep learning-based corrector called Neural Vector (NeurVec), which can compensate for integration errors and enable larger time step sizes in simulations. Our extensive experiments on a variety of complex dynamical system benchmarks demonstrate that NeurVec exhibits remarkable generalization capability on a continuous phase space, even when trained using limited and discrete data. NeurVec significantly accelerates traditional solvers, achieving speeds tens to hundreds of times faster while maintaining high levels of accuracy and stability. Moreover, NeurVec's simple-yet-effective design, combined with its ease of implementation, has the potential to establish a new paradigm for fast-solving differential equations based on deep learning. | 翻訳日:2023-09-22 00:56:47 公開日:2023-09-20 |
# 非平衡ガウス量子温度測定における非古典性の操作的意義 Operational significance of nonclassicality in nonequilibrium Gaussian quantum thermometry ( http://arxiv.org/abs/2207.10742v2 ) ライセンス: Link先を確認 | Safoura S. Mirkhalaf, Mohammad Mehboudi, Zohre Nafari Qaleh, Saleh Rahimi-Keshari | (参考訳) ガウスプローブ状態を有するボゾン浴の非平衡温度推定とガウスダイナミクスにおける非古典性の新たな操作的意義を示す。
古典的なプローブ状態を用いた熱測定性能のバウンドを求める。
そして、非古典的なプローブ状態、単一モードおよび2モードの真空状態を用いることで、古典的極限を大幅に改善できることを示す。
興味深いことに、この改善はガウス計測を用いても達成できる。
したがって、量子光学プラットフォームで簡単に実現および使用可能な拡張熱量測定のための完全ガウスプロトコルを提案する。 We provide new operational significance of nonclassicality in nonequilibrium temperature estimation of bosonic baths with Gaussian probe states and Gaussian dynamics. We find a bound on the thermometry performance using classical probe states. Then we show that by using nonclassical probe states, single-mode and two-mode squeezed vacuum states, one can profoundly improve the classical limit. Interestingly, we observe that this improvement can also be achieved by using Gaussian measurements. Hence, we propose a fully Gaussian protocol for enhanced thermometry, which can simply be realized and used in quantum optics platforms. | 翻訳日:2023-09-22 00:56:29 公開日:2023-09-20 |
# 非線形時系列モデルに対する適応的深層学習 Adaptive deep learning for nonlinear time series models ( http://arxiv.org/abs/2207.02546v2 ) ライセンス: Link先を確認 | Daisuke Kurisu, Riku Fukami, Yuta Koike | (参考訳) 本稿では,ディープニューラルネットワーク(dnn)を用いた非定常・非線形時系列モデルの平均関数の適応的非パラメトリック推定のための一般理論を考案する。
まず,非ペナライズドおよびスパースペナライズドdnn推定器の2種類のdnn推定器を検討し,一般的な非定常時系列に対する一般化誤差境界を確立する。
次に, 非線形一般化加法AR, 単一指数, しきい値ARモデルを含む, 幅広い非線形自己回帰(AR)モデルに属する平均関数を推定するために, 最小値下界を導出する。
その結果, スパースペナル化DNN推定器は適応的であり, 多くの非線形ARモデルに対して, 最小値の最適値を得ることができた。
数値シミュレーションにより,本理論と整合する固有低次元構造および不連続・粗平均関数を用いた非線形arモデル推定におけるdnn法の有用性を示す。 In this paper, we develop a general theory for adaptive nonparametric estimation of the mean function of a non-stationary and nonlinear time series model using deep neural networks (DNNs). We first consider two types of DNN estimators, non-penalized and sparse-penalized DNN estimators, and establish their generalization error bounds for general non-stationary time series. We then derive minimax lower bounds for estimating mean functions belonging to a wide class of nonlinear autoregressive (AR) models that include nonlinear generalized additive AR, single index, and threshold AR models. Building upon the results, we show that the sparse-penalized DNN estimator is adaptive and attains the minimax optimal rates up to a poly-logarithmic factor for many nonlinear AR models. Through numerical simulations, we demonstrate the usefulness of the DNN methods for estimating nonlinear AR models with intrinsic low-dimensional structures and discontinuous or rough mean functions, which is consistent with our theory. | 翻訳日:2023-09-22 00:56:20 公開日:2023-09-20 |
# ブラックボックスによる機械教育の一般化 Black-box Generalization of Machine Teaching ( http://arxiv.org/abs/2206.15205v2 ) ライセンス: Link先を確認 | Xiaofeng Cao, Yaming Guo, Ivor W. Tsang, James T. Kwok | (参考訳) hypothesis-pruningは、アクティブラーニングのための仮説更新を最大化し、望ましいラベルのないデータを見つける。
この学習方法が最適仮説への更新を導出できるという前提がある。
しかし、これらのインクリメンタルアップデートがネガティブで混乱している場合には、その収束は保証されない。
本稿では,通常の2\delta_t$に代えて,より強固なスラング項$\left(1+\mathcal{f}^{\mathcal{t}}(\widehat{h}_t)\right)\delta_t$を用いて,ブラックボックス指導仮説$h^\mathcal{t}$を導入する。
理論的には、この教示仮説の指導の下で、学習者は教師から指導を受けていない非教育学習者よりも厳密な一般化誤差とラベル複雑性に収束できる:1) 一般化誤差の上限は、約$R(h^*)+4\Delta_{T-1}$から約$R(h^{\mathcal{T}})+2\Delta_{T-1}$に縮めることができる。
2) ラベル複雑性の上界は、$4 \theta\left(TR(h^{*})+2O(\sqrt{T})\right)$から$2\theta\left(2TR(h^{\mathcal{T}})+3O(\sqrt{T})\right)$に減少することができる。
我々の仮定を厳格にするために、まず、$h^\mathcal{T}$ が $h^*$ をゆるやかに近似するときに、教えの自己改善が提案される。
学習に対抗して,ホワイトボックスとブラックボックス学習者の2つの指導シナリオをさらに検討する。
実験は、このアイデアを検証し、 iwal、iwal-dなどの基本的なアクティブ学習戦略よりも優れた一般化性能を示す。 Hypothesis-pruning maximizes the hypothesis updates for active learning to find those desired unlabeled data. An inherent assumption is that this learning manner can derive those updates into the optimal hypothesis. However, its convergence may not be guaranteed well if those incremental updates are negative and disordered. In this paper, we introduce a black-box teaching hypothesis $h^\mathcal{T}$ employing a tighter slack term $\left(1+\mathcal{F}^{\mathcal{T}}(\widehat{h}_t)\right)\Delta_t$ to replace the typical $2\Delta_t$ for pruning. Theoretically, we prove that, under the guidance of this teaching hypothesis, the learner can converge into a tighter generalization error and label complexity bound than those non-educated learners who do not receive any guidance from a teacher:1) the generalization error upper bound can be reduced from $R(h^*)+4\Delta_{T-1}$ to approximately $R(h^{\mathcal{T}})+2\Delta_{T-1}$, and 2) the label complexity upper bound can be decreased from $4 \theta\left(TR(h^{*})+2O(\sqrt{T})\right)$ to approximately $2\theta\left(2TR(h^{\mathcal{T}})+3 O(\sqrt{T})\right)$. To be strict with our assumption, self-improvement of teaching is firstly proposed when $h^\mathcal{T}$ loosely approximates $h^*$. Against learning, we further consider two teaching scenarios: teaching a white-box and black-box learner. Experiments verify this idea and show better generalization performance than the fundamental active learning strategies, such as IWAL, IWAL-D, etc. | 翻訳日:2023-09-22 00:56:03 公開日:2023-09-20 |
# 点源ローカライズのための近法 Proximal methods for point source localisation ( http://arxiv.org/abs/2212.02991v4 ) ライセンス: Link先を確認 | Tuomo Valkonen | (参考訳) 点源ローカライゼーションは一般に測度上のラッソ型問題としてモデル化される。
しかしながら、ラドン測度の空間のような非ヒルベルト空間における最適化方法は、ヒルベルト空間よりもはるかに少ない。
点源ローカライズのためのほとんどの数値アルゴリズムは、アドホック収束理論を開発するFrank-Wolfe条件勾配法に基づいている。
我々は,測度空間への近型手法の拡張を開発する。
これには前方後方分割、慣性バージョン、原始二重近位分割が含まれる。
それらの収束証明は標準パターンに従う。
数値的有効性を示す。 Point source localisation is generally modelled as a Lasso-type problem on measures. However, optimisation methods in non-Hilbert spaces, such as the space of Radon measures, are much less developed than in Hilbert spaces. Most numerical algorithms for point source localisation are based on the Frank-Wolfe conditional gradient method, for which ad hoc convergence theory is developed. We develop extensions of proximal-type methods to spaces of measures. This includes forward-backward splitting, its inertial version, and primal-dual proximal splitting. Their convergence proofs follow standard patterns. We demonstrate their numerical efficacy. | 翻訳日:2023-09-22 00:48:00 公開日:2023-09-20 |
# 並列適応アニーリングによる無制限自己学習MCMCの実現に向けて Toward Unlimited Self-Learning MCMC with Parallel Adaptive Annealing ( http://arxiv.org/abs/2211.14024v2 ) ライセンス: Link先を確認 | Yuma Ichikawa, Akira Nakagawa, Hiromoto Masayuki, Yuhei Umeda | (参考訳) 近年,機械学習モデルを用いてマルコフ連鎖モンテカルロ法(MCMC)を高速化するために,自己学習モンテカルロ法(SLMC)が提案されている。
潜在生成モデルでは、SLMC法は自己相関の少ない効率的なモンテカルロ更新を実現する。
しかし、SLMC法は、訓練データが得られにくいマルチモーダル分布に直接適用することは困難である。
この制限を解決するために,SLMC法を直接マルチモーダル分布に適用する並列適応型アニール法を提案する。
並列適応焼鈍は
(i)モデルパラメータの継承と更新のためのアニーリングによる逐次学習。
(ii)学習不足を自動的に検知する適応的アニーリング、
(iii)提案モデルのモード崩壊を緩和するための並列アニーリング
また, 変分オートエンコーダ(VAE)をSLMCの提案として用いて, VAEの最近の定量特性を用いて, 従来状態とは無関係に効率的な並列提案を行うVAE-SLMC法を提案する。
実験により,マルチモーダル玩具分布と実用的マルチモーダル後方分布から高精度なサンプルを得ることができ,既存のslmc法では達成が困難であることを確認した。 Self-learning Monte Carlo (SLMC) methods are recently proposed to accelerate Markov chain Monte Carlo (MCMC) methods using a machine learning model. With latent generative models, SLMC methods realize efficient Monte Carlo updates with less autocorrelation. However, SLMC methods are difficult to directly apply to multimodal distributions for which training data are difficult to obtain. To solve the limitation, we propose parallel adaptive annealing, which makes SLMC methods directly apply to multimodal distributions with a gradually trained proposal while annealing target distribution. Parallel adaptive annealing is based on (i) sequential learning with annealing to inherit and update the model parameters, (ii) adaptive annealing to automatically detect under-learning, and (iii) parallel annealing to mitigate mode collapse of proposal models. We also propose VAE-SLMC method which utilizes a variational autoencoder (VAE) as a proposal of SLMC to make efficient parallel proposals independent of any previous state using recently clarified quantitative properties of VAE. Experiments validate that our method can proficiently obtain accurate samples from multiple multimodal toy distributions and practical multimodal posterior distributions, which is difficult to achieve with the existing SLMC methods. | 翻訳日:2023-09-22 00:47:30 公開日:2023-09-20 |
# 動的認知モデルのベイズ推定のための神経超統計学 Neural Superstatistics for Bayesian Estimation of Dynamic Cognitive Models ( http://arxiv.org/abs/2211.13165v4 ) ライセンス: Link先を確認 | Lukas Schumacher, Paul-Christian B\"urkner, Andreas Voss, Ullrich K\"othe, Stefan T. Radev | (参考訳) 認知の数学的モデルは、しばしば記憶がなく、パラメータの潜在的な揺らぎを無視する。
しかし、人間の認知は本質的に動的である。
そこで本稿では,時間次元の機械的認知モデルを拡張し,超統計学の観点から結果のダイナミクスを推定する。
このようなモデルには、低レベルの観測モデルと高レベルの遷移モデルの間の階層性が伴う。
観測モデルはシステムの局所挙動を記述し、遷移モデルは観察モデルのパラメータが時間とともにどのように進化するかを特定する。
超統計モデルの複雑さから生じる推定課題を克服するため、ベイズ推論のシミュレーションに基づくディープラーニング手法を開発し、検証し、時間変化パラメータと時間不変パラメータの両方を復元する。
まず,提案手法を時間変動パラメータを推定可能な2つの既存フレームワークに対してベンチマークした。
次に,拡散決定モデルの動的バージョンをヒトの応答時間の時系列データに適用する手法を提案する。
その結果、ディープラーニングアプローチはモデルの時間的ダイナミクスを捉えるのに非常に効率的であることがわかった。
さらに,静的パラメータや均質パラメータの誤った仮定が重要な時間情報を隠蔽することを示す。 Mathematical models of cognition are often memoryless and ignore potential fluctuations of their parameters. However, human cognition is inherently dynamic. Thus, we propose to augment mechanistic cognitive models with a temporal dimension and estimate the resulting dynamics from a superstatistics perspective. Such a model entails a hierarchy between a low-level observation model and a high-level transition model. The observation model describes the local behavior of a system, and the transition model specifies how the parameters of the observation model evolve over time. To overcome the estimation challenges resulting from the complexity of superstatistical models, we develop and validate a simulation-based deep learning method for Bayesian inference, which can recover both time-varying and time-invariant parameters. We first benchmark our method against two existing frameworks capable of estimating time-varying parameters. We then apply our method to fit a dynamic version of the diffusion decision model to long time series of human response times data. Our results show that the deep learning approach is very efficient in capturing the temporal dynamics of the model. Furthermore, we show that the erroneous assumption of static or homogeneous parameters will hide important temporal information. | 翻訳日:2023-09-22 00:47:09 公開日:2023-09-20 |
# 運動とオブジェクト連続性によるオブジェクト表現学習の促進 Boosting Object Representation Learning via Motion and Object Continuity ( http://arxiv.org/abs/2211.09771v2 ) ライセンス: Link先を確認 | Quentin Delfosse, Wolfgang Stammer, Thomas Rothenbacher, Dwarak Vittal, Kristian Kersting | (参考訳) 最近の教師なしマルチオブジェクト検出モデルは印象的な性能改善を示しており、主に新しいアーキテクチャインダクティブバイアスに起因する。
残念なことに、下流タスクに最適なオブジェクトエンコーディングを生成する可能性がある。
これを克服するために,物体の運動と連続性,すなわち物体が出現・消滅しない状態を利用するように提案する。
これは2つのメカニズムによって達成される。
(i)光学的流れの統合による物体の位置の事前提供
(ii)連続した画像フレーム間のコントラストオブジェクト連続性損失。
明示的なディープアーキテクチャを開発するのではなく、結果のMotion and Object Continuity(MOC)スキームは、任意のベースラインオブジェクト検出モデルを使用してインスタンス化することができる。
この結果から,オブジェクト発見,収束速度,全般的な潜在オブジェクト表現,特にアタリゲームにおいて,SOTAモデルの性能は大幅に向上した。
全体として、下流タスクの動作とオブジェクト連続性を統合する利点は明らかであり、再構成のみに基づくオブジェクト表現学習を超えていく。 Recent unsupervised multi-object detection models have shown impressive performance improvements, largely attributed to novel architectural inductive biases. Unfortunately, they may produce suboptimal object encodings for downstream tasks. To overcome this, we propose to exploit object motion and continuity, i.e., objects do not pop in and out of existence. This is accomplished through two mechanisms: (i) providing priors on the location of objects through integration of optical flow, and (ii) a contrastive object continuity loss across consecutive image frames. Rather than developing an explicit deep architecture, the resulting Motion and Object Continuity (MOC) scheme can be instantiated using any baseline object detection model. Our results show large improvements in the performances of a SOTA model in terms of object discovery, convergence speed and overall latent object representations, particularly for playing Atari games. Overall, we show clear benefits of integrating motion and object continuity for downstream tasks, moving beyond object representation learning based only on reconstruction. | 翻訳日:2023-09-22 00:46:50 公開日:2023-09-20 |
# グラフファジィシステム:概念,モデル,アルゴリズム Graph Fuzzy System: Concepts, Models and Algorithms ( http://arxiv.org/abs/2210.16730v2 ) ライセンス: Link先を確認 | Fuping Hu, Zhaohong Deng, Zhenping Xie, Kup-Sze Choi, Shitong Wang | (参考訳) ファジィシステム(fss)は、パターン認識、インテリジェント制御、データマイニング、バイオインフォマティクスなど、さまざまな分野で幅広い応用を享受してきた。
従来のアプリケーションシナリオでは、FSはユークリッド空間データのモデル化に主に適用されており、ソーシャルネットワークや交通経路マップのような非ユークリッド構造のグラフデータを扱うには使用できない。
したがって、グラフデータに適した従来のFSの利点を維持できるFSモデリング手法の開発は重要な研究である。
この課題に対処するため,グラフファジィシステム(GFS)と呼ばれるグラフデータモデリングのための新しいタイプのFSを提案する。
まず、グラフファジィルールベース、グラフファジィセット、グラフ連続処理ユニット(GCPU)など、GFS関連の概念を定義する。
そして、GFSモデリングフレームワークを構築し、GFSの先行者および後続者を提示、分析する。
最後に、GFSの学習フレームワークとして、カーネルK-プロトタイプグラフクラスタリング(K2PGC)が提案され、GFSの先行生成のための構築アルゴリズムが開発され、グラフニューラルネットワーク(GNN)に基づいて、連続したパラメータ学習アルゴリズムが提案される。
具体的には、GFS実装アルゴリズムの3つの異なるバージョンを開発し、様々なベンチマークグラフ分類データセットの実験を行った。
その結果,提案したGFSは,既存の主流GNN法と従来のFSs法の両方の利点を継承し,優れた性能を実現していることがわかった。 Fuzzy systems (FSs) have enjoyed wide applications in various fields, including pattern recognition, intelligent control, data mining and bioinformatics, which is attributed to the strong interpretation and learning ability. In traditional application scenarios, FSs are mainly applied to model Euclidean space data and cannot be used to handle graph data of non-Euclidean structure in nature, such as social networks and traffic route maps. Therefore, development of FS modeling method that is suitable for graph data and can retain the advantages of traditional FSs is an important research. To meet this challenge, a new type of FS for graph data modeling called Graph Fuzzy System (GFS) is proposed in this paper, where the concepts, modeling framework and construction algorithms are systematically developed. First, GFS related concepts, including graph fuzzy rule base, graph fuzzy sets and graph consequent processing unit (GCPU), are defined. A GFS modeling framework is then constructed and the antecedents and consequents of the GFS are presented and analyzed. Finally, a learning framework of GFS is proposed, in which a kernel K-prototype graph clustering (K2PGC) is proposed to develop the construction algorithm for the GFS antecedent generation, and then based on graph neural network (GNNs), consequent parameters learning algorithm is proposed for GFS. Specifically, three different versions of the GFS implementation algorithm are developed for comprehensive evaluations with experiments on various benchmark graph classification datasets. The results demonstrate that the proposed GFS inherits the advantages of both existing mainstream GNNs methods and conventional FSs methods while achieving better performance than the counterparts. | 翻訳日:2023-09-22 00:46:12 公開日:2023-09-20 |
# 低資源医療領域会話型電話音声のためのハイブリッドasrシステムの開発 Development of Hybrid ASR Systems for Low Resource Medical Domain Conversational Telephone Speech ( http://arxiv.org/abs/2210.13397v3 ) ライセンス: Link先を確認 | Christoph L\"uscher and Mohammad Zeineldeen and Zijian Yang and Peter Vieting and Khai Le-Duc and Weiyue Wang and Ralf Schl\"uter and Hermann Ney | (参考訳) 言語障壁は、ますます接続され、グローバルな世界で大きな課題をもたらします。
特に医療分野、例えば病院や救急室では、コミュニケーションの困難と遅延により、誤治療や非最適患者のケアにつながる可能性がある。
HYKISTプロジェクトにおいて,ドイツ語を話す医師とアラビア語またはベトナム語を話す患者とのコミュニケーションについて検討した。
現在、医師はTriaphonサービスを呼び出すことで、インタプリタから助けを受け、コミュニケーションを容易にすることができる。
HYKISTの目的は、通常非専門のバイリンガルインタプリタを自動翻訳システムでサポートし、患者のケアを改善し、言語障壁を克服することである。
本研究では,2つの言語対,データ収集,様々な音響モデルアーキテクチャ,方言による難易度について,この会話音声翻訳タスクのためのASRシステム開発作業について述べる。 Language barriers present a great challenge in our increasingly connected and global world. Especially within the medical domain, e.g. hospital or emergency room, communication difficulties and delays may lead to malpractice and non-optimal patient care. In the HYKIST project, we consider patient-physician communication, more specifically between a German-speaking physician and an Arabic- or Vietnamese-speaking patient. Currently, a doctor can call the Triaphon service to get assistance from an interpreter in order to help facilitate communication. The HYKIST goal is to support the usually non-professional bilingual interpreter with an automatic speech translation system to improve patient care and help overcome language barriers. In this work, we present our ASR system development efforts for this conversational telephone speech translation task in the medical domain for two languages pairs, data collection, various acoustic model architectures and dialect-induced difficulties. | 翻訳日:2023-09-22 00:45:45 公開日:2023-09-20 |
# 被覆木を用いた最小分離による安定スパースガウス過程 Numerically Stable Sparse Gaussian Processes via Minimum Separation using Cover Trees ( http://arxiv.org/abs/2210.07893v2 ) ライセンス: Link先を確認 | Alexander Terenin, David R. Burt, Artem Artemev, Seth Flaxman, Mark van der Wilk, Carl Edward Rasmussen, and Hong Ge | (参考訳) ガウス過程は、地理空間モデリングやベイズ最適化、潜在ガウスモデルなど、より大きな機械学習や意思決定システムの一部として頻繁に展開される。
システム内では、ガウスのプロセスモデルがシステムの他の部分と正しく相互作用するために、安定かつ信頼性の高い方法で実行する必要がある。
本研究では,誘導点に基づくスケーラブルスパース近似の数値安定性について検討する。
そこで本研究では,まず数値安定性を考察し,ガウス過程モデルが不安定な典型例を示す。
補間文献で開発された安定性理論を基礎として, 数値的に安定な計算を行うための誘導点の条件を十分かつ必要条件として導出する。
地理空間モデリングなどの低次元タスクに対しては,これらの条件を満たす点を自動計算する手法を提案する。
これは、独立した関心を持つ被覆木データ構造の変更によって行われる。
さらに,少数の性能をトレードオフして安定性をさらに向上する,ガウス確率を持つ回帰に対する別のスパース近似を提案する。
本研究では,空間タスクにおける誘導点法の安定性と予測性能の関係を示す例を示す。 Gaussian processes are frequently deployed as part of larger machine learning and decision-making systems, for instance in geospatial modeling, Bayesian optimization, or in latent Gaussian models. Within a system, the Gaussian process model needs to perform in a stable and reliable manner to ensure it interacts correctly with other parts of the system. In this work, we study the numerical stability of scalable sparse approximations based on inducing points. To do so, we first review numerical stability, and illustrate typical situations in which Gaussian process models can be unstable. Building on stability theory originally developed in the interpolation literature, we derive sufficient and in certain cases necessary conditions on the inducing points for the computations performed to be numerically stable. For low-dimensional tasks such as geospatial modeling, we propose an automated method for computing inducing points satisfying these conditions. This is done via a modification of the cover tree data structure, which is of independent interest. We additionally propose an alternative sparse approximation for regression with a Gaussian likelihood which trades off a small amount of performance to further improve stability. We provide illustrative examples showing the relationship between stability of calculations and predictive performance of inducing point methods on spatial tasks. | 翻訳日:2023-09-22 00:45:31 公開日:2023-09-20 |
# プログレッシブテキスト・画像生成 Progressive Text-to-Image Generation ( http://arxiv.org/abs/2210.02291v5 ) ライセンス: Link先を確認 | Zhengcong Fei, Mingyuan Fan, Li Zhu, Junshi Huang | (参考訳) 近年,Vector Quantized AutoRegressive (VQ-AR) モデルは,テキストと画像の合成において,左上から右下への離散画像トークンを等しく予測することにより,顕著な結果を示した。
単純な生成プロセスは驚くほどうまく機能しますが、これは画像を生成する最良の方法なのでしょうか?
例えば、VQ-ARモデル自体がイメージパッチの相対的重要性を考慮していないのに対して、人間の作成は画像のアウトライン・トゥ・フィニッシュに傾いている。
本稿では,高忠実度テキスト対画像生成のためのプログレッシブモデルを提案する。
提案手法は,既存のコンテキストに基づいて粗大から細かな画像トークンを並列に作成することで有効であり,提案手法は画像シーケンスが完了するまで,誤り訂正機構で再帰的に適用される。
結果として得られる細かな階層構造は、画像生成プロセスを直感的かつ解釈可能にします。
MS COCOベンチマークの大規模実験により, 従来のVQ-AR法と比較して, 様々なカテゴリ, 側面のFIDスコアよりも, プログレッシブモデルの方が有意に優れた結果が得られた。
さらに、各ステップにおける並列生成の設計により、わずかな性能損失で$\times 13$の推論アクセラレーションが可能になる。 Recently, Vector Quantized AutoRegressive (VQ-AR) models have shown remarkable results in text-to-image synthesis by equally predicting discrete image tokens from the top left to bottom right in the latent space. Although the simple generative process surprisingly works well, is this the best way to generate the image? For instance, human creation is more inclined to the outline-to-fine of an image, while VQ-AR models themselves do not consider any relative importance of image patches. In this paper, we present a progressive model for high-fidelity text-to-image generation. The proposed method takes effect by creating new image tokens from coarse to fine based on the existing context in a parallel manner, and this procedure is recursively applied with the proposed error revision mechanism until an image sequence is completed. The resulting coarse-to-fine hierarchy makes the image generation process intuitive and interpretable. Extensive experiments in MS COCO benchmark demonstrate that the progressive model produces significantly better results compared with the previous VQ-AR method in FID score across a wide variety of categories and aspects. Moreover, the design of parallel generation in each step allows more than $\times 13$ inference acceleration with slight performance loss. | 翻訳日:2023-09-22 00:45:12 公開日:2023-09-20 |
# 臨界状態の予測法:双対空間におけるリアプノフ指数の不変性 How to predict critical state: Invariance of Lyapunov exponent in dual spaces ( http://arxiv.org/abs/2302.02281v2 ) ライセンス: Link先を確認 | Tong Liu and Xu Xia | (参考訳) 混乱したシステムの臨界状態は、魅力的で微妙な固有状態であり、多くの研究の関心を集めている。
しかし、臨界状態の性質を定量的に記述することは困難である。
研究の大半は数値的な検証に焦点を当てており、臨界状態が存在するシステムを予測できない。
本研究では、臨界状態 Lyapunov exponent が双対空間において同時に 0 となること、すなわち、Lyapunov exponent はフーリエ変換の下で不変である、という明示的で普遍的な基準を提案する。
この基準により、我々は初めて多数のクリティカルな状態をホストする特定のシステムを正確に予測する。
次に,理論予測の数値検証を行い,臨界状態の自己相似性とスケール不変性を示す。
最後に、リアプノフ指数の不変量と共形不変量の間に何らかの関係が存在すると推測する。 The critical state in disordered systems, a fascinating and subtle eigenstate, has attracted a lot of research interest. However, the nature of the critical state is difficult to describe quantitatively. Most of the studies focus on numerical verification, and cannot predict the system in which the critical state exists. In this work, we propose an explicit and universal criterion that for the critical state Lyapunov exponent should be 0 simultaneously in dual spaces, namely Lyapunov exponent remains invariant under Fourier transform. With this criterion, we exactly predict a specific system hosting a large number of critical states for the first time. Then, we perform numerical verification of the theoretical prediction, and display the self-similarity and scale invariance of the critical state. Finally, we conjecture that there exist some kind of connection between the invariance of the Lyapunov exponent and conformal invariance. | 翻訳日:2023-09-22 00:38:35 公開日:2023-09-20 |
# クラスタリングによる画像処理DNNの安全性解析支援 Supporting Safety Analysis of Image-processing DNNs through Clustering-based Approaches ( http://arxiv.org/abs/2301.13506v2 ) ライセンス: Link先を確認 | Mohammed Oualid Attaoui, Hazem Fahmy, Fabrizio Pastore and Lionel Briand | (参考訳) 安全クリティカルな文脈におけるディープニューラルネットワーク(dnn)の採用は、その結果を説明する効果的な手段の欠如、特に誤用によってしばしば妨げられる。
先程の研究では,DNN障害を自動的に特徴付けるためのホワイトボックスアプローチ (HUDD) とブラックボックスアプローチ (SAFE) を提案した。
どちらも、DNNの障害につながる可能性のある大きなイメージから、類似したイメージのクラスタを識別する。
しかし、HUDDとSAFEの分析パイプラインは、一般的なプラクティスに従って特定の方法でインスタンス化され、他のパイプラインの分析を将来の作業に延期した。
本稿では,DNN故障の根本原因分析のための99種類のパイプラインの実験的評価について報告する。
それらは転送学習、オートエンコーダ、ニューロンの関連性のヒートマップ、次元削減技術、および異なるクラスタリングアルゴリズムを組み合わせる。
この結果から,最高のパイプラインは転送学習,DBSCAN,UMAPの組み合わせであることが示唆された。
クラスタは、ほぼ同じ障害シナリオの画像のみをキャプチャし、ルート原因分析を容易にする。
さらに、障害の根本原因ごとに異なるクラスタを生成し、エンジニアがすべての安全でないシナリオを検出できるようにする。
興味深いことに、これらの結果は、失敗する画像のごく一部でのみ観察される障害シナリオにも当てはまる。 The adoption of deep neural networks (DNNs) in safety-critical contexts is often prevented by the lack of effective means to explain their results, especially when they are erroneous. In our previous work, we proposed a white-box approach (HUDD) and a black-box approach (SAFE) to automatically characterize DNN failures. They both identify clusters of similar images from a potentially large set of images leading to DNN failures. However, the analysis pipelines for HUDD and SAFE were instantiated in specific ways according to common practices, deferring the analysis of other pipelines to future work. In this paper, we report on an empirical evaluation of 99 different pipelines for root cause analysis of DNN failures. They combine transfer learning, autoencoders, heatmaps of neuron relevance, dimensionality reduction techniques, and different clustering algorithms. Our results show that the best pipeline combines transfer learning, DBSCAN, and UMAP. It leads to clusters almost exclusively capturing images of the same failure scenario, thus facilitating root cause analysis. Further, it generates distinct clusters for each root cause of failure, thus enabling engineers to detect all the unsafe scenarios. Interestingly, these results hold even for failure scenarios that are only observed in a small percentage of the failing images. | 翻訳日:2023-09-22 00:38:20 公開日:2023-09-20 |
# asrのためのニューラル話者埋め込みの分析と改善 Analyzing And Improving Neural Speaker Embeddings for ASR ( http://arxiv.org/abs/2301.04571v2 ) ライセンス: Link先を確認 | Christoph L\"uscher, Jingjing Xu, Mohammad Zeineldeen, Ralf Schl\"uter, Hermann Ney | (参考訳) ニューラルスピーカ埋め込みは、DNNモデルを介して話者の音声特性を符号化し、話者検証タスクに有効である。
しかし、ASRシステムにおけるニューラルスピーカー埋め込みの使用について研究する研究はほとんどない。
本研究では,コンバータをベースとしたハイブリッドHMM ASRシステムにニューラルスピーカーの埋め込みを組み込むための取り組みについて述べる。
ASRの場合、改良された埋め込み抽出パイプラインと重み付きSimple-Add積分法を組み合わせると、xベクトルとcベクトルがiベクトルと同等の性能に達する。
さらに、異なる話者埋め込みを比較し分析する。
ニューボブの学習速度スケジュールから1サイクルの学習スケジュールに切り替えることで,Switchboard上でのWERの相対的な減少と,トレーニング時間全体の17%の短縮を実現した音響モデルの改善について述べる。
さらにニューラルスピーカーの埋め込みを追加することで、Hub5'00で約3%の相対的なWER改善が得られます。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。 Neural speaker embeddings encode the speaker's speech characteristics through a DNN model and are prevalent for speaker verification tasks. However, few studies have investigated the usage of neural speaker embeddings for an ASR system. In this work, we present our efforts w.r.t integrating neural speaker embeddings into a conformer based hybrid HMM ASR system. For ASR, our improved embedding extraction pipeline in combination with the Weighted-Simple-Add integration method results in x-vector and c-vector reaching on par performance with i-vectors. We further compare and analyze different speaker embeddings. We present our acoustic model improvements obtained by switching from newbob learning rate schedule to one cycle learning schedule resulting in a ~3% relative WER reduction on Switchboard, additionally reducing the overall training time by 17%. By further adding neural speaker embeddings, we gain additional ~3% relative WER improvement on Hub5'00. Our best Conformer-based hybrid ASR system with speaker embeddings achieves 9.0% WER on Hub5'00 and Hub5'01 with training on SWB 300h. | 翻訳日:2023-09-22 00:37:59 公開日:2023-09-20 |
# 量子コンピュータシミュレーションのためのノイズゲートへの新しいアプローチ A novel approach to noisy gates for simulating quantum computers ( http://arxiv.org/abs/2301.04173v3 ) ライセンス: Link先を確認 | Giovanni Di Bartolomeo, Michele Vischi, Francesco Cesa, Roman Wixinger, Michele Grossi, Sandro Donadi and Angelo Bassi | (参考訳) 本稿では,量子コンピュータの雑音挙動をシミュレーションし,量子ビットに作用するゲートを実装した駆動進化における環境効果を効率的に組み込む手法を提案する。
我々は、コンピュータが実行したノイズのないゲートをマルコフノイズを含むように修正する方法を示し、その結果、ノイズのないゲートと呼ぶ。
我々は本手法をibm qiskitシミュレータと比較し,lindblad方程式の解析解と,最大18量子ビットのアルゴリズムを実行する実際の量子コンピュータの振る舞いの両方により密接に従っていることを示した。
この手法は、マルコフでないノイズを含むあらゆるノイズを潜在的に記述できるほど柔軟である。
この研究に基づくノイズシミュレータは、このリンクでpythonパッケージとして利用可能である。 We present a novel method for simulating the noisy behaviour of quantum computers, which allows to efficiently incorporate environmental effects in the driven evolution implementing the gates acting on the qubits. We show how to modify the noiseless gate executed by the computer to include any Markovian noise, hence resulting in what we will call a noisy gate. We compare our method with the IBM Qiskit simulator, and show that it follows more closely both the analytical solution of the Lindblad equation as well as the behaviour of a real quantum computer, where we ran algorithms involving up to 18 qubits; as such, our protocol offers a more accurate simulator for NISQ devices. The method is flexible enough to potentially describe any noise, including non-Markovian ones. The noise simulator based on this work is available as a python package at this link: https://pypi.org/project/quantum-gates. | 翻訳日:2023-09-22 00:37:41 公開日:2023-09-20 |
# ルールベース透明モデルとソフトラベル相関学習とラベル雑音抵抗を組み合わせたロバストマルチラベル法 A Robust Multilabel Method Integrating Rule-based Transparent Model, Soft Label Correlation Learning and Label Noise Resistance ( http://arxiv.org/abs/2301.03283v2 ) ライセンス: Link先を確認 | Qiongdan Lou, Zhaohong Deng, Kup-Sze Choi, Shitong Wang | (参考訳) モデル透明性、ラベル相関学習、ラベルノイズに対する堅牢性は、マルチラベル学習に不可欠である。
しかし,これら3つの特徴を同時に研究する手法はほとんどない。
この課題に対処するために,3つの機構を持つロバストな多ラベル高木スゲノカンファジィシステム(R-MLTSK-FS)を提案する。
まず,ラベル間の相互作用を明示的に測定することでラベルノイズの影響を低減し,他の2つのメカニズムの基礎となるソフトラベル学習機構を設計する。
第二に、規則に基づくTSK FSは、既存の多くのマルチラベルモデルよりも透過的な方法で、推論の関係を効率的にモデル化するためにベースモデルとして使用される。
第3に,マルチラベル学習の性能をさらに高めるために,ソフトラベル空間とファジィ特徴空間に基づく相関強化学習機構を構築する。
提案手法の優越性を示すため,広範な実験を行った。 Model transparency, label correlation learning and the robust-ness to label noise are crucial for multilabel learning. However, few existing methods study these three characteristics simultaneously. To address this challenge, we propose the robust multilabel Takagi-Sugeno-Kang fuzzy system (R-MLTSK-FS) with three mechanisms. First, we design a soft label learning mechanism to reduce the effect of label noise by explicitly measuring the interactions between labels, which is also the basis of the other two mechanisms. Second, the rule-based TSK FS is used as the base model to efficiently model the inference relationship be-tween features and soft labels in a more transparent way than many existing multilabel models. Third, to further improve the performance of multilabel learning, we build a correlation enhancement learning mechanism based on the soft label space and the fuzzy feature space. Extensive experiments are conducted to demonstrate the superiority of the proposed method. | 翻訳日:2023-09-22 00:37:27 公開日:2023-09-20 |
# 非定常電磁空洞場の時間分解 Temporal factorization of a non-stationary electromagnetic cavity field ( http://arxiv.org/abs/2212.14287v2 ) ライセンス: Link先を確認 | I. Ramos-Prieto, R. Rom\'an-Ancheyta, F. Soto-Eguibar, J. R\'ecamier, H.M. Moya-Cessa | (参考訳) 電磁場が可変長の空洞に閉じ込められている場合、実光子は非常に非断熱的な境界条件による真空変動から生じることがある。
対応する実効ハミルトニアンは時間依存であり、無限終端相互作用を含む。
空洞鏡の1つは固定され、もう1つは一様運動を記述する(ゼロ加速度)ことから、時間依存全体を分解し、その形式的な解を記述することが可能である、すなわちハミルトニアンは時間依存関数と時間非依存作用素の積となる。
この因子化により、光子生成が速度依存性の有効温度を伴うプランク因子に比例していることが詳細に証明される。
この温度は超相対論的運動においても光子生成を著しく制限する。
時間依存性のユニタリ変換を導入し、時間分解を得ることにより、量子熱力学の断熱性と量子アーノルド変換との接続を確立する。 When an electromagnetic field is confined in a cavity of variable length, real photons may be generated from vacuum fluctuations due to highly nonadiabatic boundary conditions. The corresponding effective Hamiltonian is time-dependent and contains infinite intermode interactions. Considering one of the cavity mirrors fixed and the other describing uniform motion (zero acceleration), we show that it is possible to factorize the entire temporal dependency and write its formal solution, i.e., the Hamiltonian becomes a product of a time-dependent function and a time-independent operator. With this factorization, we prove in detail that the photon production is proportional to the Planck factor involving a velocity-dependent effective temperature. This temperature significantly limits photon generation even for ultra-relativistic motion. The time-dependent unitary transformations we introduce to obtain temporal factorization help establishing connections with the shortcuts to adiabaticity of quantum thermodynamics and with the quantum Arnold transformation. | 翻訳日:2023-09-22 00:37:08 公開日:2023-09-20 |
# グラフ優先とグラフリファインメントによる物体の検出 Detecting Objects with Graph Priors and Graph Refinement ( http://arxiv.org/abs/2212.12395v2 ) ライセンス: Link先を確認 | Aritra Bhowmik, Martin R. Oswald, Yu Wang, Nora Baka, Cees G. M. Snoek | (参考訳) 本論文の目的は,相互関係を利用して物体を検出することである。
事前に定義されたラベル付きグラフ構造に頼るのではなく、オブジェクト共起統計からグラフを推測する。
本論文の重要なアイデアは,初期クラス予測と共起の関数としてオブジェクト関係をモデル化し,画像のグラフ表現を生成し,分類と境界ボックス回帰を改善することである。
また,エネルギーモデルを用いてオブジェクト相関結合分布を学習する。
この分布からサンプリングすると、画像の洗練されたグラフ表現が生成され、検出性能が向上する。
Visual Genome と MS-COCO データセットの実験では,本手法が検出不能でエンドツーエンドのトレーニングが可能で,まれなオブジェクトクラスに特に有用であることが示されている。
さらに、DeTRやFaster-RCNNのようなオブジェクト検出器よりも一貫した改善と、オブジェクト相互関係をモデル化する最先端の手法を確立します。 The goal of this paper is to detect objects by exploiting their interrelationships. Rather than relying on predefined and labeled graph structures, we infer a graph prior from object co-occurrence statistics. The key idea of our paper is to model object relations as a function of initial class predictions and co-occurrence priors to generate a graph representation of an image for improved classification and bounding box regression. We additionally learn the object-relation joint distribution via energy based modeling. Sampling from this distribution generates a refined graph representation of the image which in turn produces improved detection performance. Experiments on the Visual Genome and MS-COCO datasets demonstrate our method is detector agnostic, end-to-end trainable, and especially beneficial for rare object classes. What is more, we establish a consistent improvement over object detectors like DETR and Faster-RCNN, as well as state-of-the-art methods modeling object interrelationships. | 翻訳日:2023-09-22 00:36:51 公開日:2023-09-20 |
# テンプレート入力によるゼロショットトリプレット抽出 Zero-shot Triplet Extraction by Template Infilling ( http://arxiv.org/abs/2212.10708v2 ) ライセンス: Link先を確認 | Bosung Kim, Hayate Iso, Nikita Bhutani, Estevam Hruschka, Ndapa Nakashole, Tom Mitchell | (参考訳) 三重項抽出の課題は、非構造化テキストから一対の実体とその対応する関係を抽出することである。
既存のほとんどの方法は、特定の対象関係を含む訓練データから抽出モデルを訓練し、訓練時に観測されなかった新しい関係を抽出することができない。
モデルを認識不能な関係に一般化するには、通常、ノイズが多く信頼性の低い合成トレーニングデータの微調整が必要となる。
予め訓練された言語モデル(LM)上でのテンプレート埋め込みタスクにトリプレット抽出を還元することにより、ゼロショット学習機能を備えた抽出モデルと、追加のトレーニングデータの必要性を排除できることが示される。
本稿では,生成トランスフォーマの事前学習目標とタスク目標を整合させ,無意識の関係に一般化する,新たなフレームワークであるzett(zero-shot triplet extraction by template infilling)を提案する。
FewRelとWiki-ZSLデータセットの実験では、ZETTは一貫性と安定したパフォーマンスを示し、自動生成されたテンプレートを使用しても、従来の最先端メソッドよりも優れたパフォーマンスを示している。
https://github.com/megagonlabs/zett/ The task of triplet extraction aims to extract pairs of entities and their corresponding relations from unstructured text. Most existing methods train an extraction model on training data involving specific target relations, and are incapable of extracting new relations that were not observed at training time. Generalizing the model to unseen relations typically requires fine-tuning on synthetic training data which is often noisy and unreliable. We show that by reducing triplet extraction to a template infilling task over a pre-trained language model (LM), we can equip the extraction model with zero-shot learning capabilities and eliminate the need for additional training data. We propose a novel framework, ZETT (ZEro-shot Triplet extraction by Template infilling), that aligns the task objective to the pre-training objective of generative transformers to generalize to unseen relations. Experiments on FewRel and Wiki-ZSL datasets demonstrate that ZETT shows consistent and stable performance, outperforming previous state-of-the-art methods, even when using automatically generated templates. https://github.com/megagonlabs/zett/ | 翻訳日:2023-09-22 00:36:36 公開日:2023-09-20 |
# 動きと文脈対応音声・視覚条件付き映像予測 Motion and Context-Aware Audio-Visual Conditioned Video Prediction ( http://arxiv.org/abs/2212.04679v3 ) ライセンス: Link先を確認 | Yating Xu, Conghui Hu, Gim Hee Lee | (参考訳) 本手法では,マルチモーダル確率ネットワークとフレームエンコーダから音声視覚フレームの潜時符号を用いて,次の視覚フレームを予測する。
しかし、高次元画像空間のため、次の視覚フレームの画素当たりの強度の直接推定は極めて困難である。
この目的のために、音声条件付き映像予測を動きと外観モデリングに分離する。
マルチモーダルモーション推定は、音声と運動の相関に基づいて将来の光流れを予測する。
視覚ブランチは、オーディオ機能から構築されたモーションメモリからリコールし、長期的な予測をより良くする。
さらに,長期連続ワープにおけるグローバルな出現状況の減少に対処するために,文脈対応の改良を提案する。
グローバル外観コンテキストはコンテキストエンコーダによって抽出され、ワープフレームの特徴と融合する前にモーションコンディション付きアフィン変換によって操作される。
実験の結果,提案手法は既存のベンチマークで競合する結果が得られることがわかった。 The existing state-of-the-art method for audio-visual conditioned video prediction uses the latent codes of the audio-visual frames from a multimodal stochastic network and a frame encoder to predict the next visual frame. However, a direct inference of per-pixel intensity for the next visual frame is extremely challenging because of the high-dimensional image space. To this end, we decouple the audio-visual conditioned video prediction into motion and appearance modeling. The multimodal motion estimation predicts future optical flow based on the audio-motion correlation. The visual branch recalls from the motion memory built from the audio features to enable better long term prediction. We further propose context-aware refinement to address the diminishing of the global appearance context in the long-term continuous warping. The global appearance context is extracted by the context encoder and manipulated by motion-conditioned affine transformation before fusion with features of warped frames. Experimental results show that our method achieves competitive results on existing benchmarks. | 翻訳日:2023-09-22 00:36:14 公開日:2023-09-20 |
# MasakhaneWS: アフリカの言語のニューストピック分類 MasakhaNEWS: News Topic Classification for African languages ( http://arxiv.org/abs/2304.09972v2 ) ライセンス: Link先を確認 | David Ifeoluwa Adelani, Marek Masiak, Israel Abebe Azime, Jesujoba Alabi, Atnafu Lambebo Tonja, Christine Mwase, Odunayo Ogundepo, Bonaventure F. P. Dossou, Akintunde Oladipo, Doreen Nixdorf, Chris Chinenye Emezue, sana al-azzawi, Blessing Sibanda, Davis David, Lolwethu Ndolela, Jonathan Mukiibi, Tunde Ajayi, Tatiana Moteu, Brian Odhiambo, Abraham Owodunni, Nnaemeka Obiefuna, Muhidin Mohamed, Shamsuddeen Hassan Muhammad, Teshome Mulugeta Ababu, Saheed Abdullahi Salahudeen, Mesay Gemeda Yigezu, Tajuddeen Gwadabe, Idris Abdulmumin, Mahlet Taye, Oluwabusayo Awoyomi, Iyanuoluwa Shode, Tolulope Adelani, Habiba Abdulganiyu, Abdul-Hakeem Omotayo, Adetola Adeeko, Abeeb Afolabi, Anuoluwapo Aremu, Olanrewaju Samuel, Clemencia Siro, Wangari Kimotho, Onyekachi Ogbu, Chinedu Mbonu, Chiamaka Chukwuneke, Samuel Fanijo, Jessica Ojo, Oyinkansola Awosan, Tadesse Kebede, Toadoum Sari Sakayo, Pamela Nyatsine, Freedmore Sidume, Oreen Yousuf, Mardiyyah Oduwole, Tshinu Tshinu, Ussen Kimanuka, Thina Diko, Siyanda Nxakama, Sinodos Nigusse, Abdulmejid Johar, Shafie Mohamed, Fuad Mire Hassan, Moges Ahmed Mehamed, Evrard Ngabire, Jules Jules, Ivan Ssenkungu and Pontus Stenetorp | (参考訳) アフリカの言語は、いくつかのNLPタスクをカバーするデータセットが欠如しているため、NLP研究において非常に不足している。
個別の言語固有のデータセットがさまざまなタスクに拡張されているが、いくつかのNLPタスク(エンティティ認識や機械翻訳など)だけが、地理的およびタイプ論的に異なるアフリカの言語をカバーするベンチマークデータセットを標準化している。
本稿では,アフリカで広く話されている16言語を対象とした,ニューストピック分類のための新しいベンチマークデータセットであるMashokhaNEWSを開発する。
古典的機械学習モデルを訓練し,複数の言語モデルを微調整することにより,ベースラインモデルの評価を行う。
さらに,クロスリンガルパラメーター効率の優れた微調整(mad-x など),パターン活用トレーニング(pet),プロンプト言語モデル(chatgpt など),プロンプトフリー文変換(setfit と cohere embedded api)といった,ゼロショット学習や少数ショット学習に適した言語モデルの完全微調整の選択肢についても検討した。
ゼロショット設定による評価は,低資源アフリカ言語におけるニューストピック分類におけるchatgptの促進の可能性を示し,mad-xのような追加の監督を必要とせず,平均70f1ポイントのパフォーマンスを達成した。
少数の設定では、PETアプローチを利用したフル教師付きトレーニング(92.6F1ポイント)のパフォーマンスの90%以上(86.0F1ポイント)を達成した。 African languages are severely under-represented in NLP research due to lack of datasets covering several NLP tasks. While there are individual language specific datasets that are being expanded to different tasks, only a handful of NLP tasks (e.g. named entity recognition and machine translation) have standardized benchmark datasets covering several geographical and typologically-diverse African languages. In this paper, we develop MasakhaNEWS -- a new benchmark dataset for news topic classification covering 16 languages widely spoken in Africa. We provide an evaluation of baseline models by training classical machine learning models and fine-tuning several language models. Furthermore, we explore several alternatives to full fine-tuning of language models that are better suited for zero-shot and few-shot learning such as cross-lingual parameter-efficient fine-tuning (like MAD-X), pattern exploiting training (PET), prompting language models (like ChatGPT), and prompt-free sentence transformer fine-tuning (SetFit and Cohere Embedding API). Our evaluation in zero-shot setting shows the potential of prompting ChatGPT for news topic classification in low-resource African languages, achieving an average performance of 70 F1 points without leveraging additional supervision like MAD-X. In few-shot setting, we show that with as little as 10 examples per label, we achieved more than 90\% (i.e. 86.0 F1 points) of the performance of full supervised training (92.6 F1 points) leveraging the PET approach. | 翻訳日:2023-09-22 00:30:15 公開日:2023-09-20 |
# ゼロショット時空間行動検出のための対話型プロンプト Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action Detection ( http://arxiv.org/abs/2304.04688v4 ) ライセンス: Link先を確認 | Wei-Jhe Huang, Jheng-Hsien Yeh, Min-Hung Chen, Gueter Josmy Faure, Shang-Hong Lai | (参考訳) 空間的-時間的行動検出の目標は、ビデオ内で各人の行動が起こる時間と場所を決定し、対応する行動カテゴリを分類することである。
既存の手法の多くは、大量のトレーニングデータを必要とする完全教師付き学習を採用しており、ゼロショット学習を実現するのは非常に困難である。
本稿では,訓練済みの視覚言語モデルを用いて代表的画像とテキストの特徴を抽出し,それらの特徴の相互作用モジュール間の関係をモデル化してインタラクション特徴を得る。
さらに、この機能を使って各ラベルにより適切なテキスト機能を得るよう促す。
最後に、各ラベルのインタラクション特徴とテキスト特徴との類似度を算出し、アクションカテゴリを決定する。
j-hmdb と ucf101-24 データセットを用いた実験により,提案するインタラクションモジュールと視覚機能の整合性が向上し,ゼロショット時空間動作検出に優れた精度が得られた。
コードはhttps://github.com/webber2933/iCLIPで入手できる。 The goal of spatial-temporal action detection is to determine the time and place where each person's action occurs in a video and classify the corresponding action category. Most of the existing methods adopt fully-supervised learning, which requires a large amount of training data, making it very difficult to achieve zero-shot learning. In this paper, we propose to utilize a pre-trained visual-language model to extract the representative image and text features, and model the relationship between these features through different interaction modules to obtain the interaction feature. In addition, we use this feature to prompt each label to obtain more appropriate text features. Finally, we calculate the similarity between the interaction feature and the text feature for each label to determine the action category. Our experiments on J-HMDB and UCF101-24 datasets demonstrate that the proposed interaction module and prompting make the visual-language features better aligned, thus achieving excellent accuracy for zero-shot spatio-temporal action detection. The code will be available at https://github.com/webber2933/iCLIP. | 翻訳日:2023-09-22 00:29:21 公開日:2023-09-20 |
# CRISP:原始インフォームドサブゴの予測を誘導するカリキュラム CRISP: Curriculum inducing Primitive Informed Subgoal Prediction ( http://arxiv.org/abs/2304.03535v2 ) ライセンス: Link先を確認 | Utsav Singh, Vinay P Namboodiri | (参考訳) 階層的強化学習は、複雑な長距離地平線問題を解決するために時間的抽象化を使用する有望なアプローチである。
しかし、低レベルのプリミティブが非定常である場合、高レベルのポリシーを訓練することが難しいため、同時にポリシー階層を学習することは不安定である。
本稿では,強化学習と模倣学習を用いて,低レベルプリミティブを進化させるための,実現可能なサブゴールのカリキュラムを生成するための新しい階層的アルゴリズムを提案する。
低レベルのプリミティブは、非定常性を扱うプリミティブ情報解析アプローチを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーリングを行います。
私たちのアプローチは、いくつかの専門家によるデモを使うので、ほとんどのロボット制御タスクに適している。
複雑なロボット迷路ナビゲーションおよびロボット操作環境における実験評価により,階層的カリキュラム学習の誘導がサンプル効率を大幅に向上し,時間的拡張課題を解決するための効率的な目標条件付きポリシーが得られた。
複雑な操作タスクにおける実世界のロボット実験を行い、CRISPがベースラインを一貫して上回っていることを示す。 Hierarchical reinforcement learning is a promising approach that uses temporal abstraction to solve complex long horizon problems. However, simultaneously learning a hierarchy of policies is unstable as it is challenging to train higher-level policy when the lower-level primitive is non-stationary. In this paper, we propose a novel hierarchical algorithm CRISP to generate a curriculum of achievable subgoals for evolving lower-level primitives using reinforcement learning and imitation learning. The lower level primitive periodically performs data relabeling on a handful of expert demonstrations using our primitive informed parsing approach to handle non-stationarity. Since our approach uses a handful of expert demonstrations, it is suitable for most robotic control tasks. Experimental evaluations on complex robotic maze navigation and robotic manipulation environments show that inducing hierarchical curriculum learning significantly improves sample efficiency, and results in efficient goal conditioned policies for solving temporally extended tasks. We perform real world robotic experiments on complex manipulation tasks and demonstrate that CRISP consistently outperforms the baselines. | 翻訳日:2023-09-22 00:29:00 公開日:2023-09-20 |
# マウス頭蓋窓作成のための自律型ロボットドリルシステム:卵モデルによる評価 Autonomous Robotic Drilling System for Mice Cranial Window Creation: An Evaluation with an Egg Model ( http://arxiv.org/abs/2303.12265v2 ) ライセンス: Link先を確認 | Enduo Zhao and Murilo M. Marinho and Kanako Harada | (参考訳) 生命科学における実験操作のためのロボット支援は、科学者のスキルに関係なく、貴重なサンプルの正確な操作を可能にすることが期待されている。
生命科学の実験的な標本は個々の変動と変形の対象となるため、自律的なロボット制御が必要である。
一例として,マウスの頭蓋窓の設置について検討している。
この手術では、厚さ約300mの頭蓋骨を直径8mmの円形に切断する必要があるが、マウスの頭蓋骨の形状は、マウス、性別、週の歪みによって異なる。
頭蓋骨の厚さは均一ではなく、一部の領域は薄く、他の領域は厚くなっている。
また、マウスの頭蓋骨が操作毎に同じ位置に保持されることを保証することも困難である。
これらの特徴をすべて測定し、個々のマウスに対してロボット軌道を事前にプログラムすることは現実的には不可能である。
そこで本稿では,自律型ロボット掘削法を提案する。
提案手法は,掘削軌道計画と画像に基づくタスク完了レベル認識からなる。
軌道計画では、各離散点におけるタスク完了レベルに応じてドリルのz位置を調整し、オーバーシュートを避けながら拘束された立方体スプライン補間を介して3次元ドリルパスを形成する。
タスク完了レベル認識は、DSSDにインスパイアされたディープラーニングモデルを使用して、各離散点のタスク完了レベルを推定する。
卵は、形状、厚み、機械的特性の点でマウス頭蓋骨と類似する特性を有するため、卵殻を損傷することなく除去することがシミュレーションタスクとして選択された。
提案手法はドリルを装着した6-DOFロボットアームを用いて評価し,20回中80%の成功率を達成した。 Robotic assistance for experimental manipulation in the life sciences is expected to enable precise manipulation of valuable samples, regardless of the skill of the scientist. Experimental specimens in the life sciences are subject to individual variability and deformation, and therefore require autonomous robotic control. As an example, we are studying the installation of a cranial window in a mouse. This operation requires the removal of the skull, which is approximately 300 um thick, to cut it into a circular shape 8 mm in diameter, but the shape of the mouse skull varies depending on the strain of mouse, sex and week of age. The thickness of the skull is not uniform, with some areas being thin and others thicker. It is also difficult to ensure that the skulls of the mice are kept in the same position for each operation. It is not realistically possible to measure all these features and pre-program a robotic trajectory for individual mice. The paper therefore proposes an autonomous robotic drilling method. The proposed method consists of drilling trajectory planning and image-based task completion level recognition. The trajectory planning adjusts the z-position of the drill according to the task completion level at each discrete point, and forms the 3D drilling path via constrained cubic spline interpolation while avoiding overshoot. The task completion level recognition uses a DSSD-inspired deep learning model to estimate the task completion level of each discrete point. Since an egg has similar characteristics to a mouse skull in terms of shape, thickness and mechanical properties, removing the egg shell without damaging the membrane underneath was chosen as the simulation task. The proposed method was evaluated using a 6-DOF robotic arm holding a drill and achieved a success rate of 80% out of 20 trials. | 翻訳日:2023-09-22 00:28:19 公開日:2023-09-20 |
# アニメーションビデオ超解像のための学習データ駆動ベクトル量子化分解モデル Learning Data-Driven Vector-Quantized Degradation Model for Animation Video Super-Resolution ( http://arxiv.org/abs/2303.09826v2 ) ライセンス: Link先を確認 | Zixi Tuo, Huan Yang, Jianlong Fu, Yujie Dun, Xueming Qian | (参考訳) 既存の実世界のビデオ超解像法(VSR)は、特定のドメイン(例えばアニメーションビデオ)に適用する際のパフォーマンスを強く制限するデータ固有の特性を無視しながら、オープンドメインビデオの一般的な劣化パイプラインを設計することに焦点を当てている。
本稿では,アニメーション映像の特徴を徹底的に検討し,より実用的なアニメーションvsrモデルとして,実世界のアニメーションデータのリッチプリエントを活用する。
特に,大域構造から局所的な詳細を分解し,実世界のアニメーション映像の劣化前処理を学習ベクトル量子化コードブックに転送するアニメーションビデオスーパーレゾリューション(vqd-sr)のためのマルチスケールベクトル量子化分解モデルを提案する。
先行データを抽出するためのリッチコンテンツリアルアニメーション低品質ビデオデータセットを収集する。
さらに,既存のHRビデオが顕著な圧縮アーティファクトを含むWebから収集されるという観察に基づいて,高解像度(HR)トレーニングビデオのデータ強化戦略を提案する。
提案手法は,特定のVSRモデルによらず,アニメーションVSR性能の上限を引き上げることが有効である。
実験により,最新のアニメーションビデオ超高解像度ベンチマークの定量的および定性的評価により,提案手法よりもVQD-SRの方が優れていることが示された。
コードと事前訓練されたモデルはhttps://github.com/researchmm/VQD-SRでダウンロードできる。 Existing real-world video super-resolution (VSR) methods focus on designing a general degradation pipeline for open-domain videos while ignoring data intrinsic characteristics which strongly limit their performance when applying to some specific domains (eg., animation videos). In this paper, we thoroughly explore the characteristics of animation videos and leverage the rich priors in real-world animation data for a more practical animation VSR model. In particular, we propose a multi-scale Vector-Quantized Degradation model for animation video Super-Resolution (VQD-SR) to decompose the local details from global structures and transfer the degradation priors in real-world animation videos to a learned vector-quantized codebook for degradation modeling. A rich-content Real Animation Low-quality (RAL) video dataset is collected for extracting the priors. We further propose a data enhancement strategy for high-resolution (HR) training videos based on our observation that existing HR videos are mostly collected from the Web which contains conspicuous compression artifacts. The proposed strategy is valid to lift the upper bound of animation VSR performance, regardless of the specific VSR model. Experimental results demonstrate the superiority of the proposed VQD-SR over state-of-the-art methods, through extensive quantitative and qualitative evaluations of the latest animation video super-resolution benchmark. The code and pre-trained models can be downloaded at https://github.com/researchmm/VQD-SR. | 翻訳日:2023-09-22 00:27:50 公開日:2023-09-20 |
# ChatGPTは従来のKBQAモデルを置き換えることができるか?
gpt llmファミリーにおける質問応答性能の詳細な分析 Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of the Question Answering Performance of the GPT LLM Family ( http://arxiv.org/abs/2303.07992v3 ) ライセンス: Link先を確認 | Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen, Guilin Qi | (参考訳) ChatGPTは、ウィキペディアのような知識資源をカバーする強力な大規模言語モデル(LLM)であり、独自の知識を使用して自然言語質問応答をサポートする。
したがって、ChatGPTが従来の知識に基づく質問応答(KBQA)モデルを置き換えることができるかどうかを探求する関心が高まっている。
ChatGPTの性能を解析する研究はいくつかあるが、モデルの限界を分析するための様々な種類の複雑な質問の大規模かつ包括的なテストはいまだに存在しない。
本稿では,ribeiroらによって提案されたチェックリストのブラックボックステスト仕様に従うフレームワークを提案する。
アル
6つの英語データセットと2つの多言語データセットを含む8つの実世界のKBベースの複合質問応答データセット上でChatGPTとそのLLM群を評価する。
テストケースの総数は約190,000である。
LLMのGPTファミリーに加えて、よく知られたFLAN-T5も評価し、GPTファミリーと他のLPMの共通点を同定した。
データセットとコードはhttps://github.com/tan92hl/complex-question-answering-evaluation-of-gpt-family.gitで入手できる。 ChatGPT is a powerful large language model (LLM) that covers knowledge resources such as Wikipedia and supports natural language question answering using its own knowledge. Therefore, there is growing interest in exploring whether ChatGPT can replace traditional knowledge-based question answering (KBQA) models. Although there have been some works analyzing the question answering performance of ChatGPT, there is still a lack of large-scale, comprehensive testing of various types of complex questions to analyze the limitations of the model. In this paper, we present a framework that follows the black-box testing specifications of CheckList proposed by Ribeiro et. al. We evaluate ChatGPT and its family of LLMs on eight real-world KB-based complex question answering datasets, which include six English datasets and two multilingual datasets. The total number of test cases is approximately 190,000. In addition to the GPT family of LLMs, we also evaluate the well-known FLAN-T5 to identify commonalities between the GPT family and other LLMs. The dataset and code are available at https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git | 翻訳日:2023-09-22 00:27:24 公開日:2023-09-20 |
# ISLE: 画像レベルのセマンティックセマンティックセグメンテーションのためのフレームワーク ISLE: A Framework for Image Level Semantic Segmentation Ensemble ( http://arxiv.org/abs/2303.07898v5 ) ライセンス: Link先を確認 | Erik Ostrowski and Muhammad Shafique | (参考訳) 最先端のセマンティックセグメンテーションネットワークを現実世界で採用する上で重要なボトルネックのひとつは、トレーニングラベルの可用性だ。
従来のセマンティクスセグメンテーションネットワークは、最先端の予測品質に達するために大量のピクセル単位で注釈付きラベルを必要とする。
したがって、いくつかの作品は画像レベルのアノテーションだけで訓練されたセマンティックセグメンテーションネットワークに焦点を当てている。
しかし、最先端の成果をより詳細に調べると、平均予測品質において互いに非常に近いことが分かり、異なるアプローチが異なるクラスでより良く機能し、他のクラスで低い品質を提供する。
この問題に対処するため,我々は,クラスレベルで異なる意味セグメンテーション手法のセットに対して,"pseudo-labels" のアンサンブルを用いた新しい枠組みである isle を提案する。
Pseudo-labelsは、最終的なセグメンテーションモデルをトレーニングするために使用される画像レベルのセグメンテーションフレームワークのピクセルワイズ予測である。
擬似ラベルは複数のセグメンテーション手法の強い点をシームレスに組み合わせて予測精度を向上させる。
私たちはISLEの個々のコンポーネントよりも2.4%改善しています。
画像レベルのセマンティックセグメンテーションのための最先端フレームワークに対するISLEの有効性を示すために、徹底的な分析を行った。 One key bottleneck of employing state-of-the-art semantic segmentation networks in the real world is the availability of training labels. Conventional semantic segmentation networks require massive pixel-wise annotated labels to reach state-of-the-art prediction quality. Hence, several works focus on semantic segmentation networks trained with only image-level annotations. However, when scrutinizing the results of state-of-the-art in more detail, we notice that they are remarkably close to each other on average prediction quality, different approaches perform better in different classes while providing low quality in others. To address this problem, we propose a novel framework, ISLE, which employs an ensemble of the "pseudo-labels" for a given set of different semantic segmentation techniques on a class-wise level. Pseudo-labels are the pixel-wise predictions of the image-level semantic segmentation frameworks used to train the final segmentation model. Our pseudo-labels seamlessly combine the strong points of multiple segmentation techniques approaches to reach superior prediction quality. We reach up to 2.4% improvement over ISLE's individual components. An exhaustive analysis was performed to demonstrate ISLE's effectiveness over state-of-the-art frameworks for image-level semantic segmentation. | 翻訳日:2023-09-22 00:27:02 公開日:2023-09-20 |
# ReFit: 医用画像におけるオブジェクト境界フィッティングを用いた弱監視セマンティックセグメンテーションの補正フレームワーク ReFit: A Framework for Refinement of Weakly Supervised Semantic Segmentation using Object Border Fitting for Medical Images ( http://arxiv.org/abs/2303.07853v4 ) ライセンス: Link先を確認 | Bharath Srinivas Prabakaran and Erik Ostrowski and Muhammad Shafique | (参考訳) 画像レベルの監視のみに依存する弱い教師付きセマンティックセグメンテーション(wsss)は、セグメンテーションネットワークの必要性に対処するための有望なアプローチである。
しかし、ほとんどの最先端の画像レベルWSSS技術は、ネットワークが単に画像レベルラベルからオブジェクト境界情報を導き出すことができないため、画像に埋め込まれた幾何学的特徴の理解を欠いている。
ここで境界を、オブジェクトとその背景を分離する線、または2つの異なるオブジェクトとして定義する。
この欠点に対処するために,我々は,最先端のクラスアクティベーションマップと様々なポストプロセッシング技術を組み合わせた,詳細な高精度セグメンテーションマスクを実現するための新しいrefitフレームワークを提案する。
これを実現するために,ReFitがよりシャープな境界を持つ物体の位置を予測できる境界マップの構築に使用できる最先端の教師なしセグメンテーションネットワークについて検討する。
本手法をWSSS予測に適用することにより,医用画像の最先端WSSS法に対して最大10%の改善を実現した。
このフレームワークはオープンソースで、結果が再現可能で、https://github.com/bharathprabakaran/ReFit.comでオンラインでアクセスできます。 Weakly Supervised Semantic Segmentation (WSSS) relying only on image-level supervision is a promising approach to deal with the need for Segmentation networks, especially for generating a large number of pixel-wise masks in a given dataset. However, most state-of-the-art image-level WSSS techniques lack an understanding of the geometric features embedded in the images since the network cannot derive any object boundary information from just image-level labels. We define a boundary here as the line separating an object and its background, or two different objects. To address this drawback, we are proposing our novel ReFit framework, which deploys state-of-the-art class activation maps combined with various post-processing techniques in order to achieve fine-grained higher-accuracy segmentation masks. To achieve this, we investigate a state-of-the-art unsupervised segmentation network that can be used to construct a boundary map, which enables ReFit to predict object locations with sharper boundaries. By applying our method to WSSS predictions, we achieved up to 10% improvement over the current state-of-the-art WSSS methods for medical imaging. The framework is open-source, to ensure that our results are reproducible, and accessible online at https://github.com/bharathprabakaran/ReFit. | 翻訳日:2023-09-22 00:26:33 公開日:2023-09-20 |
# Tag2Text:イメージタグによる視覚言語モデルの誘導 Tag2Text: Guiding Vision-Language Model via Image Tagging ( http://arxiv.org/abs/2303.05657v2 ) ライセンス: Link先を確認 | Xinyu Huang, Youcai Zhang, Jinyu Ma, Weiwei Tian, Rui Feng, Yuejie Zhang, Yaqian Li, Yandong Guo, Lei Zhang | (参考訳) 本稿では,視覚言語事前学習(VLP)フレームワークであるTag2Textについて述べる。
対象タグを手動でラベル付けするか,あるいはオフザシェルフ検出器で自動的に検出する従来の手法とは対照的に,本手法では画像ペアリングテキストから解析したタグを用いて画像タグを明示的に学習し,視覚言語モデルに強力な意味的ガイダンスを提供する。
このように、Tag2Textは、画像とテキストのペアに応じて、大規模なアノテーションのない画像タグを利用でき、オブジェクトを超えてより多様なタグカテゴリを提供する。
結果として、tag2textは、完全な教師付きモデルに匹敵する優れたゼロショット性能を持つ基礎的なイメージタグ付けモデルの能力を示している。
さらに、タグ付け指導を活用することで、Tag2Textは世代ベースとアライメントベースの両方のタスクにおける視覚言語モデルの性能を効果的に向上させる。
幅広いダウンストリームベンチマークを通じて、tag2textは、同様のモデルサイズとデータスケールで最先端の結果を達成し、提案するタグ付けガイダンスの有効性を実証する。
コード、デモ、事前学習されたモデルは \url{https://github.com/xinyu1205/recognize-anything} で入手できる。 This paper presents Tag2Text, a vision language pre-training (VLP) framework, which introduces image tagging into vision-language models to guide the learning of visual-linguistic features. In contrast to prior works which utilize object tags either manually labeled or automatically detected with an off-the-shelf detector with limited performance, our approach explicitly learns an image tagger using tags parsed from image-paired text and thus provides a strong semantic guidance to vision-language models. In this way, Tag2Text can utilize large-scale annotation-free image tags in accordance with image-text pairs, and provides more diverse tag categories beyond objects. As a result, Tag2Text demonstrates the ability of a foundational image tagging model, with superior zero-shot performance even comparable to fully supervised models. Moreover, by leveraging the tagging guidance, Tag2Text effectively enhances the performance of vision-language models on both generation-based and alignment-based tasks. Across a wide range of downstream benchmarks, Tag2Text achieves state-of-the-art results with similar model sizes and data scales, demonstrating the efficacy of the proposed tagging guidance. Code, demo and pre-trained models are available at \url{https://github.com/xinyu1205/recognize-anything}. | 翻訳日:2023-09-22 00:25:52 公開日:2023-09-20 |
# データ強化マルチビューの深層学習アンサンブルを用いた化石画像の同定 Fossil Image Identification using Deep Learning Ensembles of Data Augmented Multiviews ( http://arxiv.org/abs/2302.08062v2 ) ライセンス: Link先を確認 | Chengbin Hou, Xinyu Lin, Hanhui Huang, Sheng Xu, Junxuan Fan, Yukun Shi, Hairong Lv | (参考訳) 化石種の同定は進化研究に不可欠である。
深層学習による最近の進歩は、化石画像の識別に有望な可能性を示している。
しかし、ラベル付き化石画像の量と品質は、しばしば化石保存、条件付きサンプリング、ドメインの専門家による高価で一貫性のないラベルアノテーションによって制限され、深層学習に基づく画像分類モデルの訓練に大きな課題が生じる。
これらの課題に対処するため,我々は,群集の知恵の考え方に従い,各化石画像のオリジナル(o),グレー(g),スケルトン(s)ビューを収集し,その特徴を反映して複数のベースモデルをトレーニングし,ソフト投票により最終決定を行うマルチビューアンサンブルフレームワークを提案する。
2400のイメージを持つ最大のフスリノイドデータセットの実験では、提案されたOGSはベースライン(ビュー毎に1つのモデルを使用して)を一貫して上回り、OOO(3つのベースモデルで同じオリジナルビューを3つ使用)よりも優れた、あるいは同等のパフォーマンスを得る。
人間の専門家に対する識別整合性の推定を考慮しながら、OGSはデータセットのオリジナルのラベルと2人の人間の専門家の再識別との合意が最も高い。
提案手法は, 化石の発見事例研究において, 最先端の性能を示すことができると結論付けた。
このフレームワークは一般的な化石識別のために設計されており、今後他の化石データセットへの応用が期待されている。
特に、列車のセットのサイズが小さくなるか、あるいはより小さな不均衡な化石データセットを超えると、パフォーマンスが向上し、希少な化石像を識別する可能性を示している。
提案手法は, 化石同定における不整合を評価, 解決する可能性も示している。 Identification of fossil species is crucial to evolutionary studies. Recent advances from deep learning have shown promising prospects in fossil image identification. However, the quantity and quality of labeled fossil images are often limited due to fossil preservation, conditioned sampling, and expensive and inconsistent label annotation by domain experts, which pose great challenges to training deep learning based image classification models. To address these challenges, we follow the idea of the wisdom of crowds and propose a multiview ensemble framework, which collects Original (O), Gray (G), and Skeleton (S) views of each fossil image reflecting its different characteristics to train multiple base models, and then makes the final decision via soft voting. Experiments on the largest fusulinid dataset with 2400 images show that the proposed OGS consistently outperforms baselines (using a single model for each view), and obtains superior or comparable performance compared to OOO (using three base models for three the same Original views). While considering the identification consistency estimation with respect to human experts, OGS receives the highest agreement with the original labels of dataset and with the re-identifications of two human experts. We conclude that the proposed framework can present state-of-the-art performance in the fusulinid fossil identification case study. This framework is designed for general fossil identification and it is expected to see applications to other fossil datasets in future work. Notably, the result, which shows more performance gains as train set size decreases or over a smaller imbalance fossil dataset, suggests the potential application to identify rare fossil images. The proposed framework also demonstrates its potential for assessing and resolving inconsistencies in fossil identification. | 翻訳日:2023-09-22 00:24:52 公開日:2023-09-20 |
# 空中画像から直接マルチエージェント動作を予測するHD-Map Video Killed the HD-Map: Predicting Multi-Agent Behavior Directly From Aerial Images ( http://arxiv.org/abs/2305.11856v2 ) ライセンス: Link先を確認 | Yunpeng Liu, Vasileios Lioutas, Jonathan Wilder Lavington, Matthew Niedoba, Justice Sefas, Setareh Dabiri, Dylan Green, Xiaoxuan Liang, Berend Zwartsenberg, Adam \'Scibior, Frank Wood | (参考訳) 人間のデモを使ってマルチエージェント行動モデルを学ぶアルゴリズムの開発は、自動運転の分野における現実的なシミュレーションへとつながった。
一般に、このようなモデルは、手動で注釈付き高精細地図(HD)から得られる乾燥車線などの道路状況情報を利用して、制御対象の軌跡を共同で予測することを学ぶ。
近年の研究では、これらのモデルがトレーニングに利用できる人間のデータ量を増やすことで大きな恩恵を受けることが示されている。
しかし、新しい場所ごとに必要となるHDマップのマニュアルアノテーションは、人間のトラフィックデータセットを効率的にスケールアップする上でボトルネックとなる。
本稿では,最小限のアノテーションを必要とする航空画像ベースマップ(AIM)の表現を提案し,歩行者や車両などの交通機関に道路状況情報を提供する。
画像テクスチャに基づく識別可能なレンダリングモジュールとして、識別可能な駆動シミュレータに組み込むことで、AIMを用いたマルチエージェント軌道予測を評価する。
以上の結果から,AIM表現をラスタ化HDマップで訓練したモデルと比較した場合,特に現場の歩行者に対して,競争力のあるマルチエージェント軌道予測性能を示す。 The development of algorithms that learn multi-agent behavioral models using human demonstrations has led to increasingly realistic simulations in the field of autonomous driving. In general, such models learn to jointly predict trajectories for all controlled agents by exploiting road context information such as drivable lanes obtained from manually annotated high-definition (HD) maps. Recent studies show that these models can greatly benefit from increasing the amount of human data available for training. However, the manual annotation of HD maps which is necessary for every new location puts a bottleneck on efficiently scaling up human traffic datasets. We propose an aerial image-based map (AIM) representation that requires minimal annotation and provides rich road context information for traffic agents like pedestrians and vehicles. We evaluate multi-agent trajectory prediction using the AIM by incorporating it into a differentiable driving simulator as an image-texture-based differentiable rendering module. Our results demonstrate competitive multi-agent trajectory prediction performance especially for pedestrians in the scene when using our AIM representation as compared to models trained with rasterized HD maps. | 翻訳日:2023-09-21 22:35:36 公開日:2023-09-20 |
# Marsellus: 2-to-8b DNNアクセラレーションと30%ブースト適応ボディバイアスを備えた異種RISC-V AI-IoTエンドノードSoC Marsellus: A Heterogeneous RISC-V AI-IoT End-Node SoC with 2-to-8b DNN Acceleration and 30%-Boost Adaptive Body Biasing ( http://arxiv.org/abs/2305.08415v2 ) ライセンス: Link先を確認 | Francesco Conti, Gianna Paulin, Davide Rossi, Alfio Di Mauro, Georg Rutishauser, Gianmarco Ottavi, Manuel Eggimann, Hayate Okuhara, Luca Benini | (参考訳) 拡張現実、パーソナライズされたヘルスケア、ナノロボティクスのためのAI-IoT(System-on-a-Chip)システム・オン・チップ(SoC)の進化は、計算集約的だが強力な量子化されたDeep Neural Network(DNN)推論や、高精度浮動小数点を必要とする信号処理と制御など、幅広い操作条件において、数十mWのパワーエンベロープ内で多くの多様なタスクを実行する必要がある。
我々はglobalfoundries 22nm fdxで作製したai-iotエンドノードのための全デジタルヘテロジニアスsocであるmarsellusを提案する。
1 RISC-Vデジタル信号処理(DSP)16コアの汎用クラスタで、4ビットと2ビットの算術拡張(XpulpNN)を利用して、MAC&LOAD操作と浮動小数点演算を併用した多様なワークロードを実行する。
2) DNNにおける3x3と1x1(ポイントワイド)の畳み込みを加速する2-8ビット再構成可能なバイナリエンジン(RBE)
3)Adaptive Body Biasing(ABB)ジェネレータとハードウェア制御ループに接続されたオンチップ監視(OCM)ブロックのセットにより、トランジスタ閾値電圧のオンザフライ適応が可能となる。
Marsellusは2ビットの精度演算で最大180 Gop/s、3.32 Top/s/W、ハードウェアアクセラレーションされたDNN層で最大637 Gop/s、12.4 Top/s/Wを達成する。 Emerging Artificial Intelligence-enabled Internet-of-Things (AI-IoT) System-on-a-Chip (SoC) for augmented reality, personalized healthcare, and nano-robotics need to run many diverse tasks within a power envelope of a few tens of mW over a wide range of operating conditions: compute-intensive but strongly quantized Deep Neural Network (DNN) inference, as well as signal processing and control requiring high-precision floating-point. We present Marsellus, an all-digital heterogeneous SoC for AI-IoT end-nodes fabricated in GlobalFoundries 22nm FDX that combines 1) a general-purpose cluster of 16 RISC-V Digital Signal Processing (DSP) cores attuned for the execution of a diverse range of workloads exploiting 4-bit and 2-bit arithmetic extensions (XpulpNN), combined with fused MAC&LOAD operations and floating-point support; 2) a 2-8bit Reconfigurable Binary Engine (RBE) to accelerate 3x3 and 1x1 (pointwise) convolutions in DNNs; 3) a set of On-Chip Monitoring (OCM) blocks connected to an Adaptive Body Biasing (ABB) generator and a hardware control loop, enabling on-the-fly adaptation of transistor threshold voltages. Marsellus achieves up to 180 Gop/s or 3.32 Top/s/W on 2-bit precision arithmetic in software, and up to 637 Gop/s or 12.4 Top/s/W on hardware-accelerated DNN layers. | 翻訳日:2023-09-21 22:35:14 公開日:2023-09-20 |
# 効率的な複合パルスシーケンスを用いた高速高忠実化シングルキュービットゲート Fast, high-fidelity addressed single-qubit gates using efficient composite pulse sequences ( http://arxiv.org/abs/2305.06725v2 ) ライセンス: Link先を確認 | A. D. Leu, M. F. Gely, M. A. Weber, M. C. Smith, D. P. Nadlinger, D. M. Lucas | (参考訳) 低温(100K)表面トラップにおいて,電子マイクロ波制御法を用いて,高速かつ忠実な単一量子ビットゲートを,$^{43}\text{Ca}^{+}$超微細な「原子時計」キュービットに対して実装する。
1つのキュービットに対して、1つのクリフォードゲートあたり$1.5$$$\times$10^{-6}$($600~\text{ns}$$$\pi/2$-pulsesで実装)のエラーをベンチマークします。
同じトラップゾーン内の2つの量子ビット(イオン分離5〜\mu\text{m}$)に対して、空間マイクロ波場勾配と効率的な4パルススキームを組み合わせて、独立したアドレスゲートを実装する。
両キュービットの並列ランダム化ベンチマークでは平均誤差が3.4$$\times$10^{-5}$ per address $\pi/2$-gateとなる。
このスキームは理論上、1つのレジスタでより大きな量子ビットにスケールする。 We use electronic microwave control methods to implement addressed single-qubit gates with high speed and fidelity, for $^{43}\text{Ca}^{+}$ hyperfine "atomic clock" qubits in a cryogenic (100K) surface trap. For a single qubit, we benchmark an error of $1.5$ $\times$ $10^{-6}$ per Clifford gate (implemented using $600~\text{ns}$ $\pi/2$-pulses). For two qubits in the same trap zone (ion separation $5~\mu\text{m}$), we use a spatial microwave field gradient, combined with an efficient 4-pulse scheme, to implement independent addressed gates. Parallel randomized benchmarking on both qubits yields an average error $3.4$ $\times$ $10^{-5}$ per addressed $\pi/2$-gate. The scheme scales theoretically to larger numbers of qubits in a single register. | 翻訳日:2023-09-21 22:34:34 公開日:2023-09-20 |
# ACTC:コールドスタート知識グラフ補完のためのアクティブ閾値校正 ACTC: Active Threshold Calibration for Cold-Start Knowledge Graph Completion ( http://arxiv.org/abs/2305.06395v3 ) ライセンス: Link先を確認 | Anastasiia Sedova, Benjamin Roth | (参考訳) 自己教師付き知識グラフ補完(KGC)は、例えば初期知識グラフを埋め込むことで、スコアリングモデル(エンタリティ、関係性、実体)-タプルを推定することに依存する。
評価モデルの校正により予測品質を向上させることができ、通常は手動で注釈付き例を用いて予測しきい値を調整する。
本稿では,KGCの冷間開始校正を初めて試みるが,最初は校正のための注記例は存在せず,注釈のためのタプルは限られている。
提案手法は, 注釈付きタプルの限られたセットに基づいて, 良好な相関しきい値を求める。
いくつかの注釈付きタプルに加えて、ACTCはロジスティック回帰やガウスプロセスの分類器でその正しさを推定することで、ラベルのないタプルも活用している。
また、アノテーションの候補タプルを選択する方法として、密度ベースとランダム選択がある。
5つのスコアリングモデルと1つのオラクルアノテータを用いた実験では,10タプルの注釈予算による挑戦的な設定でACTCを使用する場合,7%のポイントが改善され,平均4%のポイントが異なる予算で改善された。 Self-supervised knowledge-graph completion (KGC) relies on estimating a scoring model over (entity, relation, entity)-tuples, for example, by embedding an initial knowledge graph. Prediction quality can be improved by calibrating the scoring model, typically by adjusting the prediction thresholds using manually annotated examples. In this paper, we attempt for the first time cold-start calibration for KGC, where no annotated examples exist initially for calibration, and only a limited number of tuples can be selected for annotation. Our new method ACTC finds good per-relation thresholds efficiently based on a limited set of annotated tuples. Additionally to a few annotated tuples, ACTC also leverages unlabeled tuples by estimating their correctness with Logistic Regression or Gaussian Process classifiers. We also experiment with different methods for selecting candidate tuples for annotation: density-based and random selection. Experiments with five scoring models and an oracle annotator show an improvement of 7% points when using ACTC in the challenging setting with an annotation budget of only 10 tuples, and an average improvement of 4% points over different budgets. | 翻訳日:2023-09-21 22:34:18 公開日:2023-09-20 |
# ベル実験と量子基礎について On the Bell Experiment and Quantum Foundation ( http://arxiv.org/abs/2305.05299v5 ) ライセンス: Link先を確認 | Inge S. Helland | (参考訳) ベル実験は、量子力学の基礎に対する新しいアプローチとして議論されている。
基本的なモデルから、どんなオブザーバーの心も何らかの方法で制限されなければならないと結論づけられる: ある文脈では、彼は単に意思決定時に十分な変数を心に保持できない。
これはベルの定理の帰結であるが、より広い結果をもたらすようである。 The Bell experiment is discussed in the light of a new approach to the foundation of quantum mechanics. It is concluded from the basic model that the mind of any observer must be limited in some way: In certain contexts, he is simply not able to keep enough variables in his mind when making decisions. This has consequences for Bell's theorem, but it also seems to have wider consequences. | 翻訳日:2023-09-21 22:33:55 公開日:2023-09-20 |
# 工学設計と健康予測のための機械学習の不確実性定量化:チュートリアル Uncertainty Quantification in Machine Learning for Engineering Design and Health Prognostics: A Tutorial ( http://arxiv.org/abs/2305.04933v2 ) ライセンス: Link先を確認 | Venkat Nemani, Luca Biggio, Xun Huan, Zhen Hu, Olga Fink, Anh Tran, Yan Wang, Xiaoge Zhang, Chao Hu | (参考訳) 機械学習モデルに加えて、不確実性定量化(uq)は、健全なリスク評価と管理を可能にすることによって、より原則化された意思決定につながる安全保証の必須層として機能する。
UQによって強化されたMLモデルの安全性と信頼性の向上は、医療、製造、航空といった高い意思決定環境におけるMLソリューションの広範な採用を促進する可能性がある。
本チュートリアルでは,ニューラルネットワークに着目したMLモデルの新たなUQ手法と,工学的設計や予後,健康管理といった問題に対するこれらのUQ手法の適用について,総合的なレンズを提供することを目的とする。
この目標に向けて、我々は、MLモデルのUQに関連する不確実性タイプ、ソース、原因の包括的分類から始める。
次に、ガウス過程回帰法、ベイズニューラルネットワーク法、ニューラルネットワークアンサンブル法、およびスペクトル正規化ニューラルガウス過程に焦点をあてた決定論的uq法をチュートリアル形式で記述する。
数学的定式化に基づいて, これらのUQ手法の音質を定量的, 質的に検討し, その強度と欠点を異なる次元から検討した。
次に,分類問題と回帰問題における予測不確実性の質を評価するためによく用いられる定量的指標について検討する。
その後,工学設計と健康診断における課題解決におけるMLモデルのUQの役割について考察する。
ソースコードがgithubにある2つのケーススタディは、これらのuqメソッドの実証と、初期のリチウムイオン電池の寿命予測とターボファンエンジンの有用な寿命予測の比較に使用される。 On top of machine learning models, uncertainty quantification (UQ) functions as an essential layer of safety assurance that could lead to more principled decision making by enabling sound risk assessment and management. The safety and reliability improvement of ML models empowered by UQ has the potential to significantly facilitate the broad adoption of ML solutions in high-stakes decision settings, such as healthcare, manufacturing, and aviation, to name a few. In this tutorial, we aim to provide a holistic lens on emerging UQ methods for ML models with a particular focus on neural networks and the applications of these UQ methods in tackling engineering design as well as prognostics and health management problems. Toward this goal, we start with a comprehensive classification of uncertainty types, sources, and causes pertaining to UQ of ML models. Next, we provide a tutorial-style description of several state-of-the-art UQ methods: Gaussian process regression, Bayesian neural network, neural network ensemble, and deterministic UQ methods focusing on spectral-normalized neural Gaussian process. Established upon the mathematical formulations, we subsequently examine the soundness of these UQ methods quantitatively and qualitatively (by a toy regression example) to examine their strengths and shortcomings from different dimensions. Then, we review quantitative metrics commonly used to assess the quality of predictive uncertainty in classification and regression problems. Afterward, we discuss the increasingly important role of UQ of ML models in solving challenging problems in engineering design and health prognostics. Two case studies with source codes available on GitHub are used to demonstrate these UQ methods and compare their performance in the life prediction of lithium-ion batteries at the early stage and the remaining useful life prediction of turbofan engines. | 翻訳日:2023-09-21 22:33:49 公開日:2023-09-20 |
# 画像の脅威:ロボットマニピュレーションにおける深い政策学習のためのベイジアンシーン The Treachery of Images: Bayesian Scene Keypoints for Deep Policy Learning in Robotic Manipulation ( http://arxiv.org/abs/2305.04718v3 ) ライセンス: Link先を確認 | Jan Ole von Hartz, Eugenio Chisari, Tim Welschehold, Wolfram Burgard, Joschka Boedecker, Abhinav Valada | (参考訳) ロボット操作のための政策学習では、サンプル効率が最も重要である。
したがって、カメラ観察からよりコンパクトな表現を学習し抽出することは有望な道のりである。
しかし、現在の手法はシーンの完全な可観測性やスケールの不変性に悩まされることが多い。
多くのタスクや設定において、この仮定は、シーン内のオブジェクトがしばしばカメラの視野の外に隠されたり、横たわったりするため、その位置に関してカメラの観察が曖昧である。
この問題に対処するために,baksという,スケール不変なキーポイントを追跡するベイズ的手法を提案する。
本手法は画像内固有のあいまいさを解消し,対称オブジェクトとオクルード・オブ・ビューオブジェクトのキーポイント追跡を可能にする。
本手法は,手首カメラ観測から多目的ロボット操作の課題を学習し,他の表現学習技術と比較して,ポリシー学習の利点を示す。
さらに, 障害物, 閉塞, ノイズ深度測定などの乱れに対する顕著な頑健さと, シミュレーションと実世界のロボット実験の両方において目に見えない物体への一般化を示す。 In policy learning for robotic manipulation, sample efficiency is of paramount importance. Thus, learning and extracting more compact representations from camera observations is a promising avenue. However, current methods often assume full observability of the scene and struggle with scale invariance. In many tasks and settings, this assumption does not hold as objects in the scene are often occluded or lie outside the field of view of the camera, rendering the camera observation ambiguous with regard to their location. To tackle this problem, we present BASK, a Bayesian approach to tracking scale-invariant keypoints over time. Our approach successfully resolves inherent ambiguities in images, enabling keypoint tracking on symmetrical objects and occluded and out-of-view objects. We employ our method to learn challenging multi-object robot manipulation tasks from wrist camera observations and demonstrate superior utility for policy learning compared to other representation learning techniques. Furthermore, we show outstanding robustness towards disturbances such as clutter, occlusions, and noisy depth measurements, as well as generalization to unseen objects both in simulation and real-world robotic experiments. | 翻訳日:2023-09-21 22:33:19 公開日:2023-09-20 |
# 構造コネクトーム分類のためのマルチヘッドグラフ畳み込みネットワーク Multi-Head Graph Convolutional Network for Structural Connectome Classification ( http://arxiv.org/abs/2305.02199v2 ) ライセンス: Link先を確認 | Anees Kazi, Jocelyn Mora, Bruce Fischl, Adrian V. Dalca, and Iman Aganj | (参考訳) 拡散磁気共鳴画像から得られる脳の接続性に基づく分類に取り組む。
本稿では,複数の頭部を持つ並列gcn機構を用いて,脳接続入力グラフを別々に処理するグラフ畳み込みネットワーク(gcns)に触発された機械学習モデルを提案する。
提案するネットワークは,エッジとノードに着目したグラフ畳み込みを含む異なるヘッドを用いたシンプルな設計であり,入力データからの表現を徹底的にキャプチャする。
脳接続データから補完的特徴と代表的特徴を抽出する能力をテストするため,私たちは性分類の課題を選択した。
これは、コネクトームが性によって変化する程度を定量化し、両方の性における健康と病気の理解を改善するのに重要である。
公開データセットであるPreVENT-AD(347名)とOASIS3(771名)について実験を行った。
提案モデルでは,古典的手法や(グラフおよび非グラフ)深層学習を含む既存の機械学習アルゴリズムと比較して高い性能を示す。
モデルの各コンポーネントについて詳細な分析を行う。 We tackle classification based on brain connectivity derived from diffusion magnetic resonance images. We propose a machine-learning model inspired by graph convolutional networks (GCNs), which takes a brain connectivity input graph and processes the data separately through a parallel GCN mechanism with multiple heads. The proposed network is a simple design that employs different heads involving graph convolutions focused on edges and nodes, capturing representations from the input data thoroughly. To test the ability of our model to extract complementary and representative features from brain connectivity data, we chose the task of sex classification. This quantifies the degree to which the connectome varies depending on the sex, which is important for improving our understanding of health and disease in both sexes. We show experiments on two publicly available datasets: PREVENT-AD (347 subjects) and OASIS3 (771 subjects). The proposed model demonstrates the highest performance compared to the existing machine-learning algorithms we tested, including classical methods and (graph and non-graph) deep learning. We provide a detailed analysis of each component of our model. | 翻訳日:2023-09-21 22:32:37 公開日:2023-09-20 |
# DeepAqua:知識蒸留を用いたSAR画像による湿地表層水の自己監督セマンティックセマンティックセグメンテーション DeepAqua: Self-Supervised Semantic Segmentation of Wetland Surface Water Extent with SAR Images using Knowledge Distillation ( http://arxiv.org/abs/2305.01698v2 ) ライセンス: Link先を確認 | Francisco J. Pe\~na, Clara H\"ubinger, Amir H. Payberah, Fernando Jaramillo | (参考訳) ディープラーニングとリモートセンシング技術は、水監視能力を大幅に向上させたが、注釈付きデータの必要性は依然として課題である。
これは、水深が時間と空間によって変化し、同じ領域に対して複数のアノテーションを要求する湿地検出において特に問題となる。
本稿では,学習段階における手動アノテーションの必要性をなくすために,知識蒸留(すなわち教師・学生モデル)を活用した自己教師型ディープラーニングモデルdeepaquaを提案する。
本研究では,合成開口レーダ(sar)画像から水を切り離すための畳み込みニューラルネットワーク(cnn)を訓練するために教師モデルとしてndwi(正規化差分水指数)を活用し,学生モデルを訓練するために,光学面とレーダベースの水マスクが一致する場合を活用し,開放面と植物面の両方の検出を可能にする。
DeepAquaは、手動でアノテートされたデータなしでセマンティックセグメンテーションモデルを効果的に訓練することで、コンピュータビジョン技術の大幅な進歩を示している。
実験の結果、deepaquaは他の教師なしの手法よりも精度を7%向上させ、ユニオンを27%、f1スコアを14%向上させた。
本手法は,湿地水深変化を地上データを必要としない実用的なモニタリング手法であり,湿地保全に高度に適応可能でスケーラブルである。 Deep learning and remote sensing techniques have significantly advanced water monitoring abilities; however, the need for annotated data remains a challenge. This is particularly problematic in wetland detection, where water extent varies over time and space, demanding multiple annotations for the same area. In this paper, we present DeepAqua, a self-supervised deep learning model that leverages knowledge distillation (a.k.a. teacher-student model) to eliminate the need for manual annotations during the training phase. We utilize the Normalized Difference Water Index (NDWI) as a teacher model to train a Convolutional Neural Network (CNN) for segmenting water from Synthetic Aperture Radar (SAR) images, and to train the student model, we exploit cases where optical- and radar-based water masks coincide, enabling the detection of both open and vegetated water surfaces. DeepAqua represents a significant advancement in computer vision techniques by effectively training semantic segmentation models without any manually annotated data. Experimental results show that DeepAqua outperforms other unsupervised methods by improving accuracy by 7%, Intersection Over Union by 27%, and F1 score by 14%. This approach offers a practical solution for monitoring wetland water extent changes without needing ground truth data, making it highly adaptable and scalable for wetland conservation efforts. | 翻訳日:2023-09-21 22:31:58 公開日:2023-09-20 |
# 時間依存ユニタリ変換を用いた高速分散読み出しシミュレーションの効率的な数値解法 Efficient numerical approach for the simulations of high-power dispersive readout with time-dependent unitary transformation ( http://arxiv.org/abs/2305.00628v2 ) ライセンス: Link先を確認 | Shimpei Goto and Kazuki Koshino | (参考訳) 回路量子電磁力学における高出力分散読み出しをシミュレートする効率的な数値解法を開発した。
高出力読み出しの数値シミュレーションでは、キャビティ内で誘起される大振幅コヒーレント状態は、そのような状態を記述するために多くのフォック状態が必要となるため、障害となる。
本研究では,コヒーレント状態の振幅がほとんど存在しないフレーム内のダイナミクスをシミュレートし,数値シミュレーションから大振幅コヒーレント状態を除去する。
提案手法を用いて,2レベルシステムとトランスモンの高出力分散読み出しを数値シミュレーションする。
提案手法は,キャビティ周波数の光子数依存性から導出可能な高出力分散読み出しの合理的な振る舞いを導出することに成功した。 We develop an efficient numerical approach for simulating the high-power dispersive readout in circuit quantum electrodynamics. In the numerical simulations of the high-power readout, a large-amplitude coherent state induced in a cavity is an obstacle because many Fock states are required to describe such a state. We remove the large-amplitude coherent state from the numerical simulations by simulating the dynamics in a frame where the amplitude of the coherent state is almost absent. Using the developed method, we numerically simulate the high-power dispersive readout of the two-level system and the transmon. Our proposed method succeeds in producing reasonable behaviors of the high-power dispersive readout which can be deduced from the photon-number dependence of the cavity frequency: The high-power dispersive readout works in the two-level-system case while it does not work in the transmon case. | 翻訳日:2023-09-21 22:31:29 公開日:2023-09-20 |
# グラフデータアノテートのための統合アクティブラーニングフレームワークとソフトウェアソースコード性能予測への応用 A Unified Active Learning Framework for Annotating Graph Data with Application to Software Source Code Performance Prediction ( http://arxiv.org/abs/2304.13032v2 ) ライセンス: Link先を確認 | Peter Samoaa, Linus Aronsson, Antonio Longa, Philipp Leitner, Morteza Haghir Chehreghani | (参考訳) ソフトウェアシステムのパフォーマンスエンジニアリングを含む多くの機械学習およびデータ分析アプリケーションは、大量のアノテーションとラベル付きデータを必要とするが、事前には利用できない可能性がある。
アノテーションを取得するには、しばしばかなりの時間、労力、計算資源が必要であるため、難しい。
我々は,ソフトウェア性能予測を専門とする統合アクティブラーニングフレームワークを開発した。
まず、ソースコードを抽象構文木(ast)に解析し、データとフローエッジを制御することで拡張します。
次に、ソースコードのツリー表現をフロー拡張ASTグラフ(FA-AST)表現に変換する。
グラフ表現に基づいて、様々なグラフ埋め込み(教師なしおよび教師なし)を潜在空間に構築する。
このような埋め込みを前提として、回帰法や回帰に適したクエリ戦略を用いてアクティブな学習を行うことができるため、このフレームワークはタスクに依存しないものとなる。
このフレームワークでは、アクティブな学習や受動的学習、例えば部分的に利用可能なラベルやラベルのないテストデータに異なるレベルの情報を使用することが与える影響を調査します。
我々のアプローチは、ソースコードの構造に基づいて、異なるソフトウェアパフォーマンス予測(実行時間)のためのAIモデルへの投資を改善することを目的としている。
実世界の実験では、すべてのデータの小さなサブセットに対してラベルを問合せすることで、優れたパフォーマンスが達成できることがわかった。 Most machine learning and data analytics applications, including performance engineering in software systems, require a large number of annotations and labelled data, which might not be available in advance. Acquiring annotations often requires significant time, effort, and computational resources, making it challenging. We develop a unified active learning framework specializing in software performance prediction to address this task. We begin by parsing the source code to an Abstract Syntax Tree (AST) and augmenting it with data and control flow edges. Then, we convert the tree representation of the source code to a Flow Augmented-AST graph (FA-AST) representation. Based on the graph representation, we construct various graph embeddings (unsupervised and supervised) into a latent space. Given such an embedding, the framework becomes task agnostic since active learning can be performed using any regression method and query strategy suited for regression. Within this framework, we investigate the impact of using different levels of information for active and passive learning, e.g., partially available labels and unlabeled test data. Our approach aims to improve the investment in AI models for different software performance predictions (execution time) based on the structure of the source code. Our real-world experiments reveal that respectable performance can be achieved by querying labels for only a small subset of all the data. | 翻訳日:2023-09-21 22:31:11 公開日:2023-09-20 |
# 量子状態推定におけるモデル選択のための量子情報基準 Quantum information criteria for model selection in quantum state estimation ( http://arxiv.org/abs/2304.10949v2 ) ライセンス: Link先を確認 | Hiroshi Yano and Naoki Yamamoto | (参考訳) 量子状態推定(または状態トモグラフィー)は、量子情報処理において不可欠なタスクである。
密度行列のすべての要素を決定する完全状態トモグラフィーは計算的に要求されるので、通常、ある量子状態のモデルを仮定し、モデルパラメータを同定する戦略を取る。
しかし,量子状態に対する事前知識がほとんど与えられていないという正当な仮定を行うことは困難であり,量子状態推定には合理的なモデル選択法が必要である。
実際、古典統計推定理論では、いくつかの種類の情報基準が確立され、古典統計モデルを適切に選択するために広く用いられている。
本研究では,量子相対エントロピー(kullback-leibler divergence)を用いて定義される古典的情報量規準の自然量子類似性)を用いて,推定量子状態の品質を評価する量子情報基準を提案する。
特に、量子相対エントロピーのエスティメータの種類に応じて2つの量子情報基準を導出する。
情報基準の一般的な役割は、サンプルデータのみの機能であるにもかかわらず、未確認データに対する推定モデルの性能を予測することであり、提案した量子情報基準の一般化能力は数値シミュレーションで評価される。 Quantum state estimation (or state tomography) is an indispensable task in quantum information processing. Because full state tomography that determines all elements of the density matrix is computationally demanding, one usually takes the strategy of assuming a certain model of quantum states and identifying the model parameters. However, it is difficult to make a valid assumption given little prior knowledge on a quantum state of interest, and thus we need a reasonable model selection method for quantum state estimation. Actually, in the classical statistical estimation theory, several types of information criteria have been established and widely used in practice for appropriately choosing a classical statistical model. In this study, we propose quantum information criteria for evaluating the quality of the estimated quantum state in terms of the quantum relative entropy, which is a natural quantum analogue of the classical information criterion defined in terms of Kullback-Leibler divergence. In particular, we derive two quantum information criteria depending on the type of estimator for the quantum relative entropy; one uses the log-likelihood and the other uses the classical shadow. The general role of information criteria is to predict the performance of an estimated model for unseen data, although it is a function of only sampled data; this generalization capability of the proposed quantum information criteria is evaluated in numerical simulations. | 翻訳日:2023-09-21 22:30:50 公開日:2023-09-20 |
# Rydberg-atomicトランスデューサを用いた遠距離RF場センシング Distant RF field sensing with a passive Rydberg-atomic transducer ( http://arxiv.org/abs/2306.15215v2 ) ライセンス: Link先を確認 | J.S. Otto, M. Chilcott, A.B. Deb and N. Kj{\ae}rgaard | (参考訳) 我々は、ルビジウム蒸気セルとコーナーキューブプリズム反射器を組み合わせて受動RFトランスデューサを形成し、原子センシングに必要な活性成分から離れた場所でマイクロ波信号を検出する。
この小型トランスデューサは電気部品を持たず、電磁誘導透過シナリオを定めている1対の自由空間レーザービームにより、アクティブな基地局と光学的に接続される。
基地局で検出される光信号に、トランスデューサ位置のマイクロ波信号をインプリントする。
リモートスタンドアロントランスデューサユニットによるセンシングアーキテクチャは,現在注目されているRydberg-atomベースのセンシング技術に重要な柔軟性を提供する。
我々は、特に努力することなくsim 30mのリンクを実証し、トランスデューサと基地局の間のより広い分離を実現するための重要な将来展望を予見する。 We combine a rubidium vapor cell with a corner-cube prism reflector to form a passive RF transducer, allowing the detection of microwave signals at a location distant from the active components required for atomic sensing. This compact transducer} has no electrical components and is optically linked to an active base station by a pair of free-space laser beams that establish an electromagnetically induced transparency scenario. Microwave signals at the transducer location are imprinted onto an optical signal which is detected at the base station. Our sensing architecture with a remote standalone transducer unit adds important flexibility to Rydberg-atom based sensing technologies, which are currently subject to significant attention. We demonstrate a \sim 30 m link with no particular effort and foresee significant future prospects of achieving a much larger separation between the transducer and the base station. | 翻訳日:2023-09-21 20:39:18 公開日:2023-09-20 |
# 量子yang-mills理論 The quantum Yang-Mills theory ( http://arxiv.org/abs/2306.13663v2 ) ライセンス: Link先を確認 | Dimitrios Metaxas | (参考訳) 公理場の量子論において、真空の一意性(純粋な真空状態)の仮定は他の公理とは独立であり、クラスター分解特性と同値である。
しかし、後者は、成長する距離における相互作用のクーロンまたは湯川減衰を意味するので、強い相互作用の閉じ込め特性は考慮できない。
前述したyang-mills量子論の解は、ガウスの法則を組み込むために補助場を使い、摂動と閉じ込められた真空という2つの別々の真空状態の存在を証明している。
多重真空の存在は、実際には、補助場の固有空間への真空状態の分解を通じて、公理的、代数的量子場理論によって期待される。
一般的な真空状態は混合量子状態であり、クラスター分解特性は保持されない。
2つの真空の間のエネルギー密度差のため、強い相互作用の物理学はラグランジアンの記述を含まない。
本稿では, ヤン・ミルズ相互作用の以前の解法に関する上記の発言を明らかにし, いくつかの議論, 関連する数学的問題に対する批判, スピン2事件に関する仮のコメントで結論づける。 In axiomatic quantum field theory, the postulate of the uniqueness of the vacuum (a pure vacuum state) is independent of the other axioms and equivalent to the cluster decomposition property. The latter, however, implies a Coulomb or Yukawa attenuation of the interactions at growing distance, hence cannot accomodate the confining properties of the strong interaction. The solution of the Yang-Mills quantum theory given previously, uses an auxiliary field to incorporate Gauss's law, and demonstrates the existence of two separate vacua, the perturbative and the confining vacuum, therefore a mixed vacuum state, deriving confinement, as well as the related, expected properties of the strong interaction. The existence of multiple vacua is, in fact, expected by the axiomatic, algebraic quantum field theory, via the decomposition of the vacuum state to eigenspaces of the auxiliary field. The general vacuum state is a mixed quantum state and the cluster decomposition property does not hold. Because of the energy density difference between the two vacua, the physics of the strong interactions does not admit a Lagrangian description. I clarify the above remarks related to the previous solution of the Yang-Mills interaction, and conclude with some discussion, a criticism of a related mathematical problem, and some tentative comments regarding the spin-2 case. | 翻訳日:2023-09-21 20:39:04 公開日:2023-09-20 |
# PEAR: 階層的強化学習を促進するための原始的適応的リラベリング PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2306.06394v2 ) ライセンス: Link先を確認 | Utsav Singh, Vinay P Namboodiri | (参考訳) 階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
しかし、階層的エージェントは本質的に非定常性のために訓練が難しい。
提案手法は,まず数種類の専門家による適応型レザベリングを行い,効率的なサブゴナル・インスペクションを生成するための2段階の手法であるプリミティブ・アダプティブ・アダプティブ・レザベリング(PEAR)を提案し,その後,強化学習(RL)と模倣学習(IL)を用いてHRLエージェントを協調的に最適化する。
理論的な分析を $ にします
(i)$ アプローチのサブ最適性にバインドし、$
(ii)RLとILを用いた共同最適化のための汎用的なプラグアンドプレイフレームワークを導出する。
PEARはいくつかの専門家によるデモンストレーションを使用し、タスク構造に対する最小限の仮定を行う。
さらに、実用的なHRLアルゴリズムを生成するために、典型的なモデルフリーなRLアルゴリズムと容易に統合できる。
我々は,ロボット環境に挑戦する実験を行い,pearが長期的意思決定を必要とする課題を解決できることを示す。
PEARは従来の階層的アプローチや非階層的アプローチよりも性能とサンプル効率が向上していることを実証的に示す。
また、複雑なタスクで現実世界のロボット実験を行い、PEARがベースラインを一貫して上回っていることを示す。 Hierarchical reinforcement learning (HRL) has the potential to solve complex long horizon tasks using temporal abstraction and increased exploration. However, hierarchical agents are difficult to train due to inherent non-stationarity. We present primitive enabled adaptive relabeling (PEAR), a two-phase approach where we first perform adaptive relabeling on a few expert demonstrations to generate efficient subgoal supervision, and then jointly optimize HRL agents by employing reinforcement learning (RL) and imitation learning (IL). We perform theoretical analysis to $(i)$ bound the sub-optimality of our approach, and $(ii)$ derive a generalized plug-and-play framework for joint optimization using RL and IL. PEAR uses a handful of expert demonstrations and makes minimal limiting assumptions on the task structure. Additionally, it can be easily integrated with typical model free RL algorithms to produce a practical HRL algorithm. We perform experiments on challenging robotic environments and show that PEAR is able to solve tasks that require long term decision making. We empirically show that PEAR exhibits improved performance and sample efficiency over previous hierarchical and non-hierarchical approaches. We also perform real world robotic experiments on complex tasks and demonstrate that PEAR consistently outperforms the baselines. | 翻訳日:2023-09-21 20:38:20 公開日:2023-09-20 |
# 説明可能な科学文献レコメンデーションシステムにおける詳細条件付き対話的説明 Interactive Explanation with Varying Level of Details in an Explainable Scientific Literature Recommender System ( http://arxiv.org/abs/2306.05809v2 ) ライセンス: Link先を確認 | Mouadh Guesmi and Mohamed Amine Chatti and Shoeb Joarder and Qurat Ul Ain and Rawaa Alatrash and Clara Siepmann and Tannaz Vahidi | (参考訳) 説明可能なレコメンデータシステム(RS)は従来,個々のニーズや目標を考慮せずに,ユーザ毎に同じ説明レベルの詳細を提供する,ワンサイズなアプローチを採用してきました。
さらに、RSにおける説明は、主に静的で非インタラクティブな方法で提示されている。
これらの研究ギャップを埋めるために、我々は、ユーザ中心のインタラクティブな説明モデルを導入し、様々な詳細レベルの説明を提供し、ユーザがニーズや好みに基づいて説明を対話し、制御し、パーソナライズできるようにする。
3段階のディテール(基本、中間、上級)によるインタラクティブな説明を設計するためのユーザ中心のアプローチに従って、透過的レコメンデーションおよび関心モデリングアプリケーション(rima)に実装しました。
筆者らは,対話的説明の提供がユーザによる説明可能なRSの知覚に与える影響について,定性的なユーザスタディ (N=14) を行った。
本研究は,対話を育み,どのような説明を見たいかを決める上でユーザがコントロールできることが,異なるニーズ,好み,目標を持つユーザの要求に合致し,その結果,透明性,信頼,満足度,ユーザエクスペリエンスなど,説明可能なレコメンデーションのさまざまな重要な側面に肯定的な影響を与えるという質的証拠を示した。 Explainable recommender systems (RS) have traditionally followed a one-size-fits-all approach, delivering the same explanation level of detail to each user, without considering their individual needs and goals. Further, explanations in RS have so far been presented mostly in a static and non-interactive manner. To fill these research gaps, we aim in this paper to adopt a user-centered, interactive explanation model that provides explanations with different levels of detail and empowers users to interact with, control, and personalize the explanations based on their needs and preferences. We followed a user-centered approach to design interactive explanations with three levels of detail (basic, intermediate, and advanced) and implemented them in the transparent Recommendation and Interest Modeling Application (RIMA). We conducted a qualitative user study (N=14) to investigate the impact of providing interactive explanations with varying level of details on the users' perception of the explainable RS. Our study showed qualitative evidence that fostering interaction and giving users control in deciding which explanation they would like to see can meet the demands of users with different needs, preferences, and goals, and consequently can have positive effects on different crucial aspects in explainable recommendation, including transparency, trust, satisfaction, and user experience. | 翻訳日:2023-09-21 20:37:51 公開日:2023-09-20 |
# 適応的勾配に基づく外乱除去による雑音ラベルの学習 Learning with Noisy Labels by Adaptive Gradient-Based Outlier Removal ( http://arxiv.org/abs/2306.04502v3 ) ライセンス: Link先を確認 | Anastasiia Sedova, Lena Zellinger, Benjamin Roth | (参考訳) 正確で実質的なデータセットは、信頼性とパフォーマンスのよいモデルのトレーニングに不可欠です。
しかし、手動でアノテートされたデータセットでさえラベルエラーを含んでいる。
従来、ラベルのデノイジングの方法は、主に、データセットのオーバーフィルタやアンダーフィルタのプロセスである、異常値の検出と永続的な削除に重点を置いてきた。
本稿では,Adaptive GRAdient-based outlier removal を用いて,雑音ラベルを用いた新しい学習法 AGRAを提案する。
モデルトレーニングの前にデータセットをクリーニングする代わりに、トレーニングプロセス中にデータセットを動的に調整する。
サンプルのバッチの集約勾配と個々のサンプル勾配を比較することで、この時点で対応するサンプルがモデルに有用か、あるいは非生産的かを動的に決定し、現在の更新のために残すべきである。
いくつかのデータセットに対する広範囲な評価はAGRAの有効性を示しているが、包括的な結果分析は私たちの最初の仮説を支持している。 An accurate and substantial dataset is essential for training a reliable and well-performing model. However, even manually annotated datasets contain label errors, not to mention automatically labeled ones. Previous methods for label denoising have primarily focused on detecting outliers and their permanent removal - a process that is likely to over- or underfilter the dataset. In this work, we propose AGRA: a new method for learning with noisy labels by using Adaptive GRAdient-based outlier removal. Instead of cleaning the dataset prior to model training, the dataset is dynamically adjusted during the training process. By comparing the aggregated gradient of a batch of samples and an individual example gradient, our method dynamically decides whether a corresponding example is helpful for the model at this point or is counter-productive and should be left out for the current update. Extensive evaluation on several datasets demonstrates AGRA's effectiveness, while a comprehensive results analysis supports our initial hypothesis: permanent hard outlier removal is not always what model benefits the most from. | 翻訳日:2023-09-21 20:37:25 公開日:2023-09-20 |
# LESS: 細胞学的全スライド画像スクリーニングのためのラベル効率・マルチスケール学習 LESS: Label-efficient Multi-scale Learning for Cytological Whole Slide Image Screening ( http://arxiv.org/abs/2306.03407v2 ) ライセンス: Link先を確認 | Beidi Zhao, Wenlong Deng, Zi Han (Henry) Li, Chen Zhou, Zuhua Gao, Gang Wang and Xiaoxiao Li | (参考訳) 計算病理学において、多重インスタンス学習(MIL)は、ギガピクセル全体のスライド画像(WSI)解析における計算障害を回避するために広く用いられている。
通常は、パッチレベルの特徴抽出とスライドレベルのアグリゲーションの2つのステージで構成される。
近年,プリトレーニングモデルや自己教師付き学習がパッチの特徴抽出に用いられてきたが,スライドラベルによるタスク固有の監督を軽視するなど,効果や非効率性が低下している。
本稿では,スライドレベルラベルのみを用いた細胞学的WSI解析において,LESSと呼ばれるラベル効率の高いWSIスクリーニング手法を提案する。
まず,vpu( variational positive-unlabeled)学習を用いて良性および悪性のパッチの隠れたラベルを明らかにすることを提案する。
スライドレベルのラベルを用いて適切な監視を行い、パッチレベルの特徴の学習を改善する。
次に、細胞学的WSIにおける細胞のスパース配列とランダム配列を考慮する。
そこで我々は,複数のスケールでパッチを収穫する戦略を提案し,WSI分類のための異なるスケールの情報を組み合わせるためにクロスアテンション・ビジョン・トランスフォーマ (CrossViT) を利用する。
私たちの2つのステップの組み合わせはタスクアライメントを実現し、効率と効率を改善します。
提案手法は,130サンプル(13,000パッチ)と212サンプル(21,200パッチ)のFNAC 2019データセットを含む尿細胞診WSIデータセットに対して検証した。
この実験は、提案されたLESSが尿細胞診WSIデータセットで84.79%、85.43%、91.79%、78.30%、96.88%、96.86%、98.95%、97.06%に達することを示した。
病理wsisにおける最先端のmil法を上回り、細胞学的wsiがん検診の自動化を実現する。 In computational pathology, multiple instance learning (MIL) is widely used to circumvent the computational impasse in giga-pixel whole slide image (WSI) analysis. It usually consists of two stages: patch-level feature extraction and slide-level aggregation. Recently, pretrained models or self-supervised learning have been used to extract patch features, but they suffer from low effectiveness or inefficiency due to overlooking the task-specific supervision provided by slide labels. Here we propose a weakly-supervised Label-Efficient WSI Screening method, dubbed LESS, for cytological WSI analysis with only slide-level labels, which can be effectively applied to small datasets. First, we suggest using variational positive-unlabeled (VPU) learning to uncover hidden labels of both benign and malignant patches. We provide appropriate supervision by using slide-level labels to improve the learning of patch-level features. Next, we take into account the sparse and random arrangement of cells in cytological WSIs. To address this, we propose a strategy to crop patches at multiple scales and utilize a cross-attention vision transformer (CrossViT) to combine information from different scales for WSI classification. The combination of our two steps achieves task-alignment, improving effectiveness and efficiency. We validate the proposed label-efficient method on a urine cytology WSI dataset encompassing 130 samples (13,000 patches) and FNAC 2019 dataset with 212 samples (21,200 patches). The experiment shows that the proposed LESS reaches 84.79%, 85.43%, 91.79% and 78.30% on a urine cytology WSI dataset, and 96.88%, 96.86%, 98.95%, 97.06% on FNAC 2019 dataset in terms of accuracy, AUC, sensitivity and specificity. It outperforms state-of-the-art MIL methods on pathology WSIs and realizes automatic cytological WSI cancer screening. | 翻訳日:2023-09-21 20:37:10 公開日:2023-09-20 |
# 駆動型CFTの量子情報幾何学 Quantum information geometry of driven CFTs ( http://arxiv.org/abs/2306.00099v2 ) ライセンス: Link先を確認 | Jan de Boer, Victor Godet, Jani Kastikainen, Esko Keski-Vakkuri | (参考訳) 駆動型量子システムは、様々な興味深い、時にはエキゾチックな現象を示す。
特に興味を持つのは、臨界における量子多体系を記述する共形場理論(CFT)である。
本稿では,2次元CFT上での時空と量子情報幾何学的視点の両方を開発する。
広い種類の駆動プロトコルに対して、理論は時依存距離を持つ時空上で定義されたCFTという観点で、代替だが等価な定式化を認める。
この同値性は作用素の定式化においても理論の経路積分記述においても証明する。
駆動2次元CFTに対する補的量子情報幾何学的視点は、ボゴリューボフ・クボ・モリ計量(Bogoliubov-Kubo-Mori、BKM)と呼ばれる古典情報理論のフィッシャー計量(Fisher metric of classical information theory)に匹敵する計量を用いており、相対エントロピーの摂動膨張から得られる。
熱状態のビラゾロ励起の普遍的セクタに対するbkmメトリックを計算し,多種多様な駆動プロトコルをキャプチャし,異なる種類の運転を分類・特徴付けするための有用なツールであることを示す。
SL(2,R) の部分群で運転する M に対して、BKM 計量は単位円板上の双曲計量となる。
Floquet を駆動する CFT の非自明なダイナミクスが、M\"obius 変換を介して BKM 幾何学にエンコードされていることを示す。
これにより、運転中のエルゴード的および非エルゴード的体制を特定できる。
また、ホログラフィック駆動のcftは、地平線が進化するbtzブラックホールと双対であることも説明できる。
漸近境界から遠ざかるブラックホールの地平線の変形は、フロケットCFTにおける加熱と冷却のホログラフィック的理解をもたらす。 Driven quantum systems exhibit a large variety of interesting and sometimes exotic phenomena. Of particular interest are driven conformal field theories (CFTs) which describe quantum many-body systems at criticality. In this paper, we develop both a spacetime and a quantum information geometry perspective on driven 2d CFTs. We show that for a large class of driving protocols the theories admit an alternative but equivalent formulation in terms of a CFT defined on a spacetime with a time-dependent metric. We prove this equivalence both in the operator formulation as well as in the path integral description of the theory. A complementary quantum information geometric perspective for driven 2d CFTs employs the so-called Bogoliubov-Kubo-Mori (BKM) metric, which is the counterpart of the Fisher metric of classical information theory, and which is obtained from a perturbative expansion of relative entropy. We compute the BKM metric for the universal sector of Virasoro excitations of a thermal state, which captures a large class of driving protocols, and find it to be a useful tool to classify and characterize different types of driving. For M\"obius driving by the SL(2,R) subgroup, the BKM metric becomes the hyperbolic metric on the unit disk. We show how the non-trivial dynamics of Floquet driven CFTs is encoded in the BKM geometry via M\"obius transformations. This allows us to identify ergodic and non-ergodic regimes in the driving. We also explain how holographic driven CFTs are dual to driven BTZ black holes with evolving horizons. The deformation of the black hole horizon towards and away from the asymptotic boundary provides a holographic understanding of heating and cooling in Floquet CFTs. | 翻訳日:2023-09-21 20:36:30 公開日:2023-09-20 |
# 熱平衡外におけるグラフェン系構造間のカシミール・リフシッツ力 Casimir-Lifshitz force between graphene-based structures out of thermal equilibrium ( http://arxiv.org/abs/2305.18946v3 ) ライセンス: Link先を確認 | Youssef Jeyar, Kevin Austry, Minggang Luo, Brahim Guizal, H. B. Chan, Mauro Antezza | (参考訳) グラフェン系並列構造間の非平衡カシミール・リフシッツ力について, 温度差および第3温度の外部熱浴の存在下で検討した。
グラフェンの伝導度は温度と化学的ポテンシャルの関数であり、カシミール・リフシッツ力のその場で調整することができる。
グラフェン化学ポテンシャルの異なる値を考慮して, 異なる非平衡配置を探索する。
特に興味深い事例として、熱平衡下での挙動とは対照的に、力は魅力的な状態から反発的な状態に変化するか、あるいは化学ポテンシャルの変化に対して非単調な状態になる可能性がある。 We study the non equilibrium Casimir-Lifshitz force between graphene-based parallel structures held at different temperatures and in presence of an external thermal bath at a third temperature. The graphene conductivity, which is itself a function of temperature, as well as of chemical potential, allows us to tune in situ the Casimir-Lifshitz force. We explore different non equilibrium configurations while considering different values of the graphene chemical potential. Particularly interesting cases are investigated, where the force can change sign going from attractive to repulsive or where the force becomes non monotonic with respect to chemical potential variations, contrary to the behaviour under thermal equilibrium. | 翻訳日:2023-09-21 20:36:02 公開日:2023-09-20 |
# 局部遠隔遠隔操作における深部強化学習を用いた適応型PD制御 Adaptive PD Control using Deep Reinforcement Learning for Local-Remote Teleoperation with Stochastic Time Delays ( http://arxiv.org/abs/2305.16979v2 ) ライセンス: Link先を確認 | Luc McCutcheon and Saber Fallah | (参考訳) ローカルリモートシステムにより、ロボットは宇宙や原子力発電所のような危険な環境で複雑なタスクを実行できる。
しかし、システム性能と安定性を損なうような時間遅延のため、ローカルデバイスとリモートデバイス間の正確な位置マッピングを確立することは困難である。
ローカルリモートシステムの同期性と安定性の強化は、ロボットがより遠く、時間遅延を含む非常に困難なネットワーク条件下で環境と対話できるようにするのに不可欠である。
時間遅れ制御問題に対処するために,強化学習を用いた適応制御手法を提案する。
制御パラメータをリアルタイムで調整することにより、確率的遅延を補償し、局所ロボットマニピュレータと遠隔ロボットマニピュレータの同期性を改善する。
適応型PDコントローラの性能を向上させるため,多段階遅延を効果的に学習フレームワークに組み込むモデルベース強化学習手法を考案した。
提案手法を用いることで,最大290msの確率的通信遅延に対して局部遠隔システムの性能を安定化する。
提案手法は,ソフトアクター批判法と拡張状態のソフトアクター批判法を超越したモデルベース強化学習法を示す。
https://github.com/cav-research-lab/predictive-model-delay-correction コードにアクセスする。 Local-remote systems allow robots to execute complex tasks in hazardous environments such as space and nuclear power stations. However, establishing accurate positional mapping between local and remote devices can be difficult due to time delays that can compromise system performance and stability. Enhancing the synchronicity and stability of local-remote systems is vital for enabling robots to interact with environments at greater distances and under highly challenging network conditions, including time delays. We introduce an adaptive control method employing reinforcement learning to tackle the time-delayed control problem. By adjusting controller parameters in real-time, this adaptive controller compensates for stochastic delays and improves synchronicity between local and remote robotic manipulators. To improve the adaptive PD controller's performance, we devise a model-based reinforcement learning approach that effectively incorporates multi-step delays into the learning framework. Utilizing this proposed technique, the local-remote system's performance is stabilized for stochastic communication time-delays of up to 290ms. Our results demonstrate that the suggested model-based reinforcement learning method surpasses the Soft-Actor Critic and augmented state Soft-Actor Critic techniques. Access the code at: https://github.com/CAV-Research-Lab/Predictive-Model-Delay-Correction | 翻訳日:2023-09-21 20:35:48 公開日:2023-09-20 |
# 低リソース言語における文書接地対話システムのための言語間データ拡張 Cross-lingual Data Augmentation for Document-grounded Dialog Systems in Low Resource Languages ( http://arxiv.org/abs/2305.14949v2 ) ライセンス: Link先を確認 | Qi Gou, Zehua Xia, Wenzhe Du | (参考訳) 本稿では,DGDS(Document-Grounded Dialogue Systems)におけるデータ不足問題に対処する枠組みを提案する。
我々のモデルは、低リソース言語における対話生成能力を高めるために、高リソース言語を活用している。
具体的には,新たなパイプラインclem(cross-lingual enhanced model)として,逆訓練検索(retriever and re-ranker)とfid(fusion-in-decoder)ジェネレータを提案する。
また,高リソース言語をさらに活用するために,様々な言語にまたがって翻訳訓練を行うための革新的なアーキテクチャを提案する。
広範な実験結果から,本モデルの有効性を実証し,dialdoc 2023コンペティションで4位となった。
したがって、CLEMはDGDSの資源不足に対する解決策として機能し、多言語アライメントタスクに有用なガイダンスを提供する。 This paper proposes a framework to address the issue of data scarcity in Document-Grounded Dialogue Systems(DGDS). Our model leverages high-resource languages to enhance the capability of dialogue generation in low-resource languages. Specifically, We present a novel pipeline CLEM (Cross-Lingual Enhanced Model) including adversarial training retrieval (Retriever and Re-ranker), and Fid (fusion-in-decoder) generator. To further leverage high-resource language, we also propose an innovative architecture to conduct alignment across different languages with translated training. Extensive experiment results demonstrate the effectiveness of our model and we achieved 4th place in the DialDoc 2023 Competition. Therefore, CLEM can serve as a solution to resource scarcity in DGDS and provide useful guidance for multi-lingual alignment tasks. | 翻訳日:2023-09-21 20:35:24 公開日:2023-09-20 |
# 量子一階遷移におけるラウンドトリッププロトコル中に生じる平衡外スケーリング挙動 Out-of-equilibrium scaling behavior arising during round-trip protocols across a quantum first-order transition ( http://arxiv.org/abs/2305.12993v2 ) ライセンス: Link先を確認 | Francesco Tarantelli and Stefano Scopa | (参考訳) 量子一階遷移をゆっくりと駆動するラウンドトリッププロトコルにおける量子スピン鎖の非平衡ダイナミクスについて検討する。
単一パスプロトコルの1次遷移における平衡外スケーリング挙動 \`a la Kibble-Zurek は以前決定された。
ここで、そのようなスケーリング関係は、駆動プロトコルが反転し、遷移が再び平衡状態から遠ざかるときも持続することを示す。
この結果、スケーリング関数の準ユニバーシティが得られ、逆時間におけるプロトコルの詳細への依存がある程度維持される。
このような準ユニバーサルなスケーリング関数は、遷移に近い多体系の効果的な2レベル記述を用いて明確に決定する。
本稿では,この近似の有効性と観測されたスケーリング手法との関係について考察する。
本研究は汎用システムに適用するが, 強磁性系における1D$逆場イジングモデルの原型的例に着目し, 時間依存の長手場を通して一階遷移を駆動する。 We investigate the nonequilibrium dynamics of quantum spin chains during a round-trip protocol that slowly drives the system across a quantum first-order transition. Out-of-equilibrium scaling behaviors \`a la Kibble-Zurek for the single-passage protocol across the first-order transition have been previously determined. Here, we show that such scaling relations persist when the driving protocol is inverted and the transition is approached again by a far-from-equilibrium state. This results in a quasi-universality of the scaling functions, which keep some dependence on the details of the protocol at the inversion time. We explicitly determine such quasi-universal scaling functions by employing an effective two-level description of the many-body system near the transition. We discuss the validity of this approximation and how this relates to the observed scaling regime. Although our results apply to generic systems, we focus on the prototypical example of a $1D$ transverse field Ising model in the ferromagnetic regime, which we drive across the first-order transitions through a time-dependent longitudinal field. | 翻訳日:2023-09-21 20:35:06 公開日:2023-09-20 |
# 連続対称性を持つ新しい畳み込みニューラルネットワークアーキテクチャ A Novel Convolutional Neural Network Architecture with a Continuous Symmetry ( http://arxiv.org/abs/2308.01621v3 ) ライセンス: Link先を確認 | Yao Liu, Hang Shao, Bing Bai | (参考訳) 本稿では,準線形双曲型システムと呼ばれる偏微分方程式(pdes)のクラスに触発された新しい畳み込みニューラルネットワーク(convnet)アーキテクチャを提案する。
画像分類タスクで同等の性能を持つので、連続した対称性の群を通して重みを修正できる。
これは、アーキテクチャと重みが本質的に固定された従来のモデルから大きく変わります。
我々は、ニューラルネットワークの新たな望ましい特性として(内部)対称性を推進し、より広範なDeep LearningコミュニティにおけるConvNetの分析と解釈におけるPDE視点に注意を向けたい。 This paper introduces a new Convolutional Neural Network (ConvNet) architecture inspired by a class of partial differential equations (PDEs) called quasi-linear hyperbolic systems. With comparable performance on the image classification task, it allows for the modification of the weights via a continuous group of symmetry. This is a significant shift from traditional models where the architecture and weights are essentially fixed. We wish to promote the (internal) symmetry as a new desirable property for a neural network, and to draw attention to the PDE perspective in analyzing and interpreting ConvNets in the broader Deep Learning community. | 翻訳日:2023-09-21 18:46:23 公開日:2023-09-20 |
# 結晶性固体中のトポロジカル電子バンド Topological electronic bands in crystalline solids ( http://arxiv.org/abs/2307.16258v2 ) ライセンス: Link先を確認 | Andrew T. Boothroyd | (参考訳) 現在、トポロジーは結晶性固体の電子状態の探索と分類の手段として確立されている。
このレビューは、この分野の新しい研究者に適したトポロジカル電子バンド構造について、穏やかだがしっかりと紹介するものである。
まず、トポロジーから関連する概念を概説し、次に周期ポテンシャルにおける非相互作用電子の理論を概説する。
次にベリー相とベリー曲率の概念を説明し、キー公式を導出する。
論文の残りの部分は、電子状態のトポロジーと観測可能な性質の意義に基づいて結晶性固体を分類するためにこれらのアイデアがどのように適用されるかを扱う。
対象とするトピックには、運動量空間におけるバンド退化の決定における対称性の役割、チャーン数とZ2位相不変量、表面電子状態、二次元および三次元位相絶縁体、ワイルおよびディラック半金属などがある。 Topology is now securely established as a means to explore and classify electronic states in crystalline solids. This review provides a gentle but firm introduction to topological electronic band structure suitable for new researchers in the field. I begin by outlining the relevant concepts from topology, then give a summary of the theory of non-interacting electrons in periodic potentials. Next, I explain the concepts of the Berry phase and Berry curvature, and derive key formulae. The remainder of the article deals with how these ideas are applied to classify crystalline solids according to the topology of the electronic states, and the implications for observable properties. Among the topics covered are the role of symmetry in determining band degeneracies in momentum space, the Chern number and Z2 topological invariants, surface electronic states, two- and three-dimensional topological insulators, and Weyl and Dirac semimetals | 翻訳日:2023-09-21 18:46:13 公開日:2023-09-20 |
# ワンショット画像誘導による一般画像変換 General Image-to-Image Translation with One-Shot Image Guidance ( http://arxiv.org/abs/2307.14352v3 ) ライセンス: Link先を確認 | Bin Cheng, Zuhao Liu, Yunbo Peng, Yue Lin | (参考訳) 大規模テキスト・画像ペアで事前学習した大規模テキスト・画像モデルは最近画像合成において優れた性能を示している。
しかし、画像はプレーンテキストよりも直感的な視覚概念を提供することができる。
望みの視覚概念を既存のイメージ、例えば肖像画に統合するにはどうすればいいのか?
現在の方法は、コンテンツを保存したり、視覚概念を効果的に翻訳する能力が欠けているため、この要求を満たすには不十分である。
そこで本研究では,画像中のコンテンツを保存し,単一の参照画像でガイドされる視覚概念を翻訳する機能を備えた,視覚概念トランスレータ(VCT)という新しいフレームワークを提案する。
提案するVCTは、内容と概念を抽出する内容概念反転(CCI)プロセスと、抽出した情報を収集して対象画像を得る内容概念融合(CCF)プロセスとを含む。
1つの参照画像のみを与えられた場合、提案するvctは、優れた結果を得て、幅広い一般的な画像から画像への翻訳タスクを完了することができる。
提案手法の優越性と有効性を証明するため,広範な実験を行った。
コードはhttps://github.com/crystalneuro/visual-concept-translatorで入手できる。 Large-scale text-to-image models pre-trained on massive text-image pairs show excellent performance in image synthesis recently. However, image can provide more intuitive visual concepts than plain text. People may ask: how can we integrate the desired visual concept into an existing image, such as our portrait? Current methods are inadequate in meeting this demand as they lack the ability to preserve content or translate visual concepts effectively. Inspired by this, we propose a novel framework named visual concept translator (VCT) with the ability to preserve content in the source image and translate the visual concepts guided by a single reference image. The proposed VCT contains a content-concept inversion (CCI) process to extract contents and concepts, and a content-concept fusion (CCF) process to gather the extracted information to obtain the target image. Given only one reference image, the proposed VCT can complete a wide range of general image-to-image translation tasks with excellent results. Extensive experiments are conducted to prove the superiority and effectiveness of the proposed methods. Codes are available at https://github.com/CrystalNeuro/visual-concept-translator. | 翻訳日:2023-09-21 18:45:59 公開日:2023-09-20 |
# 感情刺激の理解と拡張が可能な大規模言語モデル Large Language Models Understand and Can be Enhanced by Emotional Stimuli ( http://arxiv.org/abs/2307.11760v4 ) ライセンス: Link先を確認 | Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie | (参考訳) 感情の知性は日々の行動や相互作用に大きな影響を与えます。
大規模言語モデル(LLM)は、人工知能への取り組みとして、多くのタスクにおいて顕著なパフォーマンスを示すが、LLMが心的感情的な刺激を真に把握できるかどうかは不明である。
感情的な手がかりを理解して反応することは、問題解決において人間に明確な利点を与える。
本稿では,感情刺激を理解するためのllmの能力を探るための第一歩を踏み出す。
そこで我々はまず,Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 など,45のタスクを対象とした自動実験を行った。
我々のタスクは、包括的な評価シナリオを表す決定論的および生成的アプリケーションにまたがる。
私たちの自動実験では、llmは感情的知能を把握でき、そのパフォーマンスは感情的プロンプト(感情的プロンプトと感情的刺激を組み合わせたemotionprompt)によって改善できることが示されています。
既存の測定値を用いて自動的に評価できる決定論的タスクに加えて,106人の被験者を対象に,バニラと情緒の両方を用いて生成タスクの質を評価する。
人間の研究結果は、emotionpromptが生成的タスクのパフォーマンスを著しく向上させることを示している(パフォーマンス、真理、責任の指標の観点から平均10.9%改善)。
emotionpromptがllmで機能する理由と,そのパフォーマンスに影響する要因について,詳細な議論を行う。
我々は、EmotionPromptが人間とLLMの相互作用に関する学際的知識を探求するための新しい道筋であると仮定する。 Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction. | 翻訳日:2023-09-21 18:45:36 公開日:2023-09-20 |
# 状態判別による標準量子理論の導出 Derivation of Standard Quantum Theory via State Discrimination ( http://arxiv.org/abs/2307.11271v2 ) ライセンス: Link先を確認 | Hayato Arai and Masahito Hayashi | (参考訳) 一般的なモデルから標準量子論のモデルを操作条件で特徴付けることは重要な問題である。
GPT(General Probabilistic Theories)の枠組みは、標準量子論を単一化するための新しい情報理論のアプローチである。
従来の性質、例えばベル-CHSHの不等式は、GPTの可能なモデルの中で標準量子論を選別するのに十分ではないことが知られている。
より正確な特性として、一般的なモデルにおける状態識別と呼ばれる情報タスクのパフォーマンスの限界に焦点を当てる。
我々は、標準量子論の下で最小判別誤差確率を上回る等価条件を与え、これはトレースノルムによって与えられる。
さらに、等価条件を適用することにより、条件下での一般モデルのクラスから標準量子理論を導出する。 It is a key issue to characterize the model of standard quantum theory out of general models by an operational condition. The framework of General Probabilistic Theories (GPTs) is a new information theoretical approach to single out standard quantum theory. It is known that traditional properties, for example, Bell-CHSH inequality are not sufficient to single out standard quantum theory among possible models in GPTs. As a more precise property, we focus on the bound of the performance for an information task called state discrimination in general models. We give an equivalent condition for outperforming the minimum discrimination error probability under the standard quantum theory, which is given by the trace norm. Besides, by applying the equivalent condition, we derive standard quantum theory out of classes of general models under a condition. | 翻訳日:2023-09-21 18:45:01 公開日:2023-09-20 |
# 知的取引確率波方程式に基づく複雑適応学習の一理論 A Theory of Complex Adaptive Learning Based on a Subject's Intelligent Trading Probability Wave Equation ( http://arxiv.org/abs/2306.15554v7 ) ライセンス: Link先を確認 | Leilei Shi, Bing-Hong Wang, Xinshuai Guo, Guocheng Wang | (参考訳) 複雑な適応学習は知的です。
適応的で、フィードバックループで学び、多くの個人、要素、粒子が複雑な適応システム(CAS)で相互作用するように隠れたパターンを生成する。
生命と無生物の複雑な系において不確実かつ不可欠である。
著者らはCASにおける確率波による不確実性を定量化し、金融市場の知的取引量-価格確率波方程式から複素適応学習の普遍的な法則を抽出し、この法則に従う複素量子系に適用し、約1世紀にわたって議論された量子エンタングルメントの革新的な2世界解釈を持つ。
粒子は相互作用的コヒーレンスにおいて知能的性質を持ち、複雑な適応量子系において累積量や体積が運動量を表す場合ニュートンの法則に違反する。
量子絡み合いは、2つのコヒーレントな状態の重なりではなく、コペンハーゲンの主観的解釈である。
これは2つの反対の適応力と相補力の相互作用におけるコヒーレントな状態である。
2つのインテリジェントなパワーは相互作用の不変性を保持し、二部共役複素適応量子系における2つの反対の性質と相互作用的にコヒーレントな絡み合いを生成する。
キーワード:複雑適応システム、複雑適応学習、インテリジェンス様粒子、二世界解釈、対話的コヒーレントな絡み合いPACS:89.75.k(複雑系)、89.65.Gh(経済・経済・経済・金融市場・経営・経営)03.65.Ud(絡み合いと量子非局所性) Complex adaptive learning is intelligent. It is adaptive, learns in feedback loops, and generates hidden patterns as many individuals, elements or particles interact in complex adaptive systems (CASs). It is uncertain and crucial in life and inanimate complex systems. Quantifying the uncertainty by probability waves in CASs, the authors attempt to extract a universal law of complex adaptive learning from a subject's intelligent trading volume-price probability wave equation in the financial markets, apply it to inanimate complex quantum systems that obey the law and have an innovative two-worlds interpretation of the quantum entanglement debated for nearly a century. It says particles possess an intelligence-like property in interactive coherence and violate Newton's laws if cumulative quantity or volume in a time interval represents momentum in complex adaptive quantum systems. It concludes that quantum entanglement is not a superposition of two coherent states as mainstream Copenhagen interprets. It is a coherent state in interaction between two opposite, adaptive, and complementary forces. The two intelligent powers keep an invariance of interaction and generate particles' interactively coherent entanglement with two opposite properties in a bipartite complex adaptive quantum system. Keywords: complex adaptive systems, complex adaptive learning, intelligence-like particle, two-world interpretation, interactively coherent entanglement PACS: 89.75.-k (Complex Systems); 89.65.Gh (Economics, Econophysics, Financial Markets, Business and Management); 03.65.Ud (Entanglement and Quantum Nonlocality) | 翻訳日:2023-09-21 18:43:05 公開日:2023-09-20 |
# 制限ボルツマンマシンによる有効結合の推論 Inferring effective couplings with Restricted Boltzmann Machines ( http://arxiv.org/abs/2309.02292v2 ) ライセンス: Link先を確認 | Aur\'elien Decelle, Cyril Furtlehner, Alfonso De Jesus Navas G\'omez, Beatriz Seoane | (参考訳) 生成モデルは複雑なデータを直接モデル化する方法を提供する。
それらのうち、エネルギーベースのモデルは、モデルのボルツマン重みのレベルでデータで観測されたすべての統計相関を正確に再現することを目的としたニューラルネットワークモデルを提供する。
しかし、一つの課題はそのようなモデルの物理的解釈を理解することである。
本研究では、制限ボルツマン機械のエネルギー関数と、スピン間の高次相互作用を含む効果的なイジングスピンハミルトニアンとの直接マッピングを実装することで、簡単な解法を提案する。
このマッピングは、全ての可能な順序の相互作用を含み、逆イジングアプローチで一般的に考慮される通常のペアワイズ相互作用を超えて、複雑なデータセットの記述を可能にする。
初期の研究は、この目標を達成しようとしたが、提案されたマッピングは、問題の複雑さを適切に処理したり、実用的な応用のために直接処方を含まなかった。
本手法を検証するために,様々な低次元トポロジーにおいて,局所外部場,2体および3体相互作用を含む事前定義モデルの平衡サンプルを用いてrbmsを訓練した。
その結果,提案手法が適切なインタラクションネットワークを学習し,興味深いデータセットをモデル化する方法について検討した。
また,異なるトレーニング手法を用いて,推定モデルの品質を評価する。 Generative models offer a direct way to model complex data. Among them, energy-based models provide us with a neural network model that aims to accurately reproduce all statistical correlations observed in the data at the level of the Boltzmann weight of the model. However, one challenge is to understand the physical interpretation of such models. In this study, we propose a simple solution by implementing a direct mapping between the energy function of the Restricted Boltzmann Machine and an effective Ising spin Hamiltonian that includes high-order interactions between spins. This mapping includes interactions of all possible orders, going beyond the conventional pairwise interactions typically considered in the inverse Ising approach, and allowing the description of complex datasets. Earlier works attempted to achieve this goal, but the proposed mappings did not do properly treat the complexity of the problem or did not contain direct prescriptions for practical application. To validate our method, we performed several controlled numerical experiments where we trained the RBMs using equilibrium samples of predefined models containing local external fields, two-body and three-body interactions in various low-dimensional topologies. The results demonstrate the effectiveness of our proposed approach in learning the correct interaction network and pave the way for its application in modeling interesting datasets. We also evaluate the quality of the inferred model based on different training methods. | 翻訳日:2023-09-21 18:37:16 公開日:2023-09-20 |
# 大規模言語モデルを活用したテキスト間SQL:ベンチマーク評価 Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation ( http://arxiv.org/abs/2308.15363v3 ) ライセンス: Link先を確認 | Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, Jingren Zhou | (参考訳) 大規模言語モデル(LLM)は、テキストからSQLタスクの新しいパラダイムとして登場した。
しかし、体系的なベンチマークがないため、効率的なLLMベースのテキスト・トゥ・SQLソリューションの設計が阻害される。
この課題に対処するため,本稿では,質問表現,サンプル選択,サンプル組織など既存のプロンプトエンジニアリング手法を体系的かつ広範囲に比較し,これらの実験結果をもとに,その長所と短所を詳述する。
これらの結果に基づき,新たな統合ソリューションであるdail-sqlを提案し,86.6%の実行精度でスパイダーリーダボードをリフレッシュし,新たなバーを設定する。
オープンソース LLM の可能性を探るため,様々なシナリオで検討し,教師付き微調整による性能向上を図る。
我々の調査では、Text-to-SQLにおけるオープンソースのLLMの可能性と、教師付き微調整の利点とデメリットを強調しています。
さらに, LLMをベースとしたテキスト・トゥ・SQLの効率的かつ経済的なソリューションを目指して, プロンプトエンジニアリングにおけるトークンの効率を強調し, この指標に基づく先行研究を比較した。
LLMによるText-to-SQLのより深い理解を提供し、さらなる調査や広範な応用を促すことを願っています。 Large language models (LLMs) have emerged as a new paradigm for Text-to-SQL task. However, the absence of a systematical benchmark inhibits the development of designing effective, efficient and economic LLM-based Text-to-SQL solutions. To address this challenge, in this paper, we first conduct a systematical and extensive comparison over existing prompt engineering methods, including question representation, example selection and example organization, and with these experimental results, we elaborate their pros and cons. Based on these findings, we propose a new integrated solution, named DAIL-SQL, which refreshes the Spider leaderboard with 86.6% execution accuracy and sets a new bar. To explore the potential of open-source LLM, we investigate them in various scenarios, and further enhance their performance with supervised fine-tuning. Our explorations highlight open-source LLMs' potential in Text-to-SQL, as well as the advantages and disadvantages of the supervised fine-tuning. Additionally, towards an efficient and economic LLM-based Text-to-SQL solution, we emphasize the token efficiency in prompt engineering and compare the prior studies under this metric. We hope that our work provides a deeper understanding of Text-to-SQL with LLMs, and inspires further investigations and broad applications. | 翻訳日:2023-09-21 18:36:56 公開日:2023-09-20 |
# lightdepth: 単視点深度の自己スーパービジョン LightDepth: Single-View Depth Self-Supervision from Illumination Decline ( http://arxiv.org/abs/2308.10525v2 ) ライセンス: Link先を確認 | Javier Rodr\'iguez-Puigvert, V\'ictor M. Batlle, J.M.M. Montiel, Ruben Martinez-Cantin, Pascal Fua, Juan D. Tard\'os, Javier Civera | (参考訳) 教師付きトレーニングに十分な地上深度データがあれば, 単視点深度推定は極めて効果的である。
しかし、特に内科の場合、そのようなデータが得られないシナリオがある。
このような場合、多視点の自己スーパービジョンと合成から現実への移動は代替のアプローチとして機能するが、教師付きの場合と比較してかなり性能が低下する。
代わりに,教師付きケースと同様の性能を実現するシングルビュー自己教師付き手法を提案する。
内視鏡などの医療機器では、カメラと光源はターゲット表面からわずかに離れた位置に配置されている。
したがって、任意のアルベドおよび表面方位に対して、画素の明るさは表面までの距離の2乗に逆比例し、強い単視点の自己スーパーバイザリー信号を与えることができる。
我々の実験では, 自己教師付きモデルでは, 完全な教師付きモデルに匹敵する精度を与えつつ, 奥行きの地中データを用いずに適用できる。 Single-view depth estimation can be remarkably effective if there is enough ground-truth depth data for supervised training. However, there are scenarios, especially in medicine in the case of endoscopies, where such data cannot be obtained. In such cases, multi-view self-supervision and synthetic-to-real transfer serve as alternative approaches, however, with a considerable performance reduction in comparison to supervised case. Instead, we propose a single-view self-supervised method that achieves a performance similar to the supervised case. In some medical devices, such as endoscopes, the camera and light sources are co-located at a small distance from the target surfaces. Thus, we can exploit that, for any given albedo and surface orientation, pixel brightness is inversely proportional to the square of the distance to the surface, providing a strong single-view self-supervisory signal. In our experiments, our self-supervised models deliver accuracies comparable to those of fully supervised ones, while being applicable without depth ground-truth data. | 翻訳日:2023-09-21 18:36:04 公開日:2023-09-20 |
# フラックス量子ビットと伝送線路共振器のインダクティブ結合の高周波抑制 High-frequency suppression of inductive coupling between flux qubit and transmission line resonator ( http://arxiv.org/abs/2308.07849v2 ) ライセンス: Link先を確認 | Sahel Ashhab, Ziqiao Ao, Fumiki Yoshihara, Adrian Lupascu, Kouichi Semba | (参考訳) 伝送線路共振器(TLR)に誘導的に結合されたフラックス量子ビットからなる回路において、自然発生する高周波遮断を理論的に検討する。
結果は, 回路設計の類似性を考慮した過去の研究と概ね一致した。
特に、qubitモードと高周波モードの間でデカップリングが発生する。
その結果、量子ビットモードと共振器モードの結合強度は、モード周波数$\omega$ as $\sqrt{\omega}$を低周波数で増加し、高周波数で1/\sqrt{\omega}$として減少する。
解析において, キュービット-TLR結合を無視する近似を無視することにより, 従来の研究では得られなかった効果が得られる。
量子ビットの特性周波数におけるモード周波数、結合強度、ラムシフトの式を導出する。
我々は、将来の実験で理論モデルのテストと検証に使用できるシステムのスペクトルの特徴を同定する。 We perform theoretical calculations to investigate the naturally occurring high-frequency cutoff in a circuit comprising a flux qubit coupled inductively to a transmission line resonator (TLR). Our results generally agree with those of past studies that considered somewhat similar circuit designs. In particular, a decoupling occurs between the qubit and the high-frequency modes. As a result, the coupling strength between the qubit and resonator modes increases with mode frequency $\omega$ as $\sqrt{\omega}$ at low frequencies and decreases as $1/\sqrt{\omega}$ at high frequencies. By avoiding the approximation of ignoring the qubit-TLR coupling in certain steps in the analysis, we obtain effects not captured in previous studies. We derive expressions for the mode frequencies, coupling strengths and Lamb shift in the qubit's characteristic frequency. We identify features in the spectrum of the system that can be used in future experiments to test and validate the theoretical model. | 翻訳日:2023-09-21 18:35:46 公開日:2023-09-20 |
# mt4crossoie: 言語間情報抽出のための多段チューニング MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information Extraction ( http://arxiv.org/abs/2308.06552v2 ) ライセンス: Link先を確認 | Tongliang Li, Zixiang Wang, Linzheng Chai, Jian Yang, Jiaqi Bai, Yuwei Yin, Jiaheng Liu, Hongcheng Guo, Liqun Yang, Hebboul Zine el-abidine, Zhoujun Li | (参考訳) 言語間オープン情報抽出は,複数言語にわたる原文から構造化された情報を抽出することを目的としている。
以前の作業では、異なる言語を扱うために、共通言語間の事前訓練モデルを使用していたが、言語固有の表現の可能性を過小評価している。
本稿では,言語固有の知識を共有モデルに注入することにより,言語間情報抽出の促進を目的とした,mt4crossieと呼ばれる効果的なマルチステージチューニングフレームワークを提案する。
具体的には、言語間事前学習モデルは、まず固定エンコーダ内の共有意味空間(例えば埋め込み行列)で調整され、次に第2段階で他のコンポーネントが最適化される。
十分なトレーニングの後、事前学習されたモデルを凍結し、モデルベースの言語間移動のための混合LoRAを用いて複数の低ランク言語固有のモジュールをチューニングする。
さらに,2段階のプロンプトを利用して,多言語生データをデータベース言語間転送にアノテートすることを大言語モデル(llm)に促す。
このモデルは,提案したデータセットOpenIE4++上で,モデルベースおよびデータベース転送技術を組み合わせて,多言語で学習する。
様々なベンチマークの実験結果は、複数のプラグインとプレイ言語固有のモジュールを集約することの重要性を強調し、OIE\footnote{\url{https://github.com/CSJianYang/Multilingual-Multimodal-NLP}}におけるMT4CrossIEの有効性を示した。 Cross-lingual open information extraction aims to extract structured information from raw text across multiple languages. Previous work uses a shared cross-lingual pre-trained model to handle the different languages but underuses the potential of the language-specific representation. In this paper, we propose an effective multi-stage tuning framework called MT4CrossIE, designed for enhancing cross-lingual open information extraction by injecting language-specific knowledge into the shared model. Specifically, the cross-lingual pre-trained model is first tuned in a shared semantic space (e.g., embedding matrix) in the fixed encoder and then other components are optimized in the second stage. After enough training, we freeze the pre-trained model and tune the multiple extra low-rank language-specific modules using mixture-of-LoRAs for model-based cross-lingual transfer. In addition, we leverage two-stage prompting to encourage the large language model (LLM) to annotate the multi-lingual raw data for data-based cross-lingual transfer. The model is trained with multi-lingual objectives on our proposed dataset OpenIE4++ by combing the model-based and data-based transfer techniques. Experimental results on various benchmarks emphasize the importance of aggregating multiple plug-in-and-play language-specific modules and demonstrate the effectiveness of MT4CrossIE in cross-lingual OIE\footnote{\url{https://github.com/CSJianYang/Multilingual-Multimodal-NLP}}. | 翻訳日:2023-09-21 18:35:04 公開日:2023-09-20 |
# 医用画像における深層学習のための小さなデータセットを用いたDealing:コントラスト法とマスクオートエンコーダ法の比較によるCTスキャンの自己監督評価 Dealing with Small Datasets for Deep Learning in Medical Imaging: An Evaluation of Self-Supervised Pre-Training on CT Scans Comparing Contrastive and Masked Autoencoder Methods for Convolutional Models ( http://arxiv.org/abs/2308.06534v3 ) ライセンス: Link先を確認 | Daniel Wolf, Tristan Payer, Catharina Silvia Lisson, Christoph Gerhard Lisson, Meinrad Beer, Michael G\"otz, Timo Ropinski | (参考訳) 医用画像の深層学習は、診断ミスのリスクを最小限に抑え、放射線医の作業量を減らし、診断を加速する可能性がある。
このようなディープラーニングモデルのトレーニングには,すべてのトレーニングサンプルに対するアノテーションを備えた,大規模かつ正確なデータセットが必要です。
しかし、医療画像領域では、アノテーションの複雑さやアクセスの制限、病気の希少さなどにより、特定のタスクのための注釈付きデータセットは少ないことが多い。
この課題に対処するために、ディープラーニングモデルは、自己教師付き学習の分野からのメソッドを使用するアノテーションなしで、大規模なイメージデータセットで事前トレーニングすることができる。
事前トレーニング後、小さな注釈付きデータセットは、特定のタスクのためにモデルを微調整するのに十分です。
医療画像における自己教師付き事前学習の最も一般的なアプローチは、コントラスト学習に基づいている。
しかし、近年の自然画像処理の研究は、マスク付きオートエンコーダアプローチに強い可能性を示している。
我々の研究は、医学画像上の畳み込みニューラルネットワーク(CNN)のためのマスク付きオートエンコーダアプローチ "SparK" と比較した。
そこで我々は,大規模無注釈CT画像データセットといくつかのCT分類タスクを事前訓練した。
医用画像における十分なアノテートトレーニングデータを取得することの難しさから,小データセットの微調整において自己教師付き事前学習法がどのように機能するかを評価することが特に重要である。
微調整のためのトレーニングデータセットサイズを段階的に縮小させることにより,事前学習の種類によって異なる効果が得られた。
SparK事前学習法は、対照的な方法よりもトレーニングデータセットサイズに対して堅牢である。
そこで本研究では,小さな注釈付きデータセットのみを用いたSparKプリトレーニングを提案する。 Deep learning in medical imaging has the potential to minimize the risk of diagnostic errors, reduce radiologist workload, and accelerate diagnosis. Training such deep learning models requires large and accurate datasets, with annotations for all training samples. However, in the medical imaging domain, annotated datasets for specific tasks are often small due to the high complexity of annotations, limited access, or the rarity of diseases. To address this challenge, deep learning models can be pre-trained on large image datasets without annotations using methods from the field of self-supervised learning. After pre-training, small annotated datasets are sufficient to fine-tune the models for a specific task. The most popular self-supervised pre-training approaches in medical imaging are based on contrastive learning. However, recent studies in natural image processing indicate a strong potential for masked autoencoder approaches. Our work compares state-of-the-art contrastive learning methods with the recently introduced masked autoencoder approach "SparK" for convolutional neural networks (CNNs) on medical images. Therefore we pre-train on a large unannotated CT image dataset and fine-tune on several CT classification tasks. Due to the challenge of obtaining sufficient annotated training data in medical imaging, it is of particular interest to evaluate how the self-supervised pre-training methods perform when fine-tuning on small datasets. By experimenting with gradually reducing the training dataset size for fine-tuning, we find that the reduction has different effects depending on the type of pre-training chosen. The SparK pre-training method is more robust to the training dataset size than the contrastive methods. Based on our results, we propose the SparK pre-training for medical imaging tasks with only small annotated datasets. | 翻訳日:2023-09-21 18:34:32 公開日:2023-09-20 |
# 帯域フィードバックによるマルチクラスオンライン学習 Multiclass Online Learnability under Bandit Feedback ( http://arxiv.org/abs/2308.04620v2 ) ライセンス: Link先を確認 | Ananth Raman, Vinod Raman, Unique Subedi, Ambuj Tewari | (参考訳) バンディットフィードバックに基づくオンラインマルチクラス分類について検討する。
ラベル空間が非有界である場合でも、Bandit Littlestone次元の有限性が必要かつ十分であることを示すことにより、Daniely と Helbertal [2013] の結果を拡張した。
また,全情報設定とは異なり,逐次一様収束は必要であるが,オンライン学習能力の確保には不十分であることを示す。
この結果はhanneke, moran, raman, subedi, tewari [2023]の最近の研究を補完するものであり,ラベル空間が無制限であっても,littlestone次元がオンラインのマルチクラス学習性をフル情報環境において特徴付けることを示した。 We study online multiclass classification under bandit feedback. We extend the results of Daniely and Helbertal [2013] by showing that the finiteness of the Bandit Littlestone dimension is necessary and sufficient for bandit online multiclass learnability even when the label space is unbounded. Moreover, we show that, unlike the full-information setting, sequential uniform convergence is necessary but not sufficient for bandit online learnability. Our result complements the recent work by Hanneke, Moran, Raman, Subedi, and Tewari [2023] who show that the Littlestone dimension characterizes online multiclass learnability in the full-information setting even when the label space is unbounded. | 翻訳日:2023-09-21 18:34:03 公開日:2023-09-20 |
# Sparse Index Tracking:$\ell_0$-Constrained Portfolioによる同時資産選定と資本配分 Sparse Index Tracking: Simultaneous Asset Selection and Capital Allocation via $\ell_0$-Constrained Portfolio ( http://arxiv.org/abs/2309.10152v2 ) ライセンス: Link先を確認 | Eisuke Yamagata and Shunsuke Ono | (参考訳) スパース指数の追跡は、金融指標を追跡するためのスパースポートフォリオを構築する主要なパッシブポートフォリオ管理戦略の1つである。
スパースポートフォリオは、取引コストの削減と不正資産の回避の観点から、完全なポートフォリオよりも望ましい。
ポートフォリオのスパーシリティを強制するために、従来の研究は$\ell_p$-norm正規化を$\ell_0$-norm正規化の連続代用として定式化することを提案した。
このような定式化はスパースポートフォリオの構築に使用することができるが、ポートフォリオ内の資産の正確な上限を特定するパラメータチューニングが繊細で時間を要するため、実際の投資での使用は容易ではない。
本稿では,ポートフォリオの資産数に対する上限値の制御を容易にするために,$\ell_0$-norm制約を用いたスパースインデックストラッキングの新たな問題式を提案する。
さらに,ポートフォリオススパーシティとターンオーバーススパーシティ制約の選択が可能であり,各リバランシング時に更新される資産数を制限することでトランザクションコストを低減できる。
さらに,本手法を主成分分割法に基づく効率的な解法を開発した。
最後に,提案手法の有効性をS\&P500およびNASDAQ100インデックスデータセットを用いて検証した。 Sparse index tracking is one of the prominent passive portfolio management strategies that construct a sparse portfolio to track a financial index. A sparse portfolio is desirable over a full portfolio in terms of transaction cost reduction and avoiding illiquid assets. To enforce the sparsity of the portfolio, conventional studies have proposed formulations based on $\ell_p$-norm regularizations as a continuous surrogate of the $\ell_0$-norm regularization. Although such formulations can be used to construct sparse portfolios, they are not easy to use in actual investments because parameter tuning to specify the exact upper bound on the number of assets in the portfolio is delicate and time-consuming. In this paper, we propose a new problem formulation of sparse index tracking using an $\ell_0$-norm constraint that enables easy control of the upper bound on the number of assets in the portfolio. In addition, our formulation allows the choice between portfolio sparsity and turnover sparsity constraints, which also reduces transaction costs by limiting the number of assets that are updated at each rebalancing. Furthermore, we develop an efficient algorithm for solving this problem based on a primal-dual splitting method. Finally, we illustrate the effectiveness of the proposed method through experiments on the S\&P500 and NASDAQ100 index datasets. | 翻訳日:2023-09-21 18:26:02 公開日:2023-09-20 |
# 3d sa-unet: white matter hyperintensities segmentationのための3d asppを用いた3d空間注意unet 3D SA-UNet: 3D Spatial Attention UNet with 3D ASPP for White Matter Hyperintensities Segmentation ( http://arxiv.org/abs/2309.08402v2 ) ライセンス: Link先を確認 | Changlu Guo | (参考訳) ホワイトマター・ハイパーインテンシティ(White Matter Hyperintensity, WMH)は、認知症や脳卒中などの様々な疾患に関連する画像特徴である。
コンピュータ技術を用いたWMHの正確なセグメンテーションは早期診断に不可欠である。
しかし、コントラストが低く、画像に不連続な小さな病変があり、文脈情報や空間情報も限られているため、この課題は依然として困難である。
この課題に対処するために,Fluid Attenuation Inversion Recovery (FLAIR) スキャンのみを用いた自動WMHセグメンテーションのための3次元空間注意U-Net(3D SA-UNet)というディープラーニングモデルを提案する。
3D SA-UNetは、重要でない領域を抑えながら、WMHのような重要な病変の特徴を強調する3D空間注意モジュールを導入した。
さらに,異なるスケールで特徴をキャプチャするために,atrous spatial pyramid pooling (aspp) モジュールを3dバージョンに拡張し,ネットワークのセグメンテーション性能を向上させる。
提案手法を公開データセット上で評価し,WMHセグメンテーションにおける3次元空間注意モジュールと3次元ASPPの有効性を実証した。
実験の結果,提案した3D SA-UNetモデルは,他の最先端の3D畳み込みニューラルネットワークと比較して精度が高いことがわかった。 White Matter Hyperintensity (WMH) is an imaging feature related to various diseases such as dementia and stroke. Accurately segmenting WMH using computer technology is crucial for early disease diagnosis. However, this task remains challenging due to the small lesions with low contrast and high discontinuity in the images, which contain limited contextual and spatial information. To address this challenge, we propose a deep learning model called 3D Spatial Attention U-Net (3D SA-UNet) for automatic WMH segmentation using only Fluid Attenuation Inversion Recovery (FLAIR) scans. The 3D SA-UNet introduces a 3D Spatial Attention Module that highlights important lesion features, such as WMH, while suppressing unimportant regions. Additionally, to capture features at different scales, we extend the Atrous Spatial Pyramid Pooling (ASPP) module to a 3D version, enhancing the segmentation performance of the network. We evaluate our method on publicly available dataset and demonstrate the effectiveness of 3D spatial attention module and 3D ASPP in WMH segmentation. Through experimental results, it has been demonstrated that our proposed 3D SA-UNet model achieves higher accuracy compared to other state-of-the-art 3D convolutional neural networks. | 翻訳日:2023-09-21 18:25:38 公開日:2023-09-20 |
# 人間のレベルに近づく物理学的単語問題の解法と説明に大言語モデルを使う Using Large Language Model to Solve and Explain Physics Word Problems Approaching Human Level ( http://arxiv.org/abs/2309.08182v2 ) ライセンス: Link先を確認 | Jingzhe Ding, Yan Cen, Xinyuan Wei | (参考訳) 本研究は,テキストに事前学習した大規模言語モデル (llm) が純粋数学語問題だけでなく,事前の物理知識に基づく計算と推論を必要とする物理語問題も解決できることを実証する。
我々は,1000以上の中学校物理語問題(Kinematics,Mass&Density,Mechanics,Heat,Electricity)を含む最初の物理単語データセットPhysQAを収集し,注釈する。
次に、OpenAIのs GPT3.5を用いてこれらの問題の答えを生成し、GPT3.5がゼロショット学習で49.3%、少数ショット学習で73.2%を自動で解けることを示した。
この結果は、類似した問題と解答を即時的に利用することにより、LLMは人間のレベルパフォーマンスに近づく基本的な物理単語問題を解くことができることを示している。
問題解決に加えて、GPT3.5は、問題の知識やトピックを要約し、関連する説明を提供し、入力に基づいて新しい物理語問題を生成することもできる。
我々の研究は、様々なタイプやシナリオにおける物理単語の自動解法、説明、生成に焦点を当てた最初の研究であり、受け入れられ、最先端の精度を実現する。
これにより、中等教育におけるllmのさらなる応用の可能性が高まる。 Our work demonstrates that large language model (LLM) pre-trained on texts can not only solve pure math word problems, but also physics word problems, whose solution requires calculation and inference based on prior physical knowledge. We collect and annotate the first physics word problem dataset-PhysQA, which contains over 1000 junior high school physics word problems (covering Kinematics, Mass&Density, Mechanics, Heat, Electricity). Then we use OpenAI' s GPT3.5 to generate the answer of these problems and found that GPT3.5 could automatically solve 49.3% of the problems through zero-shot learning and 73.2% through few-shot learning. This result demonstrates that by using similar problems and their answers as prompt, LLM could solve elementary physics word problems approaching human level performance. In addition to solving problems, GPT3.5 can also summarize the knowledge or topics covered by the problems, provide relevant explanations, and generate new physics word problems based on the input. Our work is the first research to focus on the automatic solving, explanation, and generation of physics word problems across various types and scenarios, and we achieve an acceptable and state-of-the-art accuracy. This underscores the potential of LLMs for further applications in secondary education. | 翻訳日:2023-09-21 18:25:15 公開日:2023-09-20 |
# 勾配制約付きシャープネス認識による視覚言語モデルの学習 Gradient constrained sharpness-aware prompt learning for vision-language models ( http://arxiv.org/abs/2309.07866v2 ) ライセンス: Link先を確認 | Liangchen Liu, Nannan Wang, Dawei Zhou, Xinbo Gao, Decheng Liu, Xi Yang, Tongliang Liu | (参考訳) 本稿では,視覚言語モデル (vlm) の汎用的プロンプト学習における新たなトレードオフ問題,すなわち見掛けたクラスの性能を維持しつつ,見当たらないクラスの性能を向上させることを目的とした。
クラス劣化を無視する既存の一般化可能な手法と比較して、この問題の設定はより厳密であり、実用的な応用とより密に適合する。
この問題を解決するために、最適化の観点から始め、損失景観幾何学とモデル一般化能力の関係を利用する。
最先端手法のロスランドスケープとSAM(vanilla Sharpness-aware Minimization)に基づく手法の損失ランドスケープを解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関し、それぞれが不可欠であると結論付けた。
しかし、既存の手法の最適化勾配は、最適化時の損失値と損失シャープネスの両方に高い関連性を維持することができず、トレードオフ性能に大きな影響を及ぼす。
そこで本研究では、最適化勾配を動的に制約するグラディエント制約付きシャープネス対応コンテキスト最適化(GCSCoOp)を新たに提案し、2倍の最適化目標を同時に達成する。
トレードオフ問題におけるGCSCoOpの有効性を検証する。 This paper targets a novel trade-off problem in generalizable prompt learning for vision-language models (VLM), i.e., improving the performance on unseen classes while maintaining the performance on seen classes. Comparing with existing generalizable methods that neglect the seen classes degradation, the setting of this problem is more strict and fits more closely with practical applications. To solve this problem, we start from the optimization perspective, and leverage the relationship between loss landscape geometry and model generalization ability. By analyzing the loss landscapes of the state-of-the-art method and vanilla Sharpness-aware Minimization (SAM) based method, we conclude that the trade-off performance correlates to both loss value and loss sharpness, while each of them is indispensable. However, we find the optimizing gradient of existing methods cannot maintain high relevance to both loss value and loss sharpness during optimization, which severely affects their trade-off performance. To this end, we propose a novel SAM-based method for prompt learning, denoted as Gradient Constrained Sharpness-aware Context Optimization (GCSCoOp), to dynamically constrain the optimizing gradient, thus achieving above two-fold optimization objective simultaneously. Extensive experiments verify the effectiveness of GCSCoOp in the trade-off problem. | 翻訳日:2023-09-21 18:24:51 公開日:2023-09-20 |
# 制御可能なASRのためのPromptASR PromptASR for contextualized ASR with controllable style ( http://arxiv.org/abs/2309.07414v2 ) ライセンス: Link先を確認 | Xiaoyu Yang, Wei Kang, Zengwei Yao, Yifan Yang, Liyong Guo, Fangjun Kuang, Long Lin, Daniel Povey | (参考訳) プロンプトは、トピックや論理関係といったコンテキスト情報を提供するため、大きな言語モデルにとって不可欠である。
そこで本研究では,E2E自動音声認識(E2E ASR)システムにプロンプトを統合するフレームワークであるPromptASRを提案する。
具体的には、専用テキストエンコーダがテキストプロンプトを符号化し、そのエンコーダを2つのモーダルから特徴を交叉して音声エンコーダに注入する。
先行する発話の真実文をコンテンツプロンプトとして使用する場合,本システムは,本文読解データセットと本文内データセットに対して,ベースラインASRシステムと比較して,21.9%,6.8%の単語誤り率削減を実現している。
このシステムは、単語レベルの偏見リストを、まれな単語の認識精度の向上に役立てることができる。
追加のスタイルプロンプトがテキストエンコーダに与えられ、asrシステムが異なる書き起こしスタイルを出力するようにガイドすることができる。
コードはアイスフォールで入手できる。 Prompts are crucial to large language models as they provide context information such as topic or logical relationships. Inspired by this, we propose PromptASR, a framework that integrates prompts in end-to-end automatic speech recognition (E2E ASR) systems to achieve contextualized ASR with controllable style of transcriptions. Specifically, a dedicated text encoder encodes the text prompts and the encodings are injected into the speech encoder by cross-attending the features from two modalities. When using the ground truth text from preceding utterances as content prompt, the proposed system achieves 21.9% and 6.8% relative word error rate reductions on a book reading dataset and an in-house dataset compared to a baseline ASR system. The system can also take word-level biasing lists as prompt to improve recognition accuracy on rare words. An additional style prompt can be given to the text encoder and guide the ASR system to output different styles of transcriptions. The code is available at icefall. | 翻訳日:2023-09-21 18:24:03 公開日:2023-09-20 |
# CLUB-PLSによる画像遺伝学の次元化 Tackling the dimensions in imaging genetics with CLUB-PLS ( http://arxiv.org/abs/2309.07352v2 ) ライセンス: Link先を確認 | Andre Altmann, Ana C Lawry Aguila, Neda Jahanshad, Paul M Thompson, Marco Lorenzi | (参考訳) 遺伝学と類似分野のイメージングにおける大きな課題は、ある領域の高次元データ(例えば、遺伝データ)を第2領域の高次元データ(例えば、脳画像データ)にリンクすることである。
この領域の標準的なアプローチは、遺伝子因子の大量一変量解析と表現型の画像化である。
これは1つのゲノムワイドアソシエーション研究(gwas)を事前定義されたイメージング指標ごとに実施することを含む。
このアプローチは非常に成功したが、一つの欠点は表現型が事前に定義されなければならないことである。
その結果、選択された関心領域に制限されない効果や、より大きな脳のパターンを反映する効果が容易に見逃される。
本稿では,Cluster-Bootstrap PLS (CLUB-PLS) と呼ぶ,PLS(Partial Least Squares) ベースのフレームワークを紹介する。
フレームワークの重要な要素のひとつは、クラスタブートストラップを使用して、両方のドメインで単一入力機能に対して堅牢な統計を提供することだ。
CLUB-PLSを用いて,英国バイオバンクの33,000名の被験者を対象に,表面積と皮質厚の遺伝的基礎を調べた。
386の異なる遺伝子に結合した107種のゲノムワイドなロクスフェノタイプが発見された。
古典的GWASまたはゲノムワイド推論統計(GWIS)を用いて,85個の座位フェノタイプペアがゲノムワイド・プロジェクティヴ(P<1e-05)の閾値を超えたことを発見した。 A major challenge in imaging genetics and similar fields is to link high-dimensional data in one domain, e.g., genetic data, to high dimensional data in a second domain, e.g., brain imaging data. The standard approach in the area are mass univariate analyses across genetic factors and imaging phenotypes. That entails executing one genome-wide association study (GWAS) for each pre-defined imaging measure. Although this approach has been tremendously successful, one shortcoming is that phenotypes must be pre-defined. Consequently, effects that are not confined to pre-selected regions of interest or that reflect larger brain-wide patterns can easily be missed. In this work we introduce a Partial Least Squares (PLS)-based framework, which we term Cluster-Bootstrap PLS (CLUB-PLS), that can work with large input dimensions in both domains as well as with large sample sizes. One key factor of the framework is to use cluster bootstrap to provide robust statistics for single input features in both domains. We applied CLUB-PLS to investigating the genetic basis of surface area and cortical thickness in a sample of 33,000 subjects from the UK Biobank. We found 107 genome-wide significant locus-phenotype pairs that are linked to 386 different genes. We found that a vast majority of these loci could be technically validated at a high rate: using classic GWAS or Genome-Wide Inferred Statistics (GWIS) we found that 85 locus-phenotype pairs exceeded the genome-wide suggestive (P<1e-05) threshold. | 翻訳日:2023-09-21 18:23:42 公開日:2023-09-20 |
# カラーコードに基づく実用的フォールトトレラント量子コンピューティング Facilitating Practical Fault-tolerant Quantum Computing Based on Color Codes ( http://arxiv.org/abs/2309.05222v2 ) ライセンス: Link先を確認 | Jiaxuan Zhang, Yu-Chun Wu and Guo-Ping Guo | (参考訳) カラーコードはフォールトトレラント量子コンピューティングにとって有望なトポロジカルコードである。
カラーコードに関する不十分な研究は、その実用化を遅らせた。
本研究では,カラーコードに基づく実用的フォールトトレラント量子コンピューティングを実現するために,いくつかの重要な課題を解決する。
まず,誤り率関連重み付き復号グラフを導入することで,標準回路レベルのノイズモデルにおける三角形色コードの閾値を0.47\%$に改善し,表面符号とのギャップを狭める。
次に,2次元アーキテクチャを持つ量子コンピュータにおいて論理演算を行う上で重要なカラーコード格子手術の回路レベル復号戦略について検討する。
最後に、三角カラーコードの状態注入プロトコルを提案し、CSSコードの他の状態注入プロトコルと比較して最適な論理誤差率を提供し、マジック状態蒸留の効率を高めるのに有用である。 Color code is a promising topological code for fault-tolerant quantum computing. Insufficient research on color code has delayed its practical application. In this work, we address several key issues to facilitate practical fault-tolerant quantum computing based on color codes. First, by introducing decoding graphs with error-rate-related weights, we improve the threshold of the triangular color code under the standard circuit-level noise model to $0.47\%$, narrowing the gap to that of the surface code. Second, we investigate the circuit-level decoding strategy of color code lattice surgery, which is crucial for performing logical operations in a quantum computer with two-dimensional architecture. Lastly, the state injection protocol of triangular color code is proposed, offering an optimal logical error rate compared to any other state injection protocol of the CSS code, which is beneficial for increasing the efficiency of magic state distillation. | 翻訳日:2023-09-21 18:23:17 公開日:2023-09-20 |
# ニューラル潜時幾何探索:Gromov-Hausdorff-informed Bayesian Optimization による積多様体推論 Neural Latent Geometry Search: Product Manifold Inference via Gromov-Hausdorff-Informed Bayesian Optimization ( http://arxiv.org/abs/2309.04810v2 ) ライセンス: Link先を確認 | Haitz Saez de Ocariz Borde, Alvaro Arroyo, Ismael Morales, Ingmar Posner, Xiaowen Dong | (参考訳) 近年の研究では、潜在空間の形状と基礎となるデータ構造を整合させることで、機械学習モデルの性能を向上させることが示されている。
研究者はユークリッド空間のみに頼るのではなく、一定の曲率を持つ双曲空間と球面空間、あるいはそれらの組合せを用いることによって、潜在空間のモデル化とモデル性能の向上を提唱している。
しかし,下流タスクの最適潜在幾何を自動的に同定する問題にはほとんど注意が払われていない。
我々は、この新しい定式化を数学的に定義し、それをneural latent geometry search (nlgs) と呼ぶ。
より具体的には、最小のクエリ評価を持つ定数曲率モデル空間の積からなる潜時幾何学を探索する原理的手法を提案する。
そこで本研究では,距離幾何学からグロモフ・ハウスドルフ距離を基準として,潜在測地線候補間距離の新たな概念を提案する。
グロモフ・ハウスドルフ距離を計算するために、共通高次元の周囲空間にそれらを埋め込むことで異なる多様体の比較を可能にする写像関数を導入する。
最後に、候補多様体間の計算距離に基づいてグラフ探索空間を設計し、ベイズ最適化を用いてクエリー効率の良い方法で最適な潜在幾何を探索する。
これは、様々なモデルや下流タスクの最適な潜在幾何を探索するために適用できる一般的な方法である。
合成および実世界のデータセットに対する大規模な実験により、複数の機械学習問題に対する最適潜時幾何学を特定する方法の有効性が確認された。 Recent research indicates that the performance of machine learning models can be improved by aligning the geometry of the latent space with the underlying data structure. Rather than relying solely on Euclidean space, researchers have proposed using hyperbolic and spherical spaces with constant curvature, or combinations thereof, to better model the latent space and enhance model performance. However, little attention has been given to the problem of automatically identifying the optimal latent geometry for the downstream task. We mathematically define this novel formulation and coin it as neural latent geometry search (NLGS). More specifically, we introduce a principled method that searches for a latent geometry composed of a product of constant curvature model spaces with minimal query evaluations. To accomplish this, we propose a novel notion of distance between candidate latent geometries based on the Gromov-Hausdorff distance from metric geometry. In order to compute the Gromov-Hausdorff distance, we introduce a mapping function that enables the comparison of different manifolds by embedding them in a common high-dimensional ambient space. Finally, we design a graph search space based on the calculated distances between candidate manifolds and use Bayesian optimization to search for the optimal latent geometry in a query-efficient manner. This is a general method which can be applied to search for the optimal latent geometry for a variety of models and downstream tasks. Extensive experiments on synthetic and real-world datasets confirm the efficacy of our method in identifying the optimal latent geometry for multiple machine learning problems. | 翻訳日:2023-09-21 18:23:02 公開日:2023-09-20 |
# 多元バランスベースによる奥行き完了と密集単球スラムの信頼性 Depth Completion with Multiple Balanced Bases and Confidence for Dense Monocular SLAM ( http://arxiv.org/abs/2309.04145v2 ) ライセンス: Link先を確認 | Weijian Xie, Guanyi Chu, Quanhao Qian, Yihao Yu, Hai Li, Danpeng Chen, Shangjin Zhai, Nan Wang, Hujun Bao, Guofeng Zhang | (参考訳) モノクロカメラをベースとしたDense SLAMは、特にモバイルデバイス上で実行される場合、AR/VRの分野で大きな応用価値を持つ。
本稿では,マルチバス深度表現を用いたスパースSLAMシステムに軽量深度完備化ネットワークを組み込むことにより,携帯電話上でも高密度マッピングをオンラインで行える手法を提案する。
具体的には,従来の SLAM システムの特徴に合わせて,BBC-Net という,高度に最適化されたマルチバス深度補完ネットワークを提案する。
BBC-Netは、オフザシェルキーポイントベースのSLAMシステムによって生成されたスパースポイントを持つ単眼画像から、複数のバランスの取れたベースと信頼マップを予測できる。
最後の深さは、対応する重みを調整して最適化できる予測深度基底の線形結合である。
従来のSLAM最適化に重みをシームレスに組み込んで効率と堅牢性を確保するため,ネットワークを汎用的なプラグインモジュールとし,既存のSLAMシステムへの統合を容易にし,バンドル調整による大域的な深度整合性の向上を図る。
本手法の可搬性を検証するため,BBC-Netを2つの代表的なSLAMシステムに統合する。
種々のデータセットに対する実験結果から, 提案手法は, 最先端の手法よりも単分子密集写像の性能が向上することが示された。
実世界のシナリオにおいて提案手法の効率性とマッピング品質を検証した携帯電話上でのオンラインデモを提供する。 Dense SLAM based on monocular cameras does indeed have immense application value in the field of AR/VR, especially when it is performed on a mobile device. In this paper, we propose a novel method that integrates a light-weight depth completion network into a sparse SLAM system using a multi-basis depth representation, so that dense mapping can be performed online even on a mobile phone. Specifically, we present a specifically optimized multi-basis depth completion network, called BBC-Net, tailored to the characteristics of traditional sparse SLAM systems. BBC-Net can predict multiple balanced bases and a confidence map from a monocular image with sparse points generated by off-the-shelf keypoint-based SLAM systems. The final depth is a linear combination of predicted depth bases that can be optimized by tuning the corresponding weights. To seamlessly incorporate the weights into traditional SLAM optimization and ensure efficiency and robustness, we design a set of depth weight factors, which makes our network a versatile plug-in module, facilitating easy integration into various existing sparse SLAM systems and significantly enhancing global depth consistency through bundle adjustment. To verify the portability of our method, we integrate BBC-Net into two representative SLAM systems. The experimental results on various datasets show that the proposed method achieves better performance in monocular dense mapping than the state-of-the-art methods. We provide an online demo running on a mobile phone, which verifies the efficiency and mapping quality of the proposed method in real-world scenarios. | 翻訳日:2023-09-21 18:22:34 公開日:2023-09-20 |
# 大言語モデルに基づく対話応答と音声合成の協調モデリングに向けて Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model ( http://arxiv.org/abs/2309.11000v1 ) ライセンス: Link先を確認 | Xinyu Zhou, Delong Chen, Yudong Chen | (参考訳) 本稿では,チャットボットとtts(text-to-speech)モジュールの現在のカスケードパイプラインと比較して,人間の発話生成プロセスと密接に連携する「応答の仕方」と「対話の仕方」を同時に考えるai音声対話システムを構築する可能性について検討する。
数十億のパラメータを持つLarge Language Model (LLM) は、重要な音声理解能力を有し、対話応答と言語的特徴を共同でモデル化できると仮定する。
二つの実験を行います
1)ttsにおける典型的なフロントエンドタスクである韻律構造予測は,llmの音声理解能力を示す。
2)さらに対話応答と幅広い言語的特徴を統一的な符号化形式で統合する。
以上の結果から,llmに基づくアプローチは,音声対話システム構築に有望な方向性であることが示唆された。 This paper explores the potential of constructing an AI spoken dialogue system that "thinks how to respond" and "thinks how to speak" simultaneously, which more closely aligns with the human speech production process compared to the current cascade pipeline of independent chatbot and Text-to-Speech (TTS) modules. We hypothesize that Large Language Models (LLMs) with billions of parameters possess significant speech understanding capabilities and can jointly model dialogue responses and linguistic features. We conduct two sets of experiments: 1) Prosodic structure prediction, a typical front-end task in TTS, demonstrating the speech understanding ability of LLMs, and 2) Further integrating dialogue response and a wide array of linguistic features using a unified encoding format. Our results indicate that the LLM-based approach is a promising direction for building unified spoken dialogue systems. | 翻訳日:2023-09-21 17:44:41 公開日:2023-09-20 |
# COSE:画像分類のための一貫性感度指標 COSE: A Consistency-Sensitivity Metric for Saliency on Image Classification ( http://arxiv.org/abs/2309.10989v1 ) ライセンス: Link先を確認 | Rangel Daroya, Aaron Sun, Subhransu Maji | (参考訳) 本稿では,画像分類タスクにおけるサリエンシー法の性能を効果的に評価するために,視覚先行を用いたメトリクスセットを提案する。
深層学習モデルの振る舞いを理解するために、多くの手法がモデル予測に最も寄与する画像領域を強調するビジュアル・サリエンシ・マップを提供する。
しかし,モデル決定を説明する際,サリエンシー法の信頼性を分析する作業は限られている。
本稿では,単純なデータ拡張を用いた視覚モデル説明の同変特性と不変特性を定量化する指標として,COSE(Consistency-Sensitivity)を提案する。
提案手法はアーキテクチャに依存しないと考えられるが,ほとんどの手法では畳み込みモデルよりもトランスフォーマーモデルを説明する方がよい。
さらに、GradCAMはCOSEの点で他の手法よりも優れていることが判明したが、細粒度データセットの変動性の欠如などの制限があることが判明した。
一貫性と感度の双対性は、異なる角度からの塩分分析を可能にする。
最終的に、モデルの振る舞いを忠実に示すために、この2つのメトリクスのバランスをとることが重要であることに気付きます。 We present a set of metrics that utilize vision priors to effectively assess the performance of saliency methods on image classification tasks. To understand behavior in deep learning models, many methods provide visual saliency maps emphasizing image regions that most contribute to a model prediction. However, there is limited work on analyzing the reliability of saliency methods in explaining model decisions. We propose the metric COnsistency-SEnsitivity (COSE) that quantifies the equivariant and invariant properties of visual model explanations using simple data augmentations. Through our metrics, we show that although saliency methods are thought to be architecture-independent, most methods could better explain transformer-based models over convolutional-based models. In addition, GradCAM was found to outperform other methods in terms of COSE but was shown to have limitations such as lack of variability for fine-grained datasets. The duality between consistency and sensitivity allow the analysis of saliency methods from different angles. Ultimately, we find that it is important to balance these two metrics for a saliency map to faithfully show model behavior. | 翻訳日:2023-09-21 17:44:25 公開日:2023-09-20 |
# GPT4は良いトレーダーか? Is GPT4 a Good Trader? ( http://arxiv.org/abs/2309.10982v1 ) ライセンス: Link先を確認 | Bingzhe Wu | (参考訳) 近年,大規模言語モデル (LLM) ,特に GPT-4 は,様々な計画および推論タスク \cite{cheng2023gpt4,bubeck2023sparks} において重要な機能を示している。
これらの進歩によって、既存の因子ライブラリと重複しない量的因子の自動設計に、GPT-4の能力を利用する研究者の関心が高まっている。
これらの研究とは対照的に, GPT-4の古典的トレーディング理論の理解と, そのコードインタプリタ能力を実世界のトレーディングデータ解析に適用する能力について検討する。
このような探索は、基礎となるロジック GPT-4 が本質的に信頼できるかどうかを明らかにするのに役立っている。
さらに、ほとんどの貿易理論に固有の解釈緯度を考えると、我々はこれらの理論をGPT-4の分析過程からより正確な手法で展開し、人間のトレーダーに価値ある洞察を与えようとしている。
この目的を達成するため、上海証券取引所などの特定資産の特定期間から毎日のキャンドルスティック(K線)データを選択した。
細心の注意深いプロンプトエンジニアリングを通じて、エリオット波理論のような特定の理論に基づいて、このデータに埋め込まれた技術構造を分析するようにgpt-4を誘導した。
次に分析結果を手動で評価し,その解釈的深さと精度 vis-\`a-vis これらの貿易理論を多次元から評価した。
この研究の結果と結果は、人間の専門知識の相乗的アマルガメーションと、取引領域におけるAI主導の洞察の道を開く可能性がある。 Recently, large language models (LLMs), particularly GPT-4, have demonstrated significant capabilities in various planning and reasoning tasks \cite{cheng2023gpt4,bubeck2023sparks}. Motivated by these advancements, there has been a surge of interest among researchers to harness the capabilities of GPT-4 for the automated design of quantitative factors that do not overlap with existing factor libraries, with an aspiration to achieve alpha returns \cite{webpagequant}. In contrast to these work, this study aims to examine the fidelity of GPT-4's comprehension of classic trading theories and its proficiency in applying its code interpreter abilities to real-world trading data analysis. Such an exploration is instrumental in discerning whether the underlying logic GPT-4 employs for trading is intrinsically reliable. Furthermore, given the acknowledged interpretative latitude inherent in most trading theories, we seek to distill more precise methodologies of deploying these theories from GPT-4's analytical process, potentially offering invaluable insights to human traders. To achieve this objective, we selected daily candlestick (K-line) data from specific periods for certain assets, such as the Shanghai Stock Index. Through meticulous prompt engineering, we guided GPT-4 to analyze the technical structures embedded within this data, based on specific theories like the Elliott Wave Theory. We then subjected its analytical output to manual evaluation, assessing its interpretative depth and accuracy vis-\`a-vis these trading theories from multiple dimensions. The results and findings from this study could pave the way for a synergistic amalgamation of human expertise and AI-driven insights in the realm of trading. | 翻訳日:2023-09-21 17:44:04 公開日:2023-09-20 |
# データ中心グラフ機械学習に向けて:レビューと展望 Towards Data-centric Graph Machine Learning: Review and Outlook ( http://arxiv.org/abs/2309.10979v1 ) ライセンス: Link先を確認 | Xin Zheng, Yixin Liu, Zhifeng Bao, Meng Fang, Xia Hu, Alan Wee-Chung Liew, Shirui Pan | (参考訳) データ中心のAIは、AIモデルとアプリケーションを駆動するデータの収集、管理、利用に重点を置いており、近年注目を集めている。
本稿では,大規模かつ多様な実生活のエンティティ間の複雑な依存関係を表現および取得するための基本データ構造であるグラフデータに関連する,データ中心型AIの現在の取り組みについて,今後の展望を述べる。
グラフデータの収集,探索,改善,エクスプロイト,メンテナンスなど,グラフデータライフサイクルの全ステージをカバーする,データ中心型グラフ機械学習(dc-gml)という体系的なフレームワークを導入する。
1)グラフデータの可用性と品質を高める方法,(2)限られた可用性と低品質のグラフデータから学ぶ方法,(3)グラフデータ中心の視点からグラフMLOpsシステムを構築する方法。
最後に、DC-GMLドメインの将来展望を指摘し、その進歩と応用をナビゲートするための洞察を提供する。 Data-centric AI, with its primary focus on the collection, management, and utilization of data to drive AI models and applications, has attracted increasing attention in recent years. In this article, we conduct an in-depth and comprehensive review, offering a forward-looking outlook on the current efforts in data-centric AI pertaining to graph data-the fundamental data structure for representing and capturing intricate dependencies among massive and diverse real-life entities. We introduce a systematic framework, Data-centric Graph Machine Learning (DC-GML), that encompasses all stages of the graph data lifecycle, including graph data collection, exploration, improvement, exploitation, and maintenance. A thorough taxonomy of each stage is presented to answer three critical graph-centric questions: (1) how to enhance graph data availability and quality; (2) how to learn from graph data with limited-availability and low-quality; (3) how to build graph MLOps systems from the graph data-centric view. Lastly, we pinpoint the future prospects of the DC-GML domain, providing insights to navigate its advancements and applications. | 翻訳日:2023-09-21 17:43:36 公開日:2023-09-20 |
# グラフニューラルネットワークにおける認識不確かさの高精度かつスケーラブルな推定 Accurate and Scalable Estimation of Epistemic Uncertainty for Graph Neural Networks ( http://arxiv.org/abs/2309.10976v1 ) ライセンス: Link先を確認 | Puja Trivedi, Mark Heimann, Rushil Anirudh, Danai Koutra, Jayaraman J. Thiagarajan | (参考訳) 分散シフト下でのグラフニューラルネットワーク(GNN)の安全なデプロイには、正確な信頼度指標(CI)を提供するモデルが必要である。
しかし、コンピュータビジョンではci品質が分布シフトによって低下することはよく知られているが、gnnではこの行動は未検討のままである。
したがって、制御された構造および特徴分布シフトの下でのCIキャリブレーションのケーススタディから始め、表現率やモデルサイズの増加がCI性能の改善につながるとは限らないことを示す。
その結果、我々は、CIの変調に疫学不確実性定量化(UQ)法を使うことを提唱した。
この目的のために、構造化データと部分確率性をサポートするために、最近提案された確率中心化フレームワークを拡張した新しい単一モデルUQ手法であるG-$\Delta$UQを提案する。
共変量、概念、グラフサイズの変化によって評価され、G-$\Delta$UQは、校正CIを得る際の一般的なUQメソッドよりも優れているだけでなく、CIが一般化ギャップ予測やOOD検出に使用される場合の代替手段よりも優れている。
全体として、我々の研究は、新しいフレキシブルなGNN UQメソッドを導入するだけでなく、安全クリティカルなタスクに関するGNN CIに関する新たな洞察も提供する。 Safe deployment of graph neural networks (GNNs) under distribution shift requires models to provide accurate confidence indicators (CI). However, while it is well-known in computer vision that CI quality diminishes under distribution shift, this behavior remains understudied for GNNs. Hence, we begin with a case study on CI calibration under controlled structural and feature distribution shifts and demonstrate that increased expressivity or model size do not always lead to improved CI performance. Consequently, we instead advocate for the use of epistemic uncertainty quantification (UQ) methods to modulate CIs. To this end, we propose G-$\Delta$UQ, a new single model UQ method that extends the recently proposed stochastic centering framework to support structured data and partial stochasticity. Evaluated across covariate, concept, and graph size shifts, G-$\Delta$UQ not only outperforms several popular UQ methods in obtaining calibrated CIs, but also outperforms alternatives when CIs are used for generalization gap prediction or OOD detection. Overall, our work not only introduces a new, flexible GNN UQ method, but also provides novel insights into GNN CIs on safety-critical tasks. | 翻訳日:2023-09-21 17:43:15 公開日:2023-09-20 |
# 検索結果の信頼性評価:ランクと誤情報の影響 Trustworthiness Evaluations of Search Results: The Impact of Rank and Misinformation ( http://arxiv.org/abs/2309.11029v1 ) ライセンス: Link先を確認 | Sterling Williams-Ceci, Michael Macy, Mor Naaman | (参考訳) ユーザーは、公衆衛生の緊急状況などの重要な状況における情報を検索エンジンに頼っている。
したがって、ユーザーが検索結果の信頼性をどのように評価するかを理解することが不可欠である。
研究は、ランクと誤った情報の存在を、検索における知覚とクリック行動に影響を与える要因として捉えた。
本稿では,検索における個々の結果の信頼度に対する警告バナーだけでなく,ランクや誤報の影響を計測することで,これらの知見を詳述する。
我々はCovid-19関連クエリを用いて3つのオンライン実験(N=3196)を行った。
上位の検索結果はより頻繁にクリックされるが、信頼性は高くない。
また,誤報は正確な結果に対する信頼を変化させなかった。
しかし、信頼性の低い情報源に対する警告が送り返され、正確な情報への信頼は減ったが、誤報は無かった。
この研究は、検索における情報の評価方法に関する懸念に対処し、汎用的予防アプローチの危険性を説明している。 Users rely on search engines for information in critical contexts, such as public health emergencies. Understanding how users evaluate the trustworthiness of search results is therefore essential. Research has identified rank and the presence of misinformation as factors impacting perceptions and click behavior in search. Here, we elaborate on these findings by measuring the effects of rank and misinformation, as well as warning banners, on the perceived trustworthiness of individual results in search. We conducted three online experiments (N=3196) using Covid-19-related queries to address this question. We show that although higher-ranked results are clicked more often, they are not more trusted. We also show that misinformation did not change trust in accurate results below it. However, a warning about unreliable sources backfired, decreasing trust in accurate information but not misinformation. This work addresses concerns about how people evaluate information in search, and illustrates the dangers of generic prevention approaches. | 翻訳日:2023-09-21 17:36:02 公開日:2023-09-20 |
# 神経表現のトポロジーと幾何学 The Topology and Geometry of Neural Representations ( http://arxiv.org/abs/2309.11028v1 ) ライセンス: Link先を確認 | Baihan Lin, Nikolaus Kriegeskorte | (参考訳) 神経科学の中心的な問題は、知覚的および認知的コンテンツの脳の表現をいかに特徴付けるかである。
理想的な特徴は、計算的差異に対応しない個々の脳のノイズや慣性に頑健な機能領域を区別すべきである。
これまでの研究では、個々のニューロン(または応答チャネル)の役割を抽象化し、刺激の識別性を特徴づける要約統計量である表現的相同性行列(RDM)によって定義される表現幾何学によって脳の表現を特徴付けてきた。
ここでは、幾何学から脳の表現のトポロジーまで、抽象のさらなるステップを探求する。
本稿では, rdmを一般化し, 幾何を強調しないトポロジーを特徴付けるジオトポロジカルな要約統計の族を用いた表現的類似性解析(rsa)の拡張であるtrsaを提案する。
シミュレーションと機能的MRI(fMRI)データの両方を用いて,モデル選択の感度と特異性の観点から,この新たな統計群を評価する。
シミュレーションでは、基底真理はニューラルネットワークモデルにおけるデータ生成層表現であり、モデルは異なるモデルインスタンス(異なるランダムシードから訓練)における他の層と同じである。
fMRIでは、基底真理は視覚領域であり、モデルは同一であり、他の領域は異なる被験者で測定される。
その結果,集団符号のトポロジに敏感な特徴はノイズや個人間変動に強く,異なるニューラルネットワーク層や脳領域のユニークな表現的シグネチャに対して優れた感度を維持していることがわかった。 A central question for neuroscience is how to characterize brain representations of perceptual and cognitive content. An ideal characterization should distinguish different functional regions with robustness to noise and idiosyncrasies of individual brains that do not correspond to computational differences. Previous studies have characterized brain representations by their representational geometry, which is defined by the representational dissimilarity matrix (RDM), a summary statistic that abstracts from the roles of individual neurons (or responses channels) and characterizes the discriminability of stimuli. Here we explore a further step of abstraction: from the geometry to the topology of brain representations. We propose topological representational similarity analysis (tRSA), an extension of representational similarity analysis (RSA) that uses a family of geo-topological summary statistics that generalizes the RDM to characterize the topology while de-emphasizing the geometry. We evaluate this new family of statistics in terms of the sensitivity and specificity for model selection using both simulations and functional MRI (fMRI) data. In the simulations, the ground truth is a data-generating layer representation in a neural network model and the models are the same and other layers in different model instances (trained from different random seeds). In fMRI, the ground truth is a visual area and the models are the same and other areas measured in different subjects. Results show that topology-sensitive characterizations of population codes are robust to noise and interindividual variability and maintain excellent sensitivity to the unique representational signatures of different neural network layers and brain regions. | 翻訳日:2023-09-21 17:35:50 公開日:2023-09-20 |
# 機械読解による名前付きエンティティ認識:マルチタスク学習アプローチ Named Entity Recognition via Machine Reading Comprehension: A Multi-Task Learning Approach ( http://arxiv.org/abs/2309.11027v1 ) ライセンス: Link先を確認 | Yibo Wang, Wenting Zhao, Yao Wan, Zhongfen Deng, Philip S. Yu | (参考訳) Named Entity Recognition (NER) は、テキスト中のエンティティの言及を事前に定義された型(組織名や人名など)に抽出し分類することを目的としている。
近年,NER を機械読解問題(MRC ベース NER とも呼ばれる)として定式化する研究が多数提案されている。
しかしながら、これらの作業は、名前付きエンティティを正確に認識するために重要なエンティティタイプ間のラベル依存を無視します。
本稿では,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
MRCをベースとしたNERを複数のタスクに分割し、ラベル依存をキャプチャするために自己保持モジュールを使用する。
提案するマルチナーの有効性を検証するため,ネスト型nerおよびフラット型nerデータセットの総合実験を行った。
実験結果から,Multi-NERは全データセットで高い性能が得られることがわかった。 Named Entity Recognition (NER) aims to extract and classify entity mentions in the text into pre-defined types (e.g., organization or person name). Recently, many works have been proposed to shape the NER as a machine reading comprehension problem (also termed MRC-based NER), in which entity recognition is achieved by answering the formulated questions related to pre-defined entity types through MRC, based on the contexts. However, these works ignore the label dependencies among entity types, which are critical for precisely recognizing named entities. In this paper, we propose to incorporate the label dependencies among entity types into a multi-task learning framework for better MRC-based NER. We decompose MRC-based NER into multiple tasks and use a self-attention module to capture label dependencies. Comprehensive experiments on both nested NER and flat NER datasets are conducted to validate the effectiveness of the proposed Multi-NER. Experimental results show that Multi-NER can achieve better performance on all datasets. | 翻訳日:2023-09-21 17:35:22 公開日:2023-09-20 |
# 機械学習モデルにおけるデータ更新からの情報漏洩 Information Leakage from Data Updates in Machine Learning Models ( http://arxiv.org/abs/2309.11022v1 ) ライセンス: Link先を確認 | Tian Hui, Farhad Farokhi, Olga Ohrimenko | (参考訳) 本稿では、最新の情報を取り入れたり、分布シフトを反映するために、更新されたデータセット上で機械学習モデルを再トレーニングする設定について検討する。
トレーニングデータ(レコードの属性値の変更など)でこれらの更新に関する情報を推測できるかどうかを検討する。
ここで、敵はデータセットの変更の前後で、機械学習モデルのスナップショットにアクセスすることができる。
既存の文献とは対照的に、データレコード全体を削除または追加するのではなく、単一または複数のトレーニングデータポイントの属性を変更すると仮定する。
本稿では,元のモデルと更新モデルの予測信頼度の違いに基づく攻撃を提案する。
多層パーセプトロンとロジスティック回帰モデルを用いて,2つの公開データセットに対する攻撃手法の評価を行った。
モデルの2つのスナップショットが更新されたモデルにのみアクセスするのに比べて高い情報漏洩をもたらすことを検証した。
さらに,レア値のデータ記録は,更新時のプライバシ攻撃の脆弱性を指摘し,攻撃に対してより脆弱であることを確認した。
同じ元の属性値を持つ複数のレコードが同じ新しい値に更新される場合(つまり、繰り返しの変更)、アタッカーはトレーニングされたモデルにより大きなフットプリントを残すため、更新された値を正しく推測する可能性が高い。
これらの観察は、更新設定で推論攻撃を属性付ける機械学習モデルの脆弱性を示している。 In this paper we consider the setting where machine learning models are retrained on updated datasets in order to incorporate the most up-to-date information or reflect distribution shifts. We investigate whether one can infer information about these updates in the training data (e.g., changes to attribute values of records). Here, the adversary has access to snapshots of the machine learning model before and after the change in the dataset occurs. Contrary to the existing literature, we assume that an attribute of a single or multiple training data points are changed rather than entire data records are removed or added. We propose attacks based on the difference in the prediction confidence of the original model and the updated model. We evaluate our attack methods on two public datasets along with multi-layer perceptron and logistic regression models. We validate that two snapshots of the model can result in higher information leakage in comparison to having access to only the updated model. Moreover, we observe that data records with rare values are more vulnerable to attacks, which points to the disparate vulnerability of privacy attacks in the update setting. When multiple records with the same original attribute value are updated to the same new value (i.e., repeated changes), the attacker is more likely to correctly guess the updated values since repeated changes leave a larger footprint on the trained model. These observations point to vulnerability of machine learning models to attribute inference attacks in the update setting. | 翻訳日:2023-09-21 17:35:03 公開日:2023-09-20 |
# コンフォーマル化されたマルチモーダル不確実性回帰と推論 Conformalized Multimodal Uncertainty Regression and Reasoning ( http://arxiv.org/abs/2309.11018v1 ) ライセンス: Link先を確認 | Domenico Parente, Nastaran Darabi, Alex C. Stutts, Theja Tulabandhula, and Amit Ranjan Trivedi | (参考訳) 本稿では,共形予測をディープラーニングレグレッサと統合することにより,マルチモーダル(不一致)不確実性境界を予測できる軽量不確実性推定器を提案する。
具体的には,空飛ぶ領域の対称性や,あいまいさや閉塞性によるセンサ測定などの環境特性が,マルチモーダルな不確実性をもたらすような視覚計測(VO)への応用について論じる。
シミュレーションの結果,本フレームワークにおける不確実性評価は,騒音や訓練データ,予測モデルのパラメトリックサイズなど,困難な動作条件に対して標本的に適応することがわかった。
また,これらのロバストな不確実性推定を活用し,予測精度を向上させるために光フローに基づく推論を組み込んだ推論フレームワークを開発した。
そこで本手法は,データ駆動学習の予測の不確かさを適切に考慮し,規則に基づく推論を通じて推定ループを閉じることにより,これらの難解なシナリオのすべてにおいて,従来のディープラーニングアプローチを一貫して上回っている。 This paper introduces a lightweight uncertainty estimator capable of predicting multimodal (disjoint) uncertainty bounds by integrating conformal prediction with a deep-learning regressor. We specifically discuss its application for visual odometry (VO), where environmental features such as flying domain symmetries and sensor measurements under ambiguities and occlusion can result in multimodal uncertainties. Our simulation results show that uncertainty estimates in our framework adapt sample-wise against challenging operating conditions such as pronounced noise, limited training data, and limited parametric size of the prediction model. We also develop a reasoning framework that leverages these robust uncertainty estimates and incorporates optical flow-based reasoning to improve prediction prediction accuracy. Thus, by appropriately accounting for predictive uncertainties of data-driven learning and closing their estimation loop via rule-based reasoning, our methodology consistently surpasses conventional deep learning approaches on all these challenging scenarios--pronounced noise, limited training data, and limited model size-reducing the prediction error by 2-3x. | 翻訳日:2023-09-21 17:34:44 公開日:2023-09-20 |
# CBCT画像における歯片分割のための3D-U-SAMネットワーク 3D-U-SAM Network For Few-shot Tooth Segmentation in CBCT Images ( http://arxiv.org/abs/2309.11015v1 ) ライセンス: Link先を確認 | Yifu Zhang and Zuozhu Liu and Yang Feng and Renjing Xu | (参考訳) 歯の位置の正確な表現は治療において極めて重要である。
3次元歯科画像のセグメンテーションは広く用いられている手法であるが、ラベル付き3次元歯科データセットは乏しい資源であり、このタスクが直面する小さなサンプルの問題に繋がる。
そこで本研究では, 3次元画像分割のための新しい3D-U-SAMネットワークを提案する。
具体的には,2次元事前学習された重みを3次元データセットで使用する問題を解決するため,畳み込み近似法を採用した。
本手法の有効性は,アブレーション実験,比較実験,サンプルサイズ実験で実証された。 Accurate representation of tooth position is extremely important in treatment. 3D dental image segmentation is a widely used method, however labelled 3D dental datasets are a scarce resource, leading to the problem of small samples that this task faces in many cases. To this end, we address this problem with a pretrained SAM and propose a novel 3D-U-SAM network for 3D dental image segmentation. Specifically, in order to solve the problem of using 2D pre-trained weights on 3D datasets, we adopted a convolution approximation method; in order to retain more details, we designed skip connections to fuse features at all levels with reference to U-Net. The effectiveness of the proposed method is demonstrated in ablation experiments, comparison experiments, and sample size experiments. | 翻訳日:2023-09-21 17:34:22 公開日:2023-09-20 |
# ニューラル3次元画像の動的表示制御 Controllable Dynamic Appearance for Neural 3D Portraits ( http://arxiv.org/abs/2309.11009v1 ) ライセンス: Link先を確認 | ShahRukh Athar, Zhixin Shu, Zexiang Xu, Fuji Luan, Sai Bi, Kalyan Sunkavalli and Dimitris Samaras | (参考訳) 近年のNeural Radiance Fields (NeRFs) の進歩により, 頭部, 表情, 視聴方向を制御した動的ポートレートシーンの再構築と再識別が可能となった。
しかし、そのようなモデルのトレーニングでは、変形した領域上での光度整合性を前提としており、例えば、顔は頭部や顔の表情を変えて変形するので、均等に照らさなければならない。
ビデオのフレーム間のこのような光度整合性は、スタジオ環境でも維持が難しいため、生成したニューラルポートレートは、再アニメーション中にアーティファクトに見受けられる。
本研究では,実環境下での3D画像の完全制御を可能にするシステムであるCoDyNeRFを提案する。
CoDyNeRFは、予測表面正規と顔の表情と頭部の変形に条件づけられた標準空間における動的外観モデルを通して、照明依存効果を近似することを学ぶ。
表面正規化予測は、頭部の正常化に先立って粗い働きをする3dmm正規化を用いて誘導されるが、頭部配置や表情の変化によって引き起こされる剛性および非剛性変形により、正常化の直接予測は困難である。
被験者のスマートフォンで撮影したショートビデオのみを訓練用として,頭部の姿勢と表情制御を明示したポートレートシーンのフリービュー合成とリアルな照明効果の有効性を実証した。
プロジェクトページは以下の通りである。 Recent advances in Neural Radiance Fields (NeRFs) have made it possible to reconstruct and reanimate dynamic portrait scenes with control over head-pose, facial expressions and viewing direction. However, training such models assumes photometric consistency over the deformed region e.g. the face must be evenly lit as it deforms with changing head-pose and facial expression. Such photometric consistency across frames of a video is hard to maintain, even in studio environments, thus making the created reanimatable neural portraits prone to artifacts during reanimation. In this work, we propose CoDyNeRF, a system that enables the creation of fully controllable 3D portraits in real-world capture conditions. CoDyNeRF learns to approximate illumination dependent effects via a dynamic appearance model in the canonical space that is conditioned on predicted surface normals and the facial expressions and head-pose deformations. The surface normals prediction is guided using 3DMM normals that act as a coarse prior for the normals of the human head, where direct prediction of normals is hard due to rigid and non-rigid deformations induced by head-pose and facial expression changes. Using only a smartphone-captured short video of a subject for training, we demonstrate the effectiveness of our method on free view synthesis of a portrait scene with explicit head pose and expression controls, and realistic lighting effects. The project page can be found here: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html | 翻訳日:2023-09-21 17:34:07 公開日:2023-09-20 |
# STARNet:ロバストエッジオートノミーのための近似リフレクトによるセンサ信頼性と異常認識 STARNet: Sensor Trustworthiness and Anomaly Recognition via Approximated Likelihood Regret for Robust Edge Autonomy ( http://arxiv.org/abs/2309.11006v1 ) ライセンス: Link先を確認 | Nastaran Darabi, Sina Tayebati, Sureshkumar S., Sathya Ravi, Theja Tulabandhula, and Amit R. Trivedi | (参考訳) LiDAR、RADAR、イベントカメラといった複雑なセンサーは、環境の認識と理解を高めるために自律ロボット工学で増大している。
一方、これらのセンサーは、運用環境と複雑に相互作用できる様々な障害メカニズムにも脆弱である。
並行して、複雑なセンサー上でのトレーニングデータの可用性の制限は、彼らのディープラーニングベースの予測フローの信頼性にも影響する。
このような信頼性問題に対処するために,センサの故障や困難な環境から生じる不確実なセンサストリームを検出するために設計されたセンサ信頼度・異常認識ネットワークSTARNetを提案する。
具体的には、LiDARとカメラデータに基づいてSTARNetをベンチマークする。
スターネットは、低複雑さハードウェア、特に固定点精度しか持たないハードウェア向けに調整された勾配のないフレームワークである近似帰納的後悔という概念を採用している。
広範にシミュレーションを行い,ユニモーダルおよびマルチモーダル環境での信頼できないセンサストリーム検出におけるstarnetの有効性を実証した。
特に、ネットワークは、クロスセンサー干渉やクロストークのような内部センサー障害に対処する上で優れた性能を示す。
悪天候やセンサの故障を含む様々なテストシナリオにおいて,STARNetは信頼できないセンサストリームをフィルタリングすることで予測精度を約10%向上することを示した。
STARNet は \url{https://github.com/sinatayebati/STARNet} で公開されている。 Complex sensors such as LiDAR, RADAR, and event cameras have proliferated in autonomous robotics to enhance perception and understanding of the environment. Meanwhile, these sensors are also vulnerable to diverse failure mechanisms that can intricately interact with their operation environment. In parallel, the limited availability of training data on complex sensors also affects the reliability of their deep learning-based prediction flow, where their prediction models can fail to generalize to environments not adequately captured in the training set. To address these reliability concerns, this paper introduces STARNet, a Sensor Trustworthiness and Anomaly Recognition Network designed to detect untrustworthy sensor streams that may arise from sensor malfunctions and/or challenging environments. We specifically benchmark STARNet on LiDAR and camera data. STARNet employs the concept of approximated likelihood regret, a gradient-free framework tailored for low-complexity hardware, especially those with only fixed-point precision capabilities. Through extensive simulations, we demonstrate the efficacy of STARNet in detecting untrustworthy sensor streams in unimodal and multimodal settings. In particular, the network shows superior performance in addressing internal sensor failures, such as cross-sensor interference and crosstalk. In diverse test scenarios involving adverse weather and sensor malfunctions, we show that STARNet enhances prediction accuracy by approximately 10% by filtering out untrustworthy sensor streams. STARNet is publicly available at \url{https://github.com/sinatayebati/STARNet}. | 翻訳日:2023-09-21 17:33:36 公開日:2023-09-20 |
# 単純だ!
認定ロバスト性向上のための分散化対策 It's Simplex! Disaggregating Measures to Improve Certified Robustness ( http://arxiv.org/abs/2309.11005v1 ) ライセンス: Link先を確認 | Andrew C. Cullen and Paul Montague and Shijie Liu and Sarah M. Erfani and Benjamin I.P. Rubinstein | (参考訳) 認証された堅牢性は、計算されたサイズまでの攻撃に対するクラス不変性の保証をモデル予測に与えることで、敵攻撃に対する防御の脆弱さを回避する。
これらの認定には価値はあるが、それらの実績を評価する手法は、それらの分析が個別のサンプルに対するパフォーマンスの考慮を緩和し、総合的な尺度を支持しているため、その強みと弱みの適切な説明を示さない。
認定モデルの潜在的な出力空間を考慮することで、この研究は、認証機構の分析を改善するための2つの異なるアプローチを示し、データセット非依存とデータセットに依存しない認証性能の両対策を可能にする。
このような視点を取り入れることで、現在の最先端技術と比較して、達成可能な認定半径の2倍以上の可能性を秘めている、新たな認証アプローチが明らかになる。
実験的な評価により,新しい手法ではノイズスケールで9\%$以上のサンプルを認証することが可能であり,予測タスクの難易度が増大するにつれて,相対的な改善が見られた。 Certified robustness circumvents the fragility of defences against adversarial attacks, by endowing model predictions with guarantees of class invariance for attacks up to a calculated size. While there is value in these certifications, the techniques through which we assess their performance do not present a proper accounting of their strengths and weaknesses, as their analysis has eschewed consideration of performance over individual samples in favour of aggregated measures. By considering the potential output space of certified models, this work presents two distinct approaches to improve the analysis of certification mechanisms, that allow for both dataset-independent and dataset-dependent measures of certification performance. Embracing such a perspective uncovers new certification approaches, which have the potential to more than double the achievable radius of certification, relative to current state-of-the-art. Empirical evaluation verifies that our new approach can certify $9\%$ more samples at noise scale $\sigma = 1$, with greater relative improvements observed as the difficulty of the predictive task increases. | 翻訳日:2023-09-21 17:33:11 公開日:2023-09-20 |
# PPD: 自動走行のための歩行者用魚眼データセット PPD: A New Valet Parking Pedestrian Fisheye Dataset for Autonomous Driving ( http://arxiv.org/abs/2309.11002v1 ) ライセンス: Link先を確認 | Zizhang Wu, Xinyuan Chen, Fan Song, Yuanzhu Gan, Tianhao Xu, Jian Pu, Rui Tang | (参考訳) バレット駐車シナリオ下での歩行者検出は、自動運転に不可欠である。
しかし, 歩行者の存在は, 不完全な環境条件下での姿勢や様々な方法で現れ, 検出性能に悪影響を及ぼす可能性がある。
さらに、歩行者を含む公共データセットで訓練されたモデルは、一般的にこれらのバレット駐車シナリオに対して最適な結果をもたらす。
本稿では,実世界の歩行者,特に咬合や多様な姿勢に関する研究を支援する大規模魚眼データセットであるppd(parking pedestrian dataset)について紹介する。
PPDは、魚眼カメラで捉えたいくつかの特徴的なタイプの歩行者で構成されている。
さらに,歩行者検出ベースラインをPDDデータセット上に提示し,元のデータセットの多様性を高めてベースラインを改善するための2つのデータ拡張手法を提案する。
大規模な実験により、ベースラインとデータセットの異常な一般化可能性に対する新しいデータ拡張アプローチの有効性が検証された。 Pedestrian detection under valet parking scenarios is fundamental for autonomous driving. However, the presence of pedestrians can be manifested in a variety of ways and postures under imperfect ambient conditions, which can adversely affect detection performance. Furthermore, models trained on publicdatasets that include pedestrians generally provide suboptimal outcomes for these valet parking scenarios. In this paper, wepresent the Parking Pedestrian Dataset (PPD), a large-scale fisheye dataset to support research dealing with real-world pedestrians, especially with occlusions and diverse postures. PPD consists of several distinctive types of pedestrians captured with fisheye cameras. Additionally, we present a pedestrian detection baseline on PPD dataset, and introduce two data augmentation techniques to improve the baseline by enhancing the diversity ofthe original dataset. Extensive experiments validate the effectiveness of our novel data augmentation approaches over baselinesand the dataset's exceptional generalizability. | 翻訳日:2023-09-21 17:32:53 公開日:2023-09-20 |
# 新型コロナウイルス感染拡大に伴う国内移住と日常移動の社会的階層化 The social stratification of internal migration and daily mobility during the COVID-19 pandemic ( http://arxiv.org/abs/2309.11062v1 ) ライセンス: Link先を確認 | Erick Elejalde and Leo Ferres and V\'ictor Navarro and Loreto Bravo and Emilio Zagheni | (参考訳) この研究は540万人のユーザーの携帯電話データを活用し、世界規模のCOVID-19パンデミック中のチリのサンティアゴでの内部移動と日常移動の複雑なダイナミクスを明らかにする。
主な発見は、2020年における低所得層の日常生活移動率の増加である。
対照的に、長期の転職パターンは、主に高所得層で増加した。
これらの変化は、社会経済的階層のパンデミックに対する微妙な反応を示している。
2017年とは異なり、2020年の経済要因は移住の決定だけでなく目的地の選択にも影響を与え、移動行動に大きな変化をもたらした。
予想に反して、パンデミック中のサンティアゴからの移住が急増したにもかかわらず、都市部よりも農村部の方が好まれる証拠はなかった。
本研究は,社会経済の諸条件が危機時のモビリティ決定とどのように相互作用するかの理解を深め,急速に変化する状況において公正でインフォームドな措置を実施しようとする政策立案者にとって貴重な洞察を与えるものである。 This study leverages mobile phone data for 5.4 million users to unveil the complex dynamics of internal migration and daily mobility in Santiago de Chile during the global COVID-19 pandemic, with a focus on socioeconomic differentials. Major findings include an increase in daily mobility among lower-income brackets compared to higher ones in 2020. In contrast, long-term relocation patterns rose primarily among higher-income groups. These shifts indicate a nuanced response to the pandemic across socioeconomic strata. Unlike in 2017, economic factors in 2020 influenced a change not only in the decision to emigrate but also in the selection of destinations, suggesting a profound transformation in mobility behaviors. Contrary to expectations, there was no evidence supporting a preference for rural over urban destinations despite the surge in emigration from Santiago during the pandemic. The study enhances our understanding of how varying socioeconomic conditions intersect with mobility decisions during crises and provides valuable insights for policymakers aiming to enact fair, informed measures in rapidly changing circumstances. | 翻訳日:2023-09-21 17:25:53 公開日:2023-09-20 |
# XY相互作用による省エネルギー量子回路の合成 Synthesis of Energy-Conserving Quantum Circuits with XY interaction ( http://arxiv.org/abs/2309.11051v1 ) ライセンス: Link先を確認 | Ge Bai and Iman Marvian | (参考訳) 我々は、$\sqrt{iSWAP}$ゲートとより一般的には、XX+YY相互作用だけで実現可能なエンタングルゲートから構築された量子回路について研究する。
システム内の各量子ビットの固有ハミルトニアンがパウリ z 作用素であると仮定すると、そのようなゲートはシステムの全エネルギーを保存できる。
等しく、大域 U(1) 対称性を尊重する。
我々は,z軸まわりの単一ビット回転の有無にかかわらず,XX+YY相互作用を用いて所望のエネルギー保存ユニタリを実現する回路を効率的に合成する方法を開発した。
興味深いことに、cczゲートやfredkinゲートのような一般的なエネルギー保存ユニタリを2つのローカルエネルギー保存ゲートで実装するには、アンシラキュービットを使用する必要がある。
z軸まわりのシングルキュービット回転が許容される場合、このスキームは1つのアンシラキュービットのみを必要とするが、xx+yy相互作用のみの場合、2つのアンシラキュービットが必要である。
正確な実現に加えて、近似現実化についても検討し、$\sqrt{iSWAP}$ gates と 2 個の補助量子ビットの列のみを用いて一般エネルギー保存ユニタリをいかに合成できるかを示し、ソロヴィ・キタエフの定理を通じて有界な小さな誤差を持つ。
我々の方法は、XY相互作用ではなく、ハイゼンベルク交換相互作用のような計算ベースでは対角的でない他のエネルギー保存2体相互作用にアクセスできる場合、エネルギー保存ユニタリの合成にも適用できる。
量子コンピューティング、量子熱力学、量子時計の文脈におけるこれらの回路の応用について簡単に述べる。 We study quantum circuits constructed from $\sqrt{iSWAP}$ gates and, more generally, from the entangling gates that can be realized with the XX+YY interaction alone. Assuming that the intrinsic Hamiltonian of each qubit in the system is the Pauli Z operator, such gates conserve the total energy of the system. Equivalently, they respect a global U(1) symmetry. We develop efficient methods for synthesizing circuits realizing any desired energy-conserving unitary using XX+YY interaction with or without single-qubit rotations around the z-axis. Interestingly, implementing generic energy-conserving unitaries, such as CCZ and Fredkin gates, with 2-local energy-conserving gates requires the use of ancilla qubits. When single-qubit rotations around the z-axis are permitted, our scheme requires only a single ancilla qubit, whereas with the XX+YY interaction alone, it requires 2 ancilla qubits. In addition to exact realizations, we also consider approximate realizations and show how a general energy-conserving unitary can be synthesized using only a sequence of $\sqrt{iSWAP}$ gates and 2 ancillary qubits, with arbitrarily small error, which can be bounded via the Solovay-Kitaev theorem. Our methods are also applicable for synthesizing energy-conserving unitaries when, rather than the XY interaction, one has access to any other energy-conserving 2-body interaction that is not diagonal in the computational basis, such as the Heisenberg exchange interaction. We briefly discuss the applications of these circuits in the context of quantum computing, quantum thermodynamics, and quantum clocks. | 翻訳日:2023-09-21 17:25:36 公開日:2023-09-20 |
# Localize, Retrieve and Fuse: テーブル上のフリーフォーム質問回答のための汎用フレームワーク Localize, Retrieve and Fuse: A Generalized Framework for Free-Form Question Answering over Tables ( http://arxiv.org/abs/2309.11049v1 ) ライセンス: Link先を確認 | Wenting Zhao, Ye Liu, Yao Wan, Yibo Wang, Zhongfen Deng, and Philip S. Yu | (参考訳) 表データ(tableqa, question answering on tabular data, 表データ)は、ある表上の質問に対する回答を生成することを目的としているが、近年は注目を集めている。
既存の作業は、選択されたテーブルセルを推論することなく、1つまたは数個のテーブルセルから情報を抽出することで、実際のショートフォームの回答を生成する傾向がある。
しかし、より複雑なテーブルセル選択戦略と、別々の情報の複雑な統合と推論を必要とするフリーフォームのTableQAは、未調査である。
そこで本研究では,テーブルからグラフへの変換とセルローカライズ,外部知識検索,テーブルテキスト融合(TAG-QA)という3段階のアプローチを提案する。
特に、tag-qaは、グラフニューラルネットワークを用いて関連するテーブルセルを見つけ、関連する行と列の間に交差するセルを収集する。(2)wikipediaの外部知識を活用して、(3)表データと自然言語情報を統合して回答を生成する。
人間による評価実験により、TAG-QAはいくつかの最先端のベースラインと比較して、より忠実で一貫性のある文を生成することができることが示された。
特に、TAG-QAは、それぞれBLEU-4とPARENT Fスコアで、強いパイプラインベースのベースラインTAPASを17%、かつ14%上回る。
さらに、TAG-QA は BLEU-4 と PARENT F-score で、エンドツーエンドモデル T5 を 16% と 12% で上回っている。 Question answering on tabular data (TableQA), which aims at generating answers to questions grounded on a given table, has attracted increasing attention in recent years. Existing work tends to generate factual short-form answers by extracting information from one or a few table cells without reasoning over selected table cells. However, the free-form TableQA, requiring a more complex relevant table cell selection strategy and the complex integration and inference of separate pieces of information, has been under-explored. To this end, this paper proposes a generalized three-stage approach: Table-to-Graph conversion and cell localizing, external knowledge retrieval and table-text fusion (called TAG-QA), addressing the challenge of inferring long free-form answer for generative TableQA. In particular, TAG-QA (1) locates relevant table cells using a graph neural network to gather intersecting cells between relevant rows and columns; (2) leverages external knowledge from Wikipedia and (3) generates answers by integrating both tabular data and natural linguistic information. Experiments with a human evaluation demonstrate that TAG-QA is capable of generating more faithful and coherent sentence when compared with several state-of-the-art baselines. Especially, TAG-QA outperforms the strong pipeline-based baseline TAPAS by 17% and 14%, in terms of BLEU-4 and PARENT F-score, respectively. Moreover, TAG-QA outperforms end-to-end model T5 by 16% and 12% on BLEU-4 and PARENT F-score. | 翻訳日:2023-09-21 17:25:03 公開日:2023-09-20 |
# 協調型コンピュート・イン・メモリ・ネットワークにおける周波数領域圧縮によるエッジでのアナログデータ希釈 Containing Analog Data Deluge at Edge through Frequency-Domain Compression in Collaborative Compute-in-Memory Networks ( http://arxiv.org/abs/2309.11048v1 ) ライセンス: Link先を確認 | Nastaran Darabi, and Amit R. Trivedi | (参考訳) エッジコンピューティングは、自律ドローンのようなアプリケーションのために、センサーやIoTデバイスから高次元のマルチスペクトルアナログデータを処理するための有望なソリューションである。
しかし、エッジデバイスの限られたストレージとコンピューティングリソースは、エッジでの複雑な予測モデルの実行を困難にしている。
compute-in-memory(cim)は、エッジにおけるディープラーニングベースの推論のエネルギーを最小化する主要なパラダイムとして登場した。
それでも、ストレージと処理の統合はメモリセルやメモリ周辺を複雑にし、エネルギー効率の領域効率を本質的に引き離す。
本稿では,ディープラーニング推論タスクにおける領域効率向上のための新しい手法を提案する。
提案手法は2つの戦略を用いる。
まず、周波数領域学習アプローチでは、二項化されたWalsh-Hadamard変換を使用し、DNNに必要なパラメータ(MobileNetV2では87%削減)を削減し、推論時の並列性をよりよく活用するComputer-in-SRAMを実現する。
次に、従来のADCの領域オーバーヘッドを低減するため、CiMアレイ間でメモリ没入協調ディジタル化法を記述する。
これにより、限られたフットプリント設計におけるより多くのCiM配列が実現され、並列性が向上し、外部メモリアクセスが削減される。
異なるネットワーク構成を探索し、Flash、SA、およびそれらのハイブリッドデジタル化ステップをメモリ没入方式を用いて実装することができる。
その結果,65nm CMOS試験チップを用いて,40nm ノード 5bit SAR ADC および 5bit Flash ADC と比較して,かなりの面積と省エネ性を示した。
アナログデータをより効率的に処理することにより、センサからの貴重なデータを選択的に保持し、アナログデータデルージュによる課題を軽減することができる。 Edge computing is a promising solution for handling high-dimensional, multispectral analog data from sensors and IoT devices for applications such as autonomous drones. However, edge devices' limited storage and computing resources make it challenging to perform complex predictive modeling at the edge. Compute-in-memory (CiM) has emerged as a principal paradigm to minimize energy for deep learning-based inference at the edge. Nevertheless, integrating storage and processing complicates memory cells and/or memory peripherals, essentially trading off area efficiency for energy efficiency. This paper proposes a novel solution to improve area efficiency in deep learning inference tasks. The proposed method employs two key strategies. Firstly, a Frequency domain learning approach uses binarized Walsh-Hadamard Transforms, reducing the necessary parameters for DNN (by 87% in MobileNetV2) and enabling compute-in-SRAM, which better utilizes parallelism during inference. Secondly, a memory-immersed collaborative digitization method is described among CiM arrays to reduce the area overheads of conventional ADCs. This facilitates more CiM arrays in limited footprint designs, leading to better parallelism and reduced external memory accesses. Different networking configurations are explored, where Flash, SA, and their hybrid digitization steps can be implemented using the memory-immersed scheme. The results are demonstrated using a 65 nm CMOS test chip, exhibiting significant area and energy savings compared to a 40 nm-node 5-bit SAR ADC and 5-bit Flash ADC. By processing analog data more efficiently, it is possible to selectively retain valuable data from sensors and alleviate the challenges posed by the analog data deluge. | 翻訳日:2023-09-21 17:24:33 公開日:2023-09-20 |
# bertとニューラルネットワークを用いた複合属性アソシエーションによる異種エンティティマッチング Heterogeneous Entity Matching with Complex Attribute Associations using BERT and Neural Networks ( http://arxiv.org/abs/2309.11046v1 ) ライセンス: Link先を確認 | Shitao Wang and Jiamin Lu | (参考訳) さまざまなドメインにわたって、Baidu BaikeやWikipediaのような異なるソースからのデータは、しばしば異なる形式で表される。
現在のエンティティマッチング手法は主に均質なデータに焦点を当てており、同じ構造と簡潔な属性値を共有する属性が特徴である。
しかし、このオリエンテーションは様々なフォーマットでデータを扱う際に問題を引き起こす。
さらに、それに対応する属性間の属性値の類似性を集約し、エンティティの類似性を確認する。
しかし、属性間の複雑な相互関係は見過ごされ、ある属性が複数の関連を持つ可能性がある。
これらの課題に対処するために,我々は,事前学習されたモデルに基づいて構築された,複合属性関係をキャプチャするエンティティマッチングモデル(Entity Matching Model for Capturing Complex Attribute Relationships,EMM-CCAR)を導入する。
具体的には、このモデルはマッチングタスクをシーケンスマッチング問題に変換し、さまざまなデータフォーマットの影響を軽減する。
さらに注意機構を導入することで,属性間の複雑な関係を識別し,1対1の対応ではなく,複数の属性間のマッチングの程度を強調する。
EMM-CCARモデルの統合により,データの不均一性と複雑な属性相互依存性によって生じる課題を十分に克服する。
従来のDER-SSMとDittoのアプローチと比較すると,F1スコアの約4%と1%の改善が達成されている。
これにより、エンティティマッチングにおける属性複雑性の複雑さに対処する堅牢なソリューションが提供される。 Across various domains, data from different sources such as Baidu Baike and Wikipedia often manifest in distinct forms. Current entity matching methodologies predominantly focus on homogeneous data, characterized by attributes that share the same structure and concise attribute values. However, this orientation poses challenges in handling data with diverse formats. Moreover, prevailing approaches aggregate the similarity of attribute values between corresponding attributes to ascertain entity similarity. Yet, they often overlook the intricate interrelationships between attributes, where one attribute may have multiple associations. The simplistic approach of pairwise attribute comparison fails to harness the wealth of information encapsulated within entities.To address these challenges, we introduce a novel entity matching model, dubbed Entity Matching Model for Capturing Complex Attribute Relationships(EMM-CCAR),built upon pre-trained models. Specifically, this model transforms the matching task into a sequence matching problem to mitigate the impact of varying data formats. Moreover, by introducing attention mechanisms, it identifies complex relationships between attributes, emphasizing the degree of matching among multiple attributes rather than one-to-one correspondences. Through the integration of the EMM-CCAR model, we adeptly surmount the challenges posed by data heterogeneity and intricate attribute interdependencies. In comparison with the prevalent DER-SSM and Ditto approaches, our model achieves improvements of approximately 4% and 1% in F1 scores, respectively. This furnishes a robust solution for addressing the intricacies of attribute complexity in entity matching. | 翻訳日:2023-09-21 17:24:01 公開日:2023-09-20 |
# 生成モデルにおけるスコアミスマッチ Score Mismatching for Generative Modeling ( http://arxiv.org/abs/2309.11043v1 ) ライセンス: Link先を確認 | Senmao Ye, Fei Liu | (参考訳) ワンステップサンプリングを用いた新しいスコアベースモデルを提案する。
それまでは、スコアベースモデルは反復サンプリングによって重い計算に悩まされていた。
反復処理を置換するために、スコアネットワークから逆転した勾配で全ての時間ステップを圧縮するようにスタンドアロンのジェネレータを訓練する。
生成器に有意義な勾配を与えるため、スコアネットワークは実データ分布を同時にマッチングし、偽データ分布を誤マッチするように訓練される。
このモデルには以下の利点がある。
1)サンプリングには,一歩前進するだけで偽画像を生成する。
2) トレーニングには10段階の拡散ステップしか必要とせず, 整合性モデルと比較すると, 整合性損失に起因する問題がない。
一般的なCIFAR-10データセットでは、我々のモデルは一貫性モデルとDenoising Score Matchingより優れており、フレームワークの可能性を示している。
さらに、MINISTとLSUNデータセットについてさらに例を挙げる。
コードはGitHubで入手できる。 We propose a new score-based model with one-step sampling. Previously, score-based models were burdened with heavy computations due to iterative sampling. For substituting the iterative process, we train a standalone generator to compress all the time steps with the gradient backpropagated from the score network. In order to produce meaningful gradients for the generator, the score network is trained to simultaneously match the real data distribution and mismatch the fake data distribution. This model has the following advantages: 1) For sampling, it generates a fake image with only one step forward. 2) For training, it only needs 10 diffusion steps.3) Compared with consistency model, it is free of the ill-posed problem caused by consistency loss. On the popular CIFAR-10 dataset, our model outperforms Consistency Model and Denoising Score Matching, which demonstrates the potential of the framework. We further provide more examples on the MINIST and LSUN datasets. The code is available on GitHub. | 翻訳日:2023-09-21 17:23:37 公開日:2023-09-20 |
# 偏光に基づく角速度測定のための循環弱値距離法 Polarization-based cyclic weak value metrology for angular velocity measurement ( http://arxiv.org/abs/2309.11041v1 ) ライセンス: Link先を確認 | Zi-Rui Zhong and Yue Chen and Wei-Jun Tan and Xiang-Ming Hu and Qing-Lin Wu | (参考訳) 弱値は、選択後の電力コストによる測定値の変化を増幅することが証明されている。
以前の電力リサイクル方式では、故障後の光子が繰り返し選択され、上層ノイズの限界を超え、干渉計システムの精度が向上した。
本稿では,偏光に基づく弱値に基づく角速度測定の感度を向上させるための3つの周期的手法を提案する。
システム内に1つまたは2つの部分的に透過するミラーを挿入することにより、検出された信号のパワーと精度が大幅に向上し、デュアルリサイクル方式は電力または信号リサイクル方式よりも広い最適領域を有する。
非偏光スキームと比較して、偏光ベースのスキームは低い光損失とユニークな循環方向を享受する。
これにより、光の異なる経路間のクロストークが減少し、理論的にはウォークオフ効果が排除され、理論的な性能と応用が高まる。 Weak value has been proved to amplify the detecting changes of the meters at the cost of power due to post-selection. Previous power-recycling schemes enable the failed post-selection photons to be reselected repeatedly, thus surpassing the upper noise limit and improving the precision of interferometric systems. Here we introduce three cyclic methods to improve the sensitivity of polarization-based weak-value-based angular velocity measurement: power-, signal- and dual-recycling schemes. By inserting one or two partially transmitting mirrors inside the system, both the power and precision of detected signals are greatly enhanced, and the dual-recycling scheme has wider optimal region than that of power- or signal-recycling schemes. Compared to non-polarization schemes, polarization-based schemes enjoy lower optical loss and unique cyclic directions. These reduce the crosstalk among different paths of light and, theoretically, eliminate the walk-off effect, thus towering in both theoretical performance and application. | 翻訳日:2023-09-21 17:23:22 公開日:2023-09-20 |
# CaveSeg:自律型水中洞窟探査のための深部セマンティックセグメンテーションとシーンパーシング CaveSeg: Deep Semantic Segmentation and Scene Parsing for Autonomous Underwater Cave Exploration ( http://arxiv.org/abs/2309.11038v1 ) ライセンス: Link先を確認 | A. Abdullah, T. Barua, R. Tibbetts, Z. Chen, M. J. Islam, I. Rekleitis | (参考訳) 本稿では,水中洞窟におけるAUVナビゲーションのためのセマンティックセグメンテーションとシーン解析のための最初のビジュアル学習パイプラインであるCaveSegを紹介する。
水中洞窟シーンのセマンティックセマンティックセグメンテーションのための包括的データセットを作成し,注釈付きトレーニングデータの不足に対処する。
重要なナビゲーションマーカー(洞窟線、矢印など)、障害物(地平原や頭上層など)、スキューバダイバー、サーボのためのオープンエリアのためのピクセルアノテーションが含まれている。
米国、メキシコ、スペインの洞窟システムに関する包括的なベンチマーク分析を通じて、水中洞窟環境を高速に意味論的に解析するためのcavesegに基づく強固な深部視覚モデルの開発が可能であることを実証する。
特に,計算的に軽量で,リアルタイムに近い実行が可能なトランスフォーマーモデルを構築し,最先端性能を実現する。
最後に,水中洞窟内におけるAUVによる視覚サーボのためのセマンティックセグメンテーションの設計選択と意義について検討する。
提案されたモデルとベンチマークデータセットは、自律型水中洞窟探査とマッピングにおける将来の研究の有望な機会を開く。 In this paper, we present CaveSeg - the first visual learning pipeline for semantic segmentation and scene parsing for AUV navigation inside underwater caves. We address the problem of scarce annotated training data by preparing a comprehensive dataset for semantic segmentation of underwater cave scenes. It contains pixel annotations for important navigation markers (e.g. caveline, arrows), obstacles (e.g. ground plain and overhead layers), scuba divers, and open areas for servoing. Through comprehensive benchmark analyses on cave systems in USA, Mexico, and Spain locations, we demonstrate that robust deep visual models can be developed based on CaveSeg for fast semantic scene parsing of underwater cave environments. In particular, we formulate a novel transformer-based model that is computationally light and offers near real-time execution in addition to achieving state-of-the-art performance. Finally, we explore the design choices and implications of semantic segmentation for visual servoing by AUVs inside underwater caves. The proposed model and benchmark dataset open up promising opportunities for future research in autonomous underwater cave exploration and mapping. | 翻訳日:2023-09-21 17:23:06 公開日:2023-09-20 |
# 分類に基づくデリバティブフリー最適化のための領域分割に基づく高速化 A Region-Shrinking-Based Acceleration for Classification-Based Derivative-Free Optimization ( http://arxiv.org/abs/2309.11036v1 ) ライセンス: Link先を確認 | Tianyi Han, Jingya Li, Zhipeng Guo and Yuan Jin | (参考訳) デリバティブフリー最適化アルゴリズムは、特にデリバティブ情報がアクセスできない場合に、科学的および工学的設計最適化問題において重要な役割を果たす。
本稿では,分類に基づくデリバティブフリー最適化アルゴリズムの枠組みについて検討する。
仮説目標破砕率という概念を導入することで、この種のアルゴリズムの計算複雑性の上界を再考する。
再検討した上界にインスパイアされたアルゴリズム「RACE-CARS」は,SRACOS(Hu et al., 2017)と比較してランダムな領域収縮ステップを付加する。
.
さらに、領域収縮の加速を示す定理を確立する。
合成機能および言語モデル・アズ・ア・サービスのためのブラックボックスチューニングの実験は、「RACE-CARS」の効率を実証的に示す。
また,導入したハイパーパラメーターに対するアブレーション実験を行い,"レースカー"のメカニズムを明らかにし,経験的なハイパーパラメータチューニング指導を行った。 Derivative-free optimization algorithms play an important role in scientific and engineering design optimization problems, especially when derivative information is not accessible. In this paper, we study the framework of classification-based derivative-free optimization algorithms. By introducing a concept called hypothesis-target shattering rate, we revisit the computational complexity upper bound of this type of algorithms. Inspired by the revisited upper bound, we propose an algorithm named "RACE-CARS", which adds a random region-shrinking step compared with "SRACOS" (Hu et al., 2017).. We further establish a theorem showing the acceleration of region-shrinking. Experiments on the synthetic functions as well as black-box tuning for language-model-as-a-service demonstrate empirically the efficiency of "RACE-CARS". An ablation experiment on the introduced hyperparameters is also conducted, revealing the mechanism of "RACE-CARS" and putting forward an empirical hyperparameter-tuning guidance. | 翻訳日:2023-09-21 17:22:45 公開日:2023-09-20 |
# 一般化Wigner-Yanaseスキュー情報による多部絡み検出 Multipartite entanglement detection via generalized Wigner-Yanase skew information ( http://arxiv.org/abs/2309.11034v1 ) ライセンス: Link先を確認 | Yan Hong, Yabin Xing, Limin Gao, Ting Gao, Fengli Yan | (参考訳) 多部量子系における多部交絡の検出は、量子情報理論における基本的かつ重要な問題である。
本稿では、yang $et$al$によって導入された一般化されたwigner-yanaseスキュー情報の観点から、k$-nonseparabilityとn$-partite量子システムのk$-partite絡み合いについて検討する。
https://doi.org/10.1103/PhysRevA.106.052401 }{Phys
rev. a \textbf{106}, 052401 (2022)}]。
より具体的には、一般化されたウィグナー・ヤナーゼスキュー情報を用いて表現される絡み合い基準を構築するための不等式という2つの異なるアプローチを考案する。
量子状態によるこれらの不等式に対する違反は、その$k$非可分性または$k$-偏分性を示すので、これらの不等式は、$k$非可分性または$k$-偏分性を含む全ての$N$非可分性または$2$非可分性から$N$-偏分性への階層的な分類を示す。
この結果から,他の手法では検出されない$k$非分離性と$k$部分的絡み合いが明らかとなり,いくつかの例で示す。 The detection of multipartite entanglement in multipartite quantum systems is a fundamental and key issue in quantum information theory. In this paper, we investigate $k$-nonseparability and $k$-partite entanglement of $N$-partite quantum systems from the perspective of the generalized Wigner-Yanase skew information introduced by Yang $et$ $al$. [\href{https://doi.org/10.1103/PhysRevA.106.052401 }{Phys. Rev. A \textbf{106}, 052401 (2022)}]. More specifically, we develop two different approaches in form of inequalities to construct entanglement criteria, which are expressed in terms of the generalized Wigner-Yanase skew information. Any violation of these inequalities by a quantum state reveals its $k$-nonseparability or $k$-partite entanglement, so these inequalities present the hierarchic classifications of $k$-nonseparability or $k$-partite entanglement for all $N$-partite quantum states from $N$-nonseparability to $2$-nonseparability or from $2$-partite entanglement to $N$-partite entanglement, which are more refined than well-known ways. It is shown that our results reveal some $k$-nonseparability and $k$-partite entanglement that remain undetected by other methods, and these are illustrated through some examples. | 翻訳日:2023-09-21 17:22:29 公開日:2023-09-20 |
# 大規模コンテンツベースビデオ検索における学習セグメントの類似性とアライメント Learning Segment Similarity and Alignment in Large-Scale Content Based Video Retrieval ( http://arxiv.org/abs/2309.11091v1 ) ライセンス: Link先を確認 | Chen Jiang, Kaiming Huang, Sifeng He, Xudong Yang, Wei Zhang, Xiaobo Zhang, Yuan Cheng, Lei Yang, Qing Wang, Furong Xu, Tan Pan, Wei Chu | (参考訳) 近年のWebビデオの爆発的な成長に伴い、ビデオフィルタリング、レコメンデーション、著作権保護において、CBVR(Content-Based Video Retrieval)がますます重要になっている。
セグメントレベルCBVR(S-CBVR)は、特に長いビデオシナリオにおいて、ユーザのブラウジング効率と侵害検出に有用である、より粒度の細かい類似セグメントの開始時刻と終了時刻を特定する。
S-CBVRタスクの課題は、効率的な計算と低ストレージ消費で高時間アライメント精度を実現する方法である。
本稿では,まず,S-CBVRでエンドツーエンドに学習した課題に対処するために,Segment similarity and Alignment Network (SSAN)を提案する。
ssanはビデオ検索において新たに提案された2つのモジュールに基づいている:(1)冗長なフレーム特徴を減らすための効率的な自己教師付きキーフレーム抽出(ske)モジュール、(2)時間的アライメントのためのロバスト類似性パターン検出(spd)モジュール。
均一なフレーム抽出と比較すると、SKEは特徴記憶時間と検索時間を節約するだけでなく、同等の精度と余分な計算時間も導入する。
時間的アライメントの観点では、SPDは既存のディープラーニング手法よりも高精度で効率の良い類似セグメントをローカライズする。
さらに,SSANをSKEとSPDと共同で訓練し,エンドツーエンドの改善を実現した。
一方、SKEとSPDの2つのキーモジュールは、他のビデオ検索パイプラインに効果的に挿入することができ、大幅な性能改善が可能である。
公開データセットを用いた実験結果から,SSANはストレージを節約しながらアライメント精度を向上し,既存の手法と比較してオンラインクエリ計算コストを低減できることがわかった。 With the explosive growth of web videos in recent years, large-scale Content-Based Video Retrieval (CBVR) becomes increasingly essential in video filtering, recommendation, and copyright protection. Segment-level CBVR (S-CBVR) locates the start and end time of similar segments in finer granularity, which is beneficial for user browsing efficiency and infringement detection especially in long video scenarios. The challenge of S-CBVR task is how to achieve high temporal alignment accuracy with efficient computation and low storage consumption. In this paper, we propose a Segment Similarity and Alignment Network (SSAN) in dealing with the challenge which is firstly trained end-to-end in S-CBVR. SSAN is based on two newly proposed modules in video retrieval: (1) An efficient Self-supervised Keyframe Extraction (SKE) module to reduce redundant frame features, (2) A robust Similarity Pattern Detection (SPD) module for temporal alignment. In comparison with uniform frame extraction, SKE not only saves feature storage and search time, but also introduces comparable accuracy and limited extra computation time. In terms of temporal alignment, SPD localizes similar segments with higher accuracy and efficiency than existing deep learning methods. Furthermore, we jointly train SSAN with SKE and SPD and achieve an end-to-end improvement. Meanwhile, the two key modules SKE and SPD can also be effectively inserted into other video retrieval pipelines and gain considerable performance improvements. Experimental results on public datasets show that SSAN can obtain higher alignment accuracy while saving storage and online query computational cost compared to existing methods. | 翻訳日:2023-09-21 17:16:05 公開日:2023-09-20 |
# 組込み検索アライメント:トランスフォーマーモデルを用いたDNA配列アライメント Embed-Search-Align: DNA Sequence Alignment using Transformer Models ( http://arxiv.org/abs/2309.11087v1 ) ライセンス: Link先を確認 | Pavan Holur, K. C. Enevoldsen, Lajoyce Mboning, Thalia Georgiou, Louis-S. Bouchard, Matteo Pellegrini and Vwani Roychowdhury | (参考訳) DNA配列のアライメントは、幅広い参照ゲノム上の最も可能性の高い場所に短いDNA読取を割り当てることを含む。
このプロセスは、変異呼び出し、転写学、エピジェノミクスを含む様々なゲノム解析に不可欠である。
何十年にもわたって洗練されてきた従来の手法は、ゲノムインデクシングと効率的な検索という2つのステップでこの問題に取り組む。
距離メトリクスが意味的類似性を捉えた埋め込みへのテキストのエンコーディングにおける大言語モデル(llm)の成功に基づいて、最近の研究は、同じトランスフォーマーアーキテクチャがdna配列の数値表現を生成できるかどうかを探っている。
このようなモデルは、コーディングと非コーディング領域の検出、エンハンサーとプロモーター配列の同定など、短いDNA配列の分類を含むタスクにおいて、早期に有望であることが示されている。
しかし、シーケンス分類タスクのパフォーマンスは配列アライメントに変換されず、ゲノム全体の検索を行い、すべての読み取りを適切にアライメントする必要がある。
我々は,この課題を組込み探索処理タスクとして組み込むことで解決する。
この枠組みでは、新しいエンコーダモデルDNA-ESAが参照の読み取りとフラグメントの表現を生成し、リードフラグメント距離をアライメントの代理として使用する共有ベクトル空間に投影する。
特にDNA-ESAは,(1)DNA配列表現の自己教師的訓練における対照的な損失,(2)断片を世界規模で探索するためのDNAベクターストアを導入している。
DNA-ESAは、250長の読みを3ギガ塩基(単倍体)のヒト基準ゲノムに合わせると97%正確であり、最近の6つのDNA-トランスフォーマーモデルベースラインのパフォーマンスをはるかに上回り、染色体や種間でタスク転送を示す。 DNA sequence alignment involves assigning short DNA reads to the most probable locations on an extensive reference genome. This process is crucial for various genomic analyses, including variant calling, transcriptomics, and epigenomics. Conventional methods, refined over decades, tackle this challenge in two steps: genome indexing followed by efficient search to locate likely positions for given reads. Building on the success of Large Language Models (LLM) in encoding text into embeddings, where the distance metric captures semantic similarity, recent efforts have explored whether the same Transformer architecture can produce numerical representations for DNA sequences. Such models have shown early promise in tasks involving classification of short DNA sequences, such as the detection of coding vs non-coding regions, as well as the identification of enhancer and promoter sequences. Performance at sequence classification tasks does not, however, translate to sequence alignment, where it is necessary to conduct a genome-wide search to successfully align every read. We address this open problem by framing it as an Embed-Search-Align task. In this framework, a novel encoder model DNA-ESA generates representations of reads and fragments of the reference, which are projected into a shared vector space where the read-fragment distance is used as surrogate for alignment. In particular, DNA-ESA introduces: (1) Contrastive loss for self-supervised training of DNA sequence representations, facilitating rich sequence-level embeddings, and (2) a DNA vector store to enable search across fragments on a global scale. DNA-ESA is >97% accurate when aligning 250-length reads onto a human reference genome of 3 gigabases (single-haploid), far exceeds the performance of 6 recent DNA-Transformer model baselines and shows task transfer across chromosomes and species. | 翻訳日:2023-09-21 17:15:33 公開日:2023-09-20 |
# 音響による高密度2D-3次元室内予測 Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal Distillation ( http://arxiv.org/abs/2309.11081v1 ) ライセンス: Link先を確認 | Heeseung Yun, Joonil Na, Gunhee Kim | (参考訳) 音は私たちの日常生活において空間的推論のための重要な情報を伝えることができる。
このような能力を持つ深層ネットワークを実現するため,クロスモーダルな知識蒸留による2次元および3次元の音による屋内密集予測の課題に対処する。
本研究では,視覚と音響の知識伝達における2つのモード間の局所的対応を付与する,SAM蒸留による空間アライメントを提案する。
SAMは音声機能と視覚的に一貫性のある学習可能な空間埋め込みを統合し、学生モデルの複数の層における不整合を解決する。
我々の手法は特定の入力表現に頼らず、性能劣化なしに入力形状や寸法の柔軟性を実現する。
Dense Auditory Prediction of Surroundings (DAPS) と命名された新しいベンチマークで、2Dおよび3Dの両方の全方位環境の密集した屋内予測に、オーディオ観測で最初に取り組みました。
具体的には、音声に基づく深度推定、セマンティックセグメンテーション、難解な3次元シーン再構築のために、提案した蒸留フレームワークは、様々なメトリクスやバックボーンアーキテクチャの最先端性能を一貫して達成する。 Sound can convey significant information for spatial reasoning in our daily lives. To endow deep networks with such ability, we address the challenge of dense indoor prediction with sound in both 2D and 3D via cross-modal knowledge distillation. In this work, we propose a Spatial Alignment via Matching (SAM) distillation framework that elicits local correspondence between the two modalities in vision-to-audio knowledge transfer. SAM integrates audio features with visually coherent learnable spatial embeddings to resolve inconsistencies in multiple layers of a student model. Our approach does not rely on a specific input representation, allowing for flexibility in the input shapes or dimensions without performance degradation. With a newly curated benchmark named Dense Auditory Prediction of Surroundings (DAPS), we are the first to tackle dense indoor prediction of omnidirectional surroundings in both 2D and 3D with audio observations. Specifically, for audio-based depth estimation, semantic segmentation, and challenging 3D scene reconstruction, the proposed distillation framework consistently achieves state-of-the-art performance across various metrics and backbone architectures. | 翻訳日:2023-09-21 17:14:58 公開日:2023-09-20 |
# 医療領域における視覚的質問応答 Visual Question Answering in the Medical Domain ( http://arxiv.org/abs/2309.11080v1 ) ライセンス: Link先を確認 | Louisa Canepa, Sonit Singh, Arcot Sowmya | (参考訳) medical visual question answering (med-vqa) は、与えられた医療画像に基づいて自然言語質問に答えるシステムを構築することを目的とした機械学習タスクである。
一般的なVQAタスクは急速に進歩しているが、大規模なアノテートデータセットが欠如しているため、Med-VQAではそれほど進歩していない。
本稿では,med-vqaタスクにおける小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習法を含む,ドメイン固有の事前学習戦略を提案する。
モデルは、パラメータが少ないコンポーネントから恩恵を受けます。
また,エビデンス検証手法を用いて,モデルの視覚的推論を評価し,議論する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。 Medical visual question answering (Med-VQA) is a machine learning task that aims to create a system that can answer natural language questions based on given medical images. Although there has been rapid progress on the general VQA task, less progress has been made on Med-VQA due to the lack of large-scale annotated datasets. In this paper, we present domain-specific pre-training strategies, including a novel contrastive learning pretraining method, to mitigate the problem of small datasets for the Med-VQA task. We find that the model benefits from components that use fewer parameters. We also evaluate and discuss the model's visual reasoning using evidence verification techniques. Our proposed model obtained an accuracy of 60% on the VQA-Med 2019 test set, giving comparable results to other state-of-the-art Med-VQA models. | 翻訳日:2023-09-21 17:14:36 公開日:2023-09-20 |
# GPSINDy: データ駆動による運動方程式の発見 GPSINDy: Data-Driven Discovery of Equations of Motion ( http://arxiv.org/abs/2309.11076v1 ) ライセンス: Link先を確認 | Junette Hsin, Shubhankar Agarwal, Adam Thorpe, David Fridovich-Keil | (参考訳) 本稿では,ノイズの多いデータから動的システムモデルを発見することの問題点について考察する。
雑音の存在はシンボリック回帰アルゴリズムの重要な問題であることが知られている。
非パラメトリック学習法であるgaussian process regressionと、パラメトリック学習アプローチであるsindyを組み合わせることで、データから非線形力学系を同定する。
提案手法の重要な利点は,その単純さと,sindyに対するノイズデータによるロバスト性の改善を示すことにある。
本稿では,ロトカ・ボルテラモデルとシミュレーションにおける一サイクル動的モデル,およびハードウェアデータを用いたNVIDIA JetRacerシステムに対する提案手法について述べる。
システムダイナミクスの発見と将来の軌道予測のために,SINDyよりも優れた性能を示す。 In this paper, we consider the problem of discovering dynamical system models from noisy data. The presence of noise is known to be a significant problem for symbolic regression algorithms. We combine Gaussian process regression, a nonparametric learning method, with SINDy, a parametric learning approach, to identify nonlinear dynamical systems from data. The key advantages of our proposed approach are its simplicity coupled with the fact that it demonstrates improved robustness properties with noisy data over SINDy. We demonstrate our proposed approach on a Lotka-Volterra model and a unicycle dynamic model in simulation and on an NVIDIA JetRacer system using hardware data. We demonstrate improved performance over SINDy for discovering the system dynamics and predicting future trajectories. | 翻訳日:2023-09-21 17:14:22 公開日:2023-09-20 |
# 正規ランダムバインディングによる量子側情報に対するプライバシ増幅 Privacy Amplification Against Quantum Side Information Via Regular Random Binning ( http://arxiv.org/abs/2309.11073v1 ) ライセンス: Link先を確認 | Yu-Chen Shen, Li Gao, Hao-Chung Cheng | (参考訳) 我々は,正規ランダムバイナリを有効抽出器として用いることで,量子側情報に対するプライバシの増幅を考える。
定型情報源に対しては、いわゆる量子オーガスティン情報の観点から誤差指数と強い逆境界を求める。
型分解により、Dupuis [arXiv:2105.05342] が証明した独立および同一分布のソースに対する誤差指数を復元する。
応用として, [IEEE Trans.~Inf.〜Theory, 65(12):7985, 2019] のオープン問題を解くアウグスティン情報の観点から, 古典量子通信路符号化のための達成可能な秘密指数を得る。
私たちのアプローチは、プライバシの増幅と量子ソフトカバーとの運用上の等価性を確立することです。 We consider privacy amplification against quantum side information by using regular random binning as an effective extractor. For constant-type sources, we obtain error exponent and strong converse bounds in terms of the so-called quantum Augustin information. Via type decomposition, we then recover the error exponent for independent and identically distributed sources proved by Dupuis [arXiv:2105.05342]. As an application, we obtain an achievable secrecy exponent for classical-quantum wiretap channel coding in terms of the Augustin information, which solves an open problem in [IEEE Trans.~Inf.~Theory, 65(12):7985, 2019]. Our approach is to establish an operational equivalence between privacy amplification and quantum soft covering; this may be of independent interest. | 翻訳日:2023-09-21 17:14:09 公開日:2023-09-20 |
# InkStream: インクリメンタルアップデートによるストリーミンググラフのリアルタイムGNN推論 InkStream: Real-time GNN Inference on Streaming Graphs via Incremental Update ( http://arxiv.org/abs/2309.11071v1 ) ライセンス: Link先を確認 | Dan Wu, Zhaoying Li, Tulika Mitra | (参考訳) 静的グラフ用に設計された古典グラフニューラルネットワーク(GNN)推論アプローチは、時間とともに進化するストリーミンググラフには適していない。
ストリーミンググラフに固有のダイナミズムは、一定の更新を必要とし、GPU上でのアクセラレーションに固有の課題を提起する。
1)$k$-hop地区内では,モデルが min あるいは max をアグリゲーション関数として使用している場合,ノードのかなりの部分が修正エッジの影響を受けない。(2) グラフ構造が変化する間も,モデルの重みが静的である場合,ノードの埋め込みは近傍の影響を受ける部分のみを計算することで,時間とともに徐々に進化する。
そこで本研究では,メモリアクセスと計算を最小限に抑えつつ,従来の手法と同一の出力を確保しつつ,リアルタイムな推論が可能な新しい手法であるInkStreamを提案する。
InkStreamは、必要に応じてのみデータを伝搬およびフェッチする原則で動作する。
イベントベースのシステムを使用して、ノード埋め込みの層間効果伝搬と層間インクリメンタルアップデートを制御する。
inkstreamは高度に拡張可能で、ユーザがカスタマイズされたイベントの作成と処理を可能にすることで、構成が容易になる。
GCNやGraphSAGE,GINといった一般的なGNNモデルをサポートするには,10行足らずの追加ユーザコードが必要になります。
4つのグラフ上の3つのGNNモデルによる実験により、InkStreamはCPUクラスタ上で2.5-427$\times$と2.4-343$\times$を加速し、最新のグラフスナップショット上でGNNモデル推論と同じ出力を生成する。 Classic Graph Neural Network (GNN) inference approaches, designed for static graphs, are ill-suited for streaming graphs that evolve with time. The dynamism intrinsic to streaming graphs necessitates constant updates, posing unique challenges to acceleration on GPU. We address these challenges based on two key insights: (1) Inside the $k$-hop neighborhood, a significant fraction of the nodes is not impacted by the modified edges when the model uses min or max as aggregation function; (2) When the model weights remain static while the graph structure changes, node embeddings can incrementally evolve over time by computing only the impacted part of the neighborhood. With these insights, we propose a novel method, InkStream, designed for real-time inference with minimal memory access and computation, while ensuring an identical output to conventional methods. InkStream operates on the principle of propagating and fetching data only when necessary. It uses an event-based system to control inter-layer effect propagation and intra-layer incremental updates of node embedding. InkStream is highly extensible and easily configurable by allowing users to create and process customized events. We showcase that less than 10 lines of additional user code are needed to support popular GNN models such as GCN, GraphSAGE, and GIN. Our experiments with three GNN models on four large graphs demonstrate that InkStream accelerates by 2.5-427$\times$ on a CPU cluster and 2.4-343$\times$ on two different GPU clusters while producing identical outputs as GNN model inference on the latest graph snapshot. | 翻訳日:2023-09-21 17:13:57 公開日:2023-09-20 |
# UniPCM:タスク対応自動プロンプト付きユニバーサル事前学習会話モデル UniPCM: Universal Pre-trained Conversation Model with Task-aware Automatic Prompt ( http://arxiv.org/abs/2309.11065v1 ) ライセンス: Link先を確認 | Yucheng Cai, Wentao Ma, Yuchuan Wu, Shuzheng Si, Yuan Shao, Zhijian Ou, Yongbin Li | (参考訳) 近年の研究では、マルチタスク事前学習によりモデルの堅牢性と伝達能力が大きく向上し、高品質な対話システムの構築に不可欠であることが示されている。
しかしながら、従来のマルチタスク事前学習のほとんどは、人間の定義した入力形式やプロンプトに依存しており、品質や量では最適ではない。
本研究では,タスクベース自動プロンプト生成(TAP)を用いて高品質なプロンプトの自動生成を提案する。
学習済み会話モデルのコーパスを15の対話関連タスクから122のデータセットに拡張し,様々な対話タスクと異なる対話システムのための強力な基盤モデルであるUniPCM(Universal Pre-trained Conversation Model)を実現する。
広汎な実験により、UniPCMは入力プロンプトに対して堅牢であり、様々なダイアログ関連タスクが可能であることが示されている。
さらに、UniPCMは、タスク指向ダイアログからオープンドメイン会話まで、9つの異なるデータセット上でSOTA結果を達成することで、強力な転送能力を持ち、低リソースシナリオで優れている。
さらに,クラウドソーシングで収集した情報と同等のプロンプトをTAPが生成できることにも驚いた。
コードは紙でリリースされます。 Recent research has shown that multi-task pre-training greatly improves the model's robustness and transfer ability, which is crucial for building a high-quality dialog system. However, most previous works on multi-task pre-training rely heavily on human-defined input format or prompt, which is not optimal in quality and quantity. In this work, we propose to use Task-based Automatic Prompt generation (TAP) to automatically generate high-quality prompts. Using the high-quality prompts generated, we scale the corpus of the pre-trained conversation model to 122 datasets from 15 dialog-related tasks, resulting in Universal Pre-trained Conversation Model (UniPCM), a powerful foundation model for various conversational tasks and different dialog systems. Extensive experiments have shown that UniPCM is robust to input prompts and capable of various dialog-related tasks. Moreover, UniPCM has strong transfer ability and excels at low resource scenarios, achieving SOTA results on 9 different datasets ranging from task-oriented dialog to open-domain conversation. Furthermore, we are amazed to find that TAP can generate prompts on par with those collected with crowdsourcing. The code is released with the paper. | 翻訳日:2023-09-21 17:13:22 公開日:2023-09-20 |
# LLM幻覚とプロンプト言語ニュアンスの関係を探る:可読性, 形式性, 具体性 Exploring the Relationship between LLM Hallucinations and Prompt Linguistic Nuances: Readability, Formality, and Concreteness ( http://arxiv.org/abs/2309.11064v1 ) ライセンス: Link先を確認 | Vipula Rawte, Prachi Priya, S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Amit Sheth, Amitava Das | (参考訳) 大規模言語モデル(llm)が進歩するにつれて、新たな課題が生まれ、llm幻覚が問題となっている。
幻覚に対処するために様々な緩和技術が出現しているが、その根本原因を掘り下げることは同様に重要である。
そこで,本予備調査では,刺激の言語的要因,特に可読性,形式性,具体性が幻覚の発生に与える影響について検討した。
実験の結果, 高い形式性と具体性が特徴のプロンプトは幻覚を減少させる傾向が示唆された。
しかし、可読性に関する結果は幾分決定的ではなく、混合パターンを示している。 As Large Language Models (LLMs) have advanced, they have brought forth new challenges, with one of the prominent issues being LLM hallucination. While various mitigation techniques are emerging to address hallucination, it is equally crucial to delve into its underlying causes. Consequently, in this preliminary exploratory investigation, we examine how linguistic factors in prompts, specifically readability, formality, and concreteness, influence the occurrence of hallucinations. Our experimental results suggest that prompts characterized by greater formality and concreteness tend to result in reduced hallucination. However, the outcomes pertaining to readability are somewhat inconclusive, showing a mixed pattern. | 翻訳日:2023-09-21 17:12:59 公開日:2023-09-20 |
# XATU: 説明可能なテキスト更新のためのきめ細かいインストラクションベースのベンチマーク XATU: A Fine-grained Instruction-based Benchmark for Explainable Text Updates ( http://arxiv.org/abs/2309.11063v1 ) ライセンス: Link先を確認 | Haopeng Zhang, Hayate Iso, Sairam Gurajada, Nikita Bhutani | (参考訳) テキスト編集は、ユーザの意図に合うようにテキストを変更することを含む重要なタスクである。
しかし、既存のテキスト編集ベンチマークデータセットには、粗い指示のみを提供する制限がある。
したがって、編集された出力は合理的に思えるかもしれないが、しばしば金の基準で概説された意図された変更から逸脱し、評価スコアが低くなる。
本稿では,大規模言語モデルのテキスト編集能力を包括的に検討するため,微粒な命令ベースの説明可能なテキスト編集のためのベンチマークXATUを紹介する。
XATUは、語彙、構文、意味論、知識集約的な編集を取り入れ、幅広いトピックやテキストタイプをカバーしている。
解釈性を高めるために,高品質なデータソースとヒューマンアノテーションを活用し,詳細なインストラクションとゴールド標準の編集説明を含むベンチマークを行った。
既存のオープンおよびクローズドな大規模言語モデルをベンチマークに対して評価することにより、命令チューニングの有効性と、様々な編集タスクにまたがる基盤アーキテクチャの影響を実証する。
さらに、広範な実験により、テキスト編集タスクの微調整言語モデルにおける説明の重要性が明らかになった。
このベンチマークは、再生をサポートし、将来の研究を促進するためにオープンソース化される。 Text editing is a crucial task that involves modifying text to better align with user intents. However, existing text editing benchmark datasets have limitations in providing only coarse-grained instructions. Consequently, although the edited output may seem reasonable, it often deviates from the intended changes outlined in the gold reference, resulting in low evaluation scores. To comprehensively investigate the text editing capabilities of large language models, this paper introduces XATU, the first benchmark specifically designed for fine-grained instruction-based explainable text editing. XATU covers a wide range of topics and text types, incorporating lexical, syntactic, semantic, and knowledge-intensive edits. To enhance interpretability, we leverage high-quality data sources and human annotation, resulting in a benchmark that includes fine-grained instructions and gold-standard edit explanations. By evaluating existing open and closed large language models against our benchmark, we demonstrate the effectiveness of instruction tuning and the impact of underlying architecture across various editing tasks. Furthermore, extensive experimentation reveals the significant role of explanations in fine-tuning language models for text editing tasks. The benchmark will be open-sourced to support reproduction and facilitate future research. | 翻訳日:2023-09-21 17:12:46 公開日:2023-09-20 |
# 相互直交ユニタリ行列と直交行列 Mutually-orthogonal unitary and orthogonal matrices ( http://arxiv.org/abs/2309.11128v1 ) ライセンス: Link先を確認 | Zhiwei Song, Lin Chen and Saiqi Liu | (参考訳) ヒルベルト・シュミット内積の下で n-直交ユニタリ行列と実直交行列の集合 n-OU と n-OO 行列集合の概念を導入する。
直交同値の次数3n-OO行列の詳細な特徴付けを与える。
量子情報理論の応用として、実2量子系における最大エンタングル基底の最小値と最大値はそれぞれ3と4であることを示す。
さらに, n-ou (resp. n-oo) 行列集合から n-ou (resp. n-oo) 行列の線形結合として行列の n-ou (resp. n-oo) 分解を定義する新しい行列分解法を提案する。
任意の位数d行列がd-OU分解を持つことを示す。
対照的に、次数 3 の実行列が n-oo 分解を持つための基準を与える。 We introduce the concept of n-OU and n-OO matrix sets, a collection of n mutually-orthogonal unitary and real orthogonal matrices under Hilbert-Schmidt inner product. We give a detailed characterization of order-three n-OO matrix sets under orthogonal equivalence. As an application in quantum information theory, we show that the minimum and maximum numbers of an unextendible maximally entangled bases within a real two-qutrit system are three and four, respectively. Further, we propose a new matrix decomposition approach, defining an n-OU (resp. n-OO) decomposition for a matrix as a linear combination of n matrices from an n-OU (resp. n-OO) matrix set. We show that any order-d matrix has a d-OU decomposition. As a contrast, we provide criteria for an order-three real matrix to possess an n-OO decomposition. | 翻訳日:2023-09-21 17:05:28 公開日:2023-09-20 |
# PSDiff:反復的・協調的リファインメントを用いた人物探索のための拡散モデル PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement ( http://arxiv.org/abs/2309.11125v1 ) ライセンス: Link先を確認 | Chengyou Jia, Minnan Luo, Zhuohang Dang, Guang Dai, Xiaojun Chang, Jingdong Wang, and Qinghua Zheng | (参考訳) 支配的人物探索法は,2つのサブタスクである \ie, detection, Re-IDentification (ReID) を共同で最適化する統合ネットワークにおいて,クエリ対象をローカライズし,認識することを目的としている。
大きな進歩にもかかわらず、2つの大きな課題が残る。
1) 以前の手法における検出優先モジュールは、reidタスクに準最適である。
2)2つのサブタスク間の協調は無視される。
これらの問題を緩和するために,Diffusionモデルに基づく新しいPerson SearchフレームワークであるPSDiffを提案する。
PSDiffは、ノイズの多いボックスとReID埋め込みから地上の真実へのデュアルデノケーションプロセスとして検索する人を定式化する。
検出から参照へのパラダイムに従う既存の手法と異なり、提案手法では、reidタスクの局所最適化を避けるために検出優先モジュールを除外する。
新たなパラダイムに従って,2つのサブタスクが相互に有益になるような,反復的かつ協調的な方法でサブタスクの検出と修正を最適化する,新たなcdl(collaborative denoising layer)を更に設計する。
標準ベンチマークでの大規模な実験により、PSDiffはより少ないパラメータと弾力性のある計算オーバーヘッドで最先端のパフォーマンスを達成することが示された。 Dominant Person Search methods aim to localize and recognize query persons in a unified network, which jointly optimizes two sub-tasks, \ie, detection and Re-IDentification (ReID). Despite significant progress, two major challenges remain: 1) Detection-prior modules in previous methods are suboptimal for the ReID task. 2) The collaboration between two sub-tasks is ignored. To alleviate these issues, we present a novel Person Search framework based on the Diffusion model, PSDiff. PSDiff formulates the person search as a dual denoising process from noisy boxes and ReID embeddings to ground truths. Unlike existing methods that follow the Detection-to-ReID paradigm, our denoising paradigm eliminates detection-prior modules to avoid the local-optimum of the ReID task. Following the new paradigm, we further design a new Collaborative Denoising Layer (CDL) to optimize detection and ReID sub-tasks in an iterative and collaborative way, which makes two sub-tasks mutually beneficial. Extensive experiments on the standard benchmarks show that PSDiff achieves state-of-the-art performance with fewer parameters and elastic computing overhead. | 翻訳日:2023-09-21 17:05:12 公開日:2023-09-20 |
# Hyperspectral Benchmark: 包括的なデータセットと事前トレーニングを通じて、HSIアプリケーション間のギャップを埋める Hyperspectral Benchmark: Bridging the Gap between HSI Applications through Comprehensive Dataset and Pretraining ( http://arxiv.org/abs/2309.11122v1 ) ライセンス: Link先を確認 | Hannah Frank, Leon Amadeus Varga and Andreas Zell | (参考訳) ハイパースペクトルイメージング (HSI) は、様々な応用の非破壊空間分光技術として機能する。
しかし、繰り返し発生する課題は、ターゲットデータセットの限られたサイズであり、徹底的なアーキテクチャ探索を妨げる。
したがって、新規な応用に目を向けると、確立された方法論への依存が一般的になり、それらが良好な一般化特性を示すことを期待している。
この楽観主義は、特定のHSIコンテキストに合わせて調整されたモデルの微調整の性質のため、しばしば根拠がない。
本研究は, 食品検査, リモートセンシング, リサイクルの3つの明らかに異なるHSIアプリケーションを含む, 革新的なベンチマークデータセットを提案する。
この包括的なデータセットは、ハイパースペクトルモデル機能のより詳細な評価を提供する。
さらに,このベンチマークにより,最先端技術に対する精密な検証が促進され,優れた方法論の進化が促進される。
さらに、ベンチマークデータセットに固有の多様性の向上は、HSIのための事前トレーニングパイプラインの確立を支えている。
この事前訓練は、より大きなモデルのトレーニングプロセスの安定性を高めるのに役立つ。
さらに、プロシージャフレームワークがデライン化され、限られたターゲットデータセットサイズによるアプリケーションの処理に関する洞察を提供する。 Hyperspectral Imaging (HSI) serves as a non-destructive spatial spectroscopy technique with a multitude of potential applications. However, a recurring challenge lies in the limited size of the target datasets, impeding exhaustive architecture search. Consequently, when venturing into novel applications, reliance on established methodologies becomes commonplace, in the hope that they exhibit favorable generalization characteristics. Regrettably, this optimism is often unfounded due to the fine-tuned nature of models tailored to specific HSI contexts. To address this predicament, this study introduces an innovative benchmark dataset encompassing three markedly distinct HSI applications: food inspection, remote sensing, and recycling. This comprehensive dataset affords a finer assessment of hyperspectral model capabilities. Moreover, this benchmark facilitates an incisive examination of prevailing state-of-the-art techniques, consequently fostering the evolution of superior methodologies. Furthermore, the enhanced diversity inherent in the benchmark dataset underpins the establishment of a pretraining pipeline for HSI. This pretraining regimen serves to enhance the stability of training processes for larger models. Additionally, a procedural framework is delineated, offering insights into the handling of applications afflicted by limited target dataset sizes. | 翻訳日:2023-09-21 17:04:49 公開日:2023-09-20 |
# BroadBEV:広視野鳥の視線マップ構築のための共同LiDARカメラフュージョン BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye View Map Construction ( http://arxiv.org/abs/2309.11119v1 ) ライセンス: Link先を確認 | Minsu Kim, Giseop Kim, Kyong Hwan Jin, Sunwook Choi | (参考訳) 最近のBird's Eye View(BEV)空間におけるセンサ融合は、3D検出やマップセグメンテーションといった様々なタスクでその有用性を示している。
しかし、この手法は、不正確なカメラBEV推定と、LiDAR点の間隔による遠方領域の認識に苦慮している。
本稿では,クロスモダリティの空間同期アプローチによる問題に対処する,広範なbev融合(\textit{broadbev})を提案する。
我々の戦略は、広視野認識のためのカメラBEV推定を強化し、同時に、全BEV空間におけるLiDARの空き度を向上することである。
そこで我々は,LiDAR BEV分布をカメラ深度分布に散乱させる点散乱法を提案する。
この手法は,カメラブランチの深度推定の学習を促進し,BEV空間における高密度カメラ特徴の正確な位置を誘導する。
空間的に同期した特徴間の効果的なBEV融合のために,LiDARとカメラBEVの自己注意重みを相互に適用するColFusionを提案する。
広汎な実験により、BroadBEVは目覚ましい性能向上を伴う広視野のBEV知覚を提供することが示された。 A recent sensor fusion in a Bird's Eye View (BEV) space has shown its utility in various tasks such as 3D detection, map segmentation, etc. However, the approach struggles with inaccurate camera BEV estimation, and a perception of distant areas due to the sparsity of LiDAR points. In this paper, we propose a broad BEV fusion (\textit{BroadBEV}) that addresses the problems with a spatial synchronization approach of cross-modality. Our strategy aims to enhance camera BEV estimation for a broad-sighted perception while simultaneously improving the completion of LiDAR's sparsity in the entire BEV space. Toward that end, we devise Point-scattering that scatters LiDAR BEV distribution to camera depth distribution. The method boosts the learning of depth estimation of the camera branch and induces accurate location of dense camera features in BEV space. For an effective BEV fusion between the spatially synchronized features, we suggest ColFusion that applies self-attention weights of LiDAR and camera BEV features to each other. Our extensive experiments demonstrate that BroadBEV provides a broad-sighted BEV perception with remarkable performance gains. | 翻訳日:2023-09-21 17:04:31 公開日:2023-09-20 |
# 量子ランダムネスを擬似ランダムネスと区別できるのか? Can efficiently calculable randomness measures distinguish quantum randomness from pseudo-randomness? ( http://arxiv.org/abs/2309.11117v1 ) ライセンス: Link先を確認 | Toyohiro Tsurumaru, Tsubasa Ichikawa, Yosuke Takubo, Toshihiko Sasaki Jaeha Lee, Izumi Tsutsui | (参考訳) 量子乱数(量子力学的に生成した乱数)と疑似乱数(アルゴリズムによって生成される乱数)の区別性に対するno-go定理を提案する。
この定理は、量子乱数は古典的に効率的にシミュレート可能であり、区別に使用されるランダムネス測度が効率的に計算可能であれば、これらの2種類の乱数を区別することはできないと述べる。
この定理は,暗号分野に存在すると考えられる暗号擬似乱数生成器の特性を用いて導出する。
この定理は、IBM量子が生成する量子乱数の実データの解析と、ベル試験のInnsbruck実験で得られたデータと一致し、これらの2組の量子乱数のランダム性の度合いは、対応する擬似ランダム数と本質的に区別できないことが判明した。
また, 量子乱数のアルゴリズム的ランダム性についても, 定理やデータ解析の観点から考察し, 再解釈を行った。 We present a no-go theorem for the distinguishability between quantum random numbers (i.e., random numbers generated quantum mechanically) and pseudo-random numbers (i.e., random numbers generated algorithmically). The theorem states that one cannot distinguish these two types of random numbers if the quantum random numbers are efficiently classically simulatable and the randomness measure used for the distinction is efficiently computable. We derive this theorem by using the properties of cryptographic pseudo-random number generators, which are believed to exist in the field of cryptography. Our theorem is found to be consistent with the analyses on the actual data of quantum random numbers generated by the IBM Quantum and also those obtained in the Innsbruck experiment for the Bell test, where the degrees of randomness of these two set of quantum random numbers turn out to be essentially indistinguishable from those of the corresponding pseudo-random numbers. Previous observations on the algorithmic randomness of quantum random numbers are also discussed and reinterpreted in terms of our theorems and data analyses. | 翻訳日:2023-09-21 17:04:10 公開日:2023-09-20 |
# PRAT:Profiling Adversarial atacks PRAT: PRofiling Adversarial aTtacks ( http://arxiv.org/abs/2309.11111v1 ) ライセンス: Link先を確認 | Rahul Ambati, Naveed Akhtar, Ajmal Mian, Yogesh Singh Rawat | (参考訳) 深層学習の敵対的な例への内在的な感受性は、深層モデルを騙すことを広く目的とする攻撃手法の多さにつながった。
しかし,この目的を達成するアルゴリズム間の構成的差異はわずかである。
これらの違いは、実際のシナリオにおける攻撃者プロファイリングの重要な手がかりとなる痕跡を残している。
そこで我々は,Profiling Adversarial aTtacks (PRAT) の新たな問題を紹介した。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
この観点では、既存の攻撃を異なる家族に体系的にグループ化できるため、攻撃家族識別のサブプロブレムがもたらされる。
PRAT解析を実現するために,画像固有/不可知の白黒ボックス設定に対する13の攻撃で生成した180k以上の対数サンプルからなる大規模対数識別データセット(AID)を導入する。
AIDを用いてPRAT目的のための新しいフレームワークを考案する。
本フレームワークでは,Transformer ベースの Global-Local Feature (GLOF) モジュールを用いて,攻撃の識別に使用される敵攻撃の近似署名を抽出する。
AIDと我々のフレームワークを用いて、PRAT問題に対して興味深いベンチマーク結果を提供する。 Intrinsic susceptibility of deep learning to adversarial examples has led to a plethora of attack techniques with a broad common objective of fooling deep models. However, we find slight compositional differences between the algorithms achieving this objective. These differences leave traces that provide important clues for attacker profiling in real-life scenarios. Inspired by this, we introduce a novel problem of PRofiling Adversarial aTtacks (PRAT). Given an adversarial example, the objective of PRAT is to identify the attack used to generate it. Under this perspective, we can systematically group existing attacks into different families, leading to the sub-problem of attack family identification, which we also study. To enable PRAT analysis, we introduce a large Adversarial Identification Dataset (AID), comprising over 180k adversarial samples generated with 13 popular attacks for image specific/agnostic white/black box setups. We use AID to devise a novel framework for the PRAT objective. Our framework utilizes a Transformer based Global-LOcal Feature (GLOF) module to extract an approximate signature of the adversarial attack, which in turn is used for the identification of the attack. Using AID and our framework, we provide multiple interesting benchmark results for the PRAT problem. | 翻訳日:2023-09-21 17:03:51 公開日:2023-09-20 |
# 衛星画像に対する自己教師付きドメイン非依存ドメイン適応 Self-supervised Domain-agnostic Domain Adaptation for Satellite Images ( http://arxiv.org/abs/2309.11109v1 ) ライセンス: Link先を確認 | Fahong Zhang, Yilei Shi, and Xiao Xiang Zhu | (参考訳) 例えば、異なる地理的領域や取得条件によって引き起こされるドメインシフトは、グローバルスケールの衛星画像処理における機械学習において一般的な問題である。
この問題を解決する有望な方法は、トレーニングとテストデータセットが分布に応じて2つまたは複数のドメインに分割されるドメイン適応であり、テストデータセットにおけるモデルの一般化性を改善するために適応方法が適用される。
しかし、各衛星画像が属する領域を定義することは、特に複数のデータソースから単一の画像モザイクを生成できる大規模なマルチテンポラリ・マルチ感覚シナリオにおいて、簡単ではない。
本稿では,ドメイン定義なしでドメイン適応を行うための自己教師付きドメイン非依存ドメイン適応(SS(DA)2)手法を提案する。
そこで我々はまず,2つの衛星画像パッチ間で画像と画像の変換を行うために生成ネットワークを訓練するために,対照的な生成逆損失を設計する。
そして,テストスペクトル特性の異なるトレーニングデータを拡張することにより,下流モデルの一般化性を向上させる。
公開ベンチマーク実験の結果,SS(DA)2の有効性が検証された。 Domain shift caused by, e.g., different geographical regions or acquisition conditions is a common issue in machine learning for global scale satellite image processing. A promising method to address this problem is domain adaptation, where the training and the testing datasets are split into two or multiple domains according to their distributions, and an adaptation method is applied to improve the generalizability of the model on the testing dataset. However, defining the domain to which each satellite image belongs is not trivial, especially under large-scale multi-temporal and multi-sensory scenarios, where a single image mosaic could be generated from multiple data sources. In this paper, we propose an self-supervised domain-agnostic domain adaptation (SS(DA)2) method to perform domain adaptation without such a domain definition. To achieve this, we first design a contrastive generative adversarial loss to train a generative network to perform image-to-image translation between any two satellite image patches. Then, we improve the generalizability of the downstream models by augmenting the training data with different testing spectral characteristics. The experimental results on public benchmarks verify the effectiveness of SS(DA)2. | 翻訳日:2023-09-21 17:03:32 公開日:2023-09-20 |
# 大胆だが慎重:慎重かつ積極的なコラボレーションによるパーソナライズされた連合学習の可能性を解き放つ Bold but Cautious: Unlocking the Potential of Personalized Federated Learning through Cautiously Aggressive Collaboration ( http://arxiv.org/abs/2309.11103v1 ) ライセンス: Link先を確認 | Xinghao Wu, Xuefeng Liu, Jianwei Niu, Guogang Zhu, Shaojie Tang | (参考訳) パーソナライズされた連合学習(pfl)は、クライアント間のコラボレーション時に各クライアントがパーソナライズされたモデルをトレーニングできるようにすることで、クライアント間の非独立かつ同一の分散(非iid)データの影響を低減する。
PFLの重要な質問は、クライアントのどのパラメータをローカライズするか、他の人と共有すべきかを決めることである。
現在の主流のアプローチでは、非IIDデータ(分類器層など)に敏感なすべてのレイヤは一般的にパーソナライズされる。
非IIDデータの影響を受けやすいパラメータをローカライズすることで、コラボレーションの潜在的な負の効果を防止できるため、このアプローチの背後にある理由が理解できる。
しかし、このアプローチはコラボレーションには保守的すぎると信じています。
例えば、あるクライアントでは、パラメーターが非iidデータに影響を受けやすいとしても、同様のデータ分散を持つクライアントとパラメータを共有することでメリットを享受できる。
この観察は、非IIDデータに対する感度だけでなく、PFLでどのパラメータをローカライズすべきかを決定する際のデータ分布の類似性も考慮することの重要性を強調している。
本稿では,PFLにおけるクライアントコラボレーションのための新しいガイドラインを紹介する。
センシティブなパラメータのすべてのコラボレーションを禁止する既存のアプローチとは異なり、当社のガイドラインでは、クライアントが他のパラメータとより多くのパラメータを共有できるため、モデルパフォーマンスが向上しています。
さらに,FedCACと呼ばれる新しいPFL手法を提案し,パラメータの非IIDデータに対する感度を定量的に評価し,この評価に基づいて協調者を慎重に選択する。
実験の結果、feedcacは、クライアントが他のクライアントとより多くのパラメータを共有できることが示され、その結果、最先端のメソッド、特にクライアントが多様なディストリビューションを持つシナリオよりも優れたパフォーマンスが得られる。 Personalized federated learning (PFL) reduces the impact of non-independent and identically distributed (non-IID) data among clients by allowing each client to train a personalized model when collaborating with others. A key question in PFL is to decide which parameters of a client should be localized or shared with others. In current mainstream approaches, all layers that are sensitive to non-IID data (such as classifier layers) are generally personalized. The reasoning behind this approach is understandable, as localizing parameters that are easily influenced by non-IID data can prevent the potential negative effect of collaboration. However, we believe that this approach is too conservative for collaboration. For example, for a certain client, even if its parameters are easily influenced by non-IID data, it can still benefit by sharing these parameters with clients having similar data distribution. This observation emphasizes the importance of considering not only the sensitivity to non-IID data but also the similarity of data distribution when determining which parameters should be localized in PFL. This paper introduces a novel guideline for client collaboration in PFL. Unlike existing approaches that prohibit all collaboration of sensitive parameters, our guideline allows clients to share more parameters with others, leading to improved model performance. Additionally, we propose a new PFL method named FedCAC, which employs a quantitative metric to evaluate each parameter's sensitivity to non-IID data and carefully selects collaborators based on this evaluation. Experimental results demonstrate that FedCAC enables clients to share more parameters with others, resulting in superior performance compared to state-of-the-art methods, particularly in scenarios where clients have diverse distributions. | 翻訳日:2023-09-21 17:03:01 公開日:2023-09-20 |
# 強化学習の遅れ Delays in Reinforcement Learning ( http://arxiv.org/abs/2309.11096v1 ) ライセンス: Link先を確認 | Pierre Liotet | (参考訳) 遅延は多くの力学系に固有のものである。
プロセスの時間変更に加えて、パフォーマンスにも大きく影響します。
このため、通常は遅延を調べ、それを説明することが大切である。
それらは動的システムであるため、マルコフ決定プロセス(mdp)のような逐次的な意思決定問題も遅延によって影響を受けることは驚くにあたらない。
これらのプロセスは、強化学習(RL)の基礎的な枠組みであり、その目標は、環境と対話することで有用性を最大化できる人工エージェントを作ることである。
RLは強い、時折驚くべき、経験的な結果を得たが、遅延が明確に説明されることはめったにない。
MDPに対する遅延の影響の理解は限られている。
本論文では,エージェントの環境状態の観察やエージェントの行動実行の遅延について検討する。
我々は、その構造と特異性のいくつかを明らかにするために、問題に対する我々の見解を何度も変更する。
様々な遅延が考慮され、潜在的な解決策が提示される。
この論文はまた、RL文学の著名なフレームワークと遅延の1つを関連付けることを目的としている。 Delays are inherent to most dynamical systems. Besides shifting the process in time, they can significantly affect their performance. For this reason, it is usually valuable to study the delay and account for it. Because they are dynamical systems, it is of no surprise that sequential decision-making problems such as Markov decision processes (MDP) can also be affected by delays. These processes are the foundational framework of reinforcement learning (RL), a paradigm whose goal is to create artificial agents capable of learning to maximise their utility by interacting with their environment. RL has achieved strong, sometimes astonishing, empirical results, but delays are seldom explicitly accounted for. The understanding of the impact of delay on the MDP is limited. In this dissertation, we propose to study the delay in the agent's observation of the state of the environment or in the execution of the agent's actions. We will repeatedly change our point of view on the problem to reveal some of its structure and peculiarities. A wide spectrum of delays will be considered, and potential solutions will be presented. This dissertation also aims to draw links between celebrated frameworks of the RL literature and the one of delays. | 翻訳日:2023-09-21 17:01:57 公開日:2023-09-20 |
# 顔偽造検出のための偽造認識適応視覚トランス Forgery-aware Adaptive Vision Transformer for Face Forgery Detection ( http://arxiv.org/abs/2309.11092v1 ) ライセンス: Link先を確認 | Anwei Luo, Rizhao Cai, Chenqi Kong, Xiangui Kang, Jiwu Huang and Alex C. Kot | (参考訳) 顔操作技術の進歩に伴い、認証の完全性を保護するための顔偽造検出の重要性が増している。
先進的なビジョントランスフォーマー(ViT)ベースの検出器は、主にDeepfakeデータに制限された完全な微調整が、事前訓練された知識を忘れ、データ固有のデータに過度に適合することにつながるため、クロスデータベース評価においてサブパー性能を示している。
これらの問題を回避すべく,新規なforgery-aware adaptive vision transformer (fa-vit)を提案する。
fa-vitでは、バニラvitのパラメータは予め訓練された知識を保存するために凍結され、特別に設計された2つのコンポーネント、ローカルアウェアフォージェリーインジェクタ(lfi)とグローバルアウェアフォージェリーインジェクタ(gfa)がフォージェリー関連の知識に適応するために使用される。
提案するFA-ViTは,これらの2種類の知識を効果的に組み合わせて,Deepfakesを検出する一般的な偽造特徴を形成する。
具体的には、LFIは局所的な識別情報をキャプチャし、これらの情報をNorborhood-Preserving Cross Attention (NPCA)を介してViTに組み込む。
同時に、GFAは自己認識層において適応的な知識を学び、2つの異なるドメイン間のギャップを埋める。
さらに,FA-ViTにおける詳細な情報学習を容易にするために,SDPL(Single Domain Pairwise Learning)を設計する。
大規模な実験により,我々のFA-ViTは,クロスデータセット評価およびクロス操作シナリオにおける最先端性能を達成し,目に見えない摂動に対する堅牢性を向上させることが示された。 With the advancement in face manipulation technologies, the importance of face forgery detection in protecting authentication integrity becomes increasingly evident. Previous Vision Transformer (ViT)-based detectors have demonstrated subpar performance in cross-database evaluations, primarily because fully fine-tuning with limited Deepfake data often leads to forgetting pre-trained knowledge and over-fitting to data-specific ones. To circumvent these issues, we propose a novel Forgery-aware Adaptive Vision Transformer (FA-ViT). In FA-ViT, the vanilla ViT's parameters are frozen to preserve its pre-trained knowledge, while two specially designed components, the Local-aware Forgery Injector (LFI) and the Global-aware Forgery Adaptor (GFA), are employed to adapt forgery-related knowledge. our proposed FA-ViT effectively combines these two different types of knowledge to form the general forgery features for detecting Deepfakes. Specifically, LFI captures local discriminative information and incorporates these information into ViT via Neighborhood-Preserving Cross Attention (NPCA). Simultaneously, GFA learns adaptive knowledge in the self-attention layer, bridging the gap between the two different domain. Furthermore, we design a novel Single Domain Pairwise Learning (SDPL) to facilitate fine-grained information learning in FA-ViT. The extensive experiments demonstrate that our FA-ViT achieves state-of-the-art performance in cross-dataset evaluation and cross-manipulation scenarios, and improves the robustness against unseen perturbations. | 翻訳日:2023-09-21 17:01:37 公開日:2023-09-20 |
# Optimize-via-Predict: データ駆動最適化におけるサンプル外最適化の実現 Optimize-via-Predict: Realizing out-of-sample optimality in data-driven optimization ( http://arxiv.org/abs/2309.11147v1 ) ライセンス: Link先を確認 | Gar Goei Loke, Taozeng Zhu, Ruiting Zuo | (参考訳) 意思決定者が真の分布に従わないが、ある仮説集合に存在し、その情報が得られる歴史的なデータセットを持っているという知識を持つデータ駆動最適化の確率的定式化について検討する。
このようなデータセットを決定にマッピングする決定ルールとして,規範的ソリューションを定義する。
仮説集合全体に対して一般化可能な規範解が存在しないので、仮定の近傍における局所平均として外サンプル最適性を定義し、サンプリング分布上で平均化する。
我々は、局所的なサンプル外最適性の十分条件を証明し、仮説ファミリーの十分統計量の関数に還元する。
本稿では,このようなサンプル外最適解に対して,サンプリングアルゴリズムと2分割探索アルゴリズムを組み合わせることで効率よく解ける最適化問題を提案する。
最後に,私たちのモデルをニュースベンダモデルで説明し,文献の代替案と比較すると高い性能を示す。
エンドツーエンドの学習とベイズ最適化に関する私たちの研究には、潜在的な意味があります。 We examine a stochastic formulation for data-driven optimization wherein the decision-maker is not privy to the true distribution, but has knowledge that it lies in some hypothesis set and possesses a historical data set, from which information about it can be gleaned. We define a prescriptive solution as a decision rule mapping such a data set to decisions. As there does not exist prescriptive solutions that are generalizable over the entire hypothesis set, we define out-of-sample optimality as a local average over a neighbourhood of hypotheses, and averaged over the sampling distribution. We prove sufficient conditions for local out-of-sample optimality, which reduces to functions of the sufficient statistic of the hypothesis family. We present an optimization problem that would solve for such an out-of-sample optimal solution, and does so efficiently by a combination of sampling and bisection search algorithms. Finally, we illustrate our model on the newsvendor model, and find strong performance when compared against alternatives in the literature. There are potential implications of our research on end-to-end learning and Bayesian optimization. | 翻訳日:2023-09-21 16:55:35 公開日:2023-09-20 |
# GraphEcho: 心エコービデオセグメンテーションのためのグラフ駆動型教師なしドメイン適応 GraphEcho: Graph-Driven Unsupervised Domain Adaptation for Echocardiogram Video Segmentation ( http://arxiv.org/abs/2309.11145v1 ) ライセンス: Link先を確認 | Jiewen Yang, Xinpeng Ding, Ziyang Zheng, Xiaowei Xu, Xiaomeng Li | (参考訳) 心疾患の診断には心エコービデオセグメンテーションが重要である。
本稿では,心エコー図ビデオセグメンテーションにおける教師なし領域適応(unsupervised domain adaption,uda)について検討する。
既存のUDAセグメンテーション方法は、局所的な情報や心拍の周期的一貫性をモデル化しないため、このタスクには適していない。
本稿では,新たに収集したCardiacUDAデータセットと,心構造セグメンテーションのための新しいGraphEcho手法を提案する。
我々のグラフEchoは、心エコービデオ、すなわち患者とセンター間の一貫した心構造と心拍周期一貫性の事前知識を利用する、空間的クロスドメイングラフマッチング(SCGM)とテンポラルサイクル一貫性(TCC)モジュールの2つの革新的なモジュールから構成されている。
これら2つのモジュールは、ソースドメインとターゲットドメインのグローバルおよびローカル機能を整合させ、udaセグメンテーション結果を改善する。
実験の結果,既存UDAセグメンテーション法よりも高い性能を示した。
収集したデータセットとコードは受け入れ次第公開されます。
この研究は、心エコービデオから心臓構造セグメンテーションのための、新しい堅固な基盤を築き上げる。
コードとデータセットは、https://github.com/xmed-lab/GraphEchoで入手できる。 Echocardiogram video segmentation plays an important role in cardiac disease diagnosis. This paper studies the unsupervised domain adaption (UDA) for echocardiogram video segmentation, where the goal is to generalize the model trained on the source domain to other unlabelled target domains. Existing UDA segmentation methods are not suitable for this task because they do not model local information and the cyclical consistency of heartbeat. In this paper, we introduce a newly collected CardiacUDA dataset and a novel GraphEcho method for cardiac structure segmentation. Our GraphEcho comprises two innovative modules, the Spatial-wise Cross-domain Graph Matching (SCGM) and the Temporal Cycle Consistency (TCC) module, which utilize prior knowledge of echocardiogram videos, i.e., consistent cardiac structure across patients and centers and the heartbeat cyclical consistency, respectively. These two modules can better align global and local features from source and target domains, improving UDA segmentation results. Experimental results showed that our GraphEcho outperforms existing state-of-the-art UDA segmentation methods. Our collected dataset and code will be publicly released upon acceptance. This work will lay a new and solid cornerstone for cardiac structure segmentation from echocardiogram videos. Code and dataset are available at: https://github.com/xmed-lab/GraphEcho | 翻訳日:2023-09-21 16:55:18 公開日:2023-09-20 |
# GL-Fusion:マルチビュー心エコー画像セグメンテーションのためのグローバルローカルフュージョンネットワーク GL-Fusion: Global-Local Fusion Network for Multi-view Echocardiogram Video Segmentation ( http://arxiv.org/abs/2309.11144v1 ) ライセンス: Link先を確認 | Ziyang Zheng, Jiewen Yang, Xinpeng Ding, Xiaowei Xu, Xiaomeng Li | (参考訳) 心エコー画像からの心筋組織分画は心疾患の診断において重要な役割を担っている。
多視点心エコーデータの組み合わせは、自動手法の精度と堅牢性を高めるために不可欠である。
しかし、データの視覚的な差異のため、クロスビューコンテキスト情報の導出は依然として困難な課題であり、非洗練な融合戦略はパフォーマンスを低下させる可能性がある。
本研究では,心エコー図解析の精度を向上させるために,グローバルおよびローカルにマルチビュー情報を活用する新しいgobal-local fusion (gl-fusion)ネットワークを提案する。
特に,心エコー画像における心拍動周期の周期関係を調べるために,多視点のグローバルベース融合モジュール (mgfm) を提案する。
さらに、多視点局所核融合モジュール(MLFM)は、異なる視点から心臓構造の相関関係を抽出するように設計されている。
さらに,マルチビュー心エコー画像データセット(MvEVD)を収集し,その評価を行った。
本手法は, 平均ダイススコア82.29%を達成し, ベースライン法よりも7.83%向上し, 既存手法よりも優れていた。
我々の知る限り、これは心エコービデオセグメンテーションのためのマルチビュー手法の最初の探索である。
コード提供: https://github.com/xmed-lab/gl-fusion Cardiac structure segmentation from echocardiogram videos plays a crucial role in diagnosing heart disease. The combination of multi-view echocardiogram data is essential to enhance the accuracy and robustness of automated methods. However, due to the visual disparity of the data, deriving cross-view context information remains a challenging task, and unsophisticated fusion strategies can even lower performance. In this study, we propose a novel Gobal-Local fusion (GL-Fusion) network to jointly utilize multi-view information globally and locally that improve the accuracy of echocardiogram analysis. Specifically, a Multi-view Global-based Fusion Module (MGFM) is proposed to extract global context information and to explore the cyclic relationship of different heartbeat cycles in an echocardiogram video. Additionally, a Multi-view Local-based Fusion Module (MLFM) is designed to extract correlations of cardiac structures from different views. Furthermore, we collect a multi-view echocardiogram video dataset (MvEVD) to evaluate our method. Our method achieves an 82.29% average dice score, which demonstrates a 7.83% improvement over the baseline method, and outperforms other existing state-of-the-art methods. To our knowledge, this is the first exploration of a multi-view method for echocardiogram video segmentation. Code available at: https://github.com/xmed-lab/GL-Fusion | 翻訳日:2023-09-21 16:54:56 公開日:2023-09-20 |
# DNNを用いたテキスト生成による英語学習を支援するロボットシステムの試作 Prototype of a robotic system to assist the learning process of English language with text-generation through DNN ( http://arxiv.org/abs/2309.11142v1 ) ライセンス: Link先を確認 | Carlos Morales-Torres, Mario Campos-Soberanis, Diego Campos-Sobrino | (参考訳) 過去数年間で、英語教育(ELT)を含む複数のタスクを実行するために、自然言語処理(NLP)の分野で大きな進歩があった。
学習プロセスを優先する効果的な戦略は、対話型デバイスを使って学習者を自己学習プロセスに参加させる。
本研究では,Long Short Term Memory (LSTM) Neural Networks を用いたテキスト生成による英語の自己学習を支援するヒューマノイドロボットシステムのプロトタイプを提案する。
学習者は、ユーザの英語レベルに応じてテキストを生成するグラフィックユーザインタフェースを使用してシステムと対話する。
実験は英語学習者を用いて行われ,国際英語言語試験システム (ielts) rubric を用いて測定した。
予備的な結果は,システムと対話する学習者の文法的範囲の増大を示す。 In the last ongoing years, there has been a significant ascending on the field of Natural Language Processing (NLP) for performing multiple tasks including English Language Teaching (ELT). An effective strategy to favor the learning process uses interactive devices to engage learners in their self-learning process. In this work, we present a working prototype of a humanoid robotic system to assist English language self-learners through text generation using Long Short Term Memory (LSTM) Neural Networks. The learners interact with the system using a Graphic User Interface that generates text according to the English level of the user. The experimentation was conducted using English learners and the results were measured accordingly to International English Language Testing System (IELTS) rubric. Preliminary results show an increment in the Grammatical Range of learners who interacted with the system. | 翻訳日:2023-09-21 16:54:34 公開日:2023-09-20 |
# テキストから音楽生成へのパーソナライズ手法の検討 Investigating Personalization Methods in Text to Music Generation ( http://arxiv.org/abs/2309.11140v1 ) ライセンス: Link先を確認 | Manos Plitsis, Theodoros Kouzelis, Georgios Paraskevopoulos, Vassilis Katsouros, Yannis Panagakis | (参考訳) 本研究では,テキストから音楽への拡散モデルのパーソナライズを数ショットで検討する。
コンピュータビジョン領域の最近の進歩に動機づけられ、事前学習されたテキストから音声へのディフューザと、2つの確立されたパーソナライズ手法の組み合わせを初めて検討した。
我々は,音声によるデータ拡張がシステム全体の性能に及ぼす影響を実験し,異なるトレーニング戦略を評価する。
評価のために,プロンプトと音楽クリップを用いた新しいデータセットを構築した。
定量的評価には組込みベースと音楽固有の指標の両方を検討し,質的評価のためのユーザ調査を行った。
分析の結果、類似度指標はユーザの好みに応じており、現在のパーソナライズアプローチでは、メロディよりもリズム音楽の構成を学習しやすい傾向にあることがわかった。
この研究のコード、データセット、サンプル資料は、研究コミュニティに公開されています。 In this work, we investigate the personalization of text-to-music diffusion models in a few-shot setting. Motivated by recent advances in the computer vision domain, we are the first to explore the combination of pre-trained text-to-audio diffusers with two established personalization methods. We experiment with the effect of audio-specific data augmentation on the overall system performance and assess different training strategies. For evaluation, we construct a novel dataset with prompts and music clips. We consider both embedding-based and music-specific metrics for quantitative evaluation, as well as a user study for qualitative evaluation. Our analysis shows that similarity metrics are in accordance with user preferences and that current personalization approaches tend to learn rhythmic music constructs more easily than melody. The code, dataset, and example material of this study are open to the research community. | 翻訳日:2023-09-21 16:54:20 公開日:2023-09-20 |
# 複雑なエンコーダは必要なだけではありません More complex encoder is not all you need ( http://arxiv.org/abs/2309.11139v1 ) ライセンス: Link先を確認 | Weibin Yang, Longwei Xu, Pengwei Wang, Dehua Geng, Yusong Li, Mingyuan Xu, Zhiqi Dong | (参考訳) U-Netとその変種は医療画像のセグメンテーションで広く使われている。
しかし、現在のほとんどのU-Net変種は、より複雑なエンコーダを構築するための改善戦略を制限しているが、デコーダは変わらないか単純な対称構造を採用する。
これらのアプローチはデコーダの真の機能を見落としている: エンコーダから低解像度のフィーチャーマップを受け取り、機能マップの解像度を回復し、アップサンプリングによって情報を失う。
結果として、デコーダ、特にアップサンプリングコンポーネントは、セグメンテーションの結果を高める上で重要な役割を果たす。
しかし、3次元の医用画像分割では、一般的に使われる畳み込みは視覚的なアーティファクトをもたらす可能性がある。
この問題は、出力特徴写像に隣接するピクセル間の直接関係がないことに起因する。
さらに, 平板エンコーダは, ダウンサンプリング操作によって受信フィールドが徐々に拡大するので, 十分な特徴抽出能力を有しているが, ダウンサンプリング処理時の情報損失は無視できない。
関連する研究のギャップに対処するため、我々はエンコーダを超えて焦点を広げ、強力なデコーダを構築するために新しいサブピクセル畳み込みを組み込んだneu-net(複雑エンコーダu-netではない)を導入する。
さらに,エンコーダ側では,複数スケールのウェーブレット入力モジュールを導入し,追加情報を提供する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。 U-Net and its variants have been widely used in medical image segmentation. However, most current U-Net variants confine their improvement strategies to building more complex encoder, while leaving the decoder unchanged or adopting a simple symmetric structure. These approaches overlook the true functionality of the decoder: receiving low-resolution feature maps from the encoder and restoring feature map resolution and lost information through upsampling. As a result, the decoder, especially its upsampling component, plays a crucial role in enhancing segmentation outcomes. However, in 3D medical image segmentation, the commonly used transposed convolution can result in visual artifacts. This issue stems from the absence of direct relationship between adjacent pixels in the output feature map. Furthermore, plain encoder has already possessed sufficient feature extraction capability because downsampling operation leads to the gradual expansion of the receptive field, but the loss of information during downsampling process is unignorable. To address the gap in relevant research, we extend our focus beyond the encoder and introduce neU-Net (i.e., not complex encoder U-Net), which incorporates a novel Sub-pixel Convolution for upsampling to construct a powerful decoder. Additionally, we introduce multi-scale wavelet inputs module on the encoder side to provide additional information. Our model design achieves excellent results, surpassing other state-of-the-art methods on both the Synapse and ACDC datasets. | 翻訳日:2023-09-21 16:54:04 公開日:2023-09-20 |
# 形状アンカーガイドによる室内シーン理解 Shape Anchor Guided Holistic Indoor Scene Understanding ( http://arxiv.org/abs/2309.11133v1 ) ライセンス: Link先を確認 | Mingyue Dong, Linxi Huan, Hanjiang Xiong, Shuhan Shen, Xianwei Zheng | (参考訳) 本稿では,室内シーンのロバスト理解のための形状アンカー誘導学習戦略(anclearn)を提案する。
提案手法によって構築されている探索空間は,提案機能グループ化やインスタンス点サンプリングにおいて,インスタンス検出やメッシュ再構築に大きなノイズが伴うことが多い。
従って、インスタンス表面を動的に適合させるアンカーを生成するAncLearnを開発した。
(i)検出段階で信頼できる提案を行うための無混合ノイズ及び目標関連特徴
(ii)リコンストラクション中のセグメンテーションを必要とせず、構造が整った幾何学的プリエントを直接提供するため、オブジェクトポイントサンプリングの外れ値を減少させる。
我々はAncLearnを再構成・検出学習システム(AncRec)に組み込んで、純粋にインスタンス指向で高品質なセマンティックシーンモデルを生成する。
ScanNetv2データセットを用いた実験により,3次元物体検出,レイアウト推定,形状再構成の両面において,形状アンカーに基づく手法が常に最先端の性能を達成することを示す。
コードはhttps://github.com/Geo-Tell/AncRecで入手できる。 This paper proposes a shape anchor guided learning strategy (AncLearn) for robust holistic indoor scene understanding. We observe that the search space constructed by current methods for proposal feature grouping and instance point sampling often introduces massive noise to instance detection and mesh reconstruction. Accordingly, we develop AncLearn to generate anchors that dynamically fit instance surfaces to (i) unmix noise and target-related features for offering reliable proposals at the detection stage, and (ii) reduce outliers in object point sampling for directly providing well-structured geometry priors without segmentation during reconstruction. We embed AncLearn into a reconstruction-from-detection learning system (AncRec) to generate high-quality semantic scene models in a purely instance-oriented manner. Experiments conducted on the challenging ScanNetv2 dataset demonstrate that our shape anchor-based method consistently achieves state-of-the-art performance in terms of 3D object detection, layout estimation, and shape reconstruction. The code will be available at https://github.com/Geo-Tell/AncRec. | 翻訳日:2023-09-21 16:53:41 公開日:2023-09-20 |
# オープンワールドディープフェイク属性のための対照的な擬似学習 Contrastive Pseudo Learning for Open-World DeepFake Attribution ( http://arxiv.org/abs/2309.11132v1 ) ライセンス: Link先を確認 | Zhimin Sun, Shen Chen, Taiping Yao, Bangjie Yin, Ran Yi, Shouhong Ding, Lizhuang Ma | (参考訳) 偽の顔に対する属性のソーシングの課題は、生成技術の急速な発展により、広く注目を集めている。
最近の多くの研究は、GAN生成した顔に必須のステップを取っているが、アイデンティティスワッピングや表現の転送に関連する攻撃は、まだ見過ごされている。
そして、未知の世界からの未知の攻撃に隠された偽の痕跡は、まだ未発見のままだ。
関連するフロンティア研究を推進するために,open-world deepfake attribution(ow-dfa)と呼ばれる新しいベンチマークを導入した。
一方、OW-DFAタスクを通したContrastive Pseudo Learning(CPL)という新しいフレームワークを提案する。
1)異なる操作領域を有する偽造顔の特徴的アライメントを導くためのグローバルローカル投票モジュールの導入
2) 信頼度に基づくソフト擬似ラベル戦略を設計し, 類似した手法による擬似ノイズを軽減する。
さらに,事前学習と反復学習を活用してトレーサビリティ性能をさらに向上する多段階パラダイムにより,CPLフレームワークを拡張した。
提案手法のOW-DFAにおける優位性を検証するとともに,ディープフェイク属性タスクの解釈可能性およびディープフェイク検出領域の安全性向上への影響を検証した。 The challenge in sourcing attribution for forgery faces has gained widespread attention due to the rapid development of generative techniques. While many recent works have taken essential steps on GAN-generated faces, more threatening attacks related to identity swapping or expression transferring are still overlooked. And the forgery traces hidden in unknown attacks from the open-world unlabeled faces still remain under-explored. To push the related frontier research, we introduce a new benchmark called Open-World DeepFake Attribution (OW-DFA), which aims to evaluate attribution performance against various types of fake faces under open-world scenarios. Meanwhile, we propose a novel framework named Contrastive Pseudo Learning (CPL) for the OW-DFA task through 1) introducing a Global-Local Voting module to guide the feature alignment of forged faces with different manipulated regions, 2) designing a Confidence-based Soft Pseudo-label strategy to mitigate the pseudo-noise caused by similar methods in unlabeled set. In addition, we extend the CPL framework with a multi-stage paradigm that leverages pre-train technique and iterative learning to further enhance traceability performance. Extensive experiments verify the superiority of our proposed method on the OW-DFA and also demonstrate the interpretability of deepfake attribution task and its impact on improving the security of deepfake detection area. | 翻訳日:2023-09-21 16:53:23 公開日:2023-09-20 |
# Locate and Verify: ディープフェイク検出を改善する2ストリームネットワーク Locate and Verify: A Two-Stream Network for Improved Deepfake Detection ( http://arxiv.org/abs/2309.11131v1 ) ライセンス: Link先を確認 | Chao Shuai, Jieming Zhong, Shuang Wu, Feng Lin, Zhibo Wang, Zhongjie Ba, Zhenguang Liu, Lorenzo Cavallaro, Kui Ren | (参考訳) ディープフェイクは世界を嵐で制圧し、信頼危機を引き起こした。
現在のディープフェイク検出法は一般的に一般化に不適であり、トレーニングデータセットで頻繁に発生するが比較的重要でない背景などの画像内容に過度に適合する傾向にある。
さらに、現在の手法はいくつかの支配的な偽造地域に大きく依存しており、同様に重要な地域を無視する可能性がある。
本稿では,(1)モデルが偽造証拠を抽出した潜在領域を効果的に拡大する,革新的な2ストリームネットワークを提案する。
2) 協調学習方式において, マルチストリーム機能とマルチスケール機能を扱う3つの機能モジュールを考案する。
3) 偽造アノテーション取得の課題に直面するため, パッチレベルの偽造アノテーションを推定するために, 半教師付きパッチ類似性学習戦略を提案する。
提案手法は,6つのベンチマークで従来手法を上回り,Deepfake Detection Challengeプレビューデータセットの0.797から0.835までのフレームレベルAUC,CelebDF$\_$v1データセットの0.811から0.847までのビデオレベルAUCを改良した。
私たちの実装はhttps://github.com/sccsok/locate-and-verifyで利用可能です。 Deepfake has taken the world by storm, triggering a trust crisis. Current deepfake detection methods are typically inadequate in generalizability, with a tendency to overfit to image contents such as the background, which are frequently occurring but relatively unimportant in the training dataset. Furthermore, current methods heavily rely on a few dominant forgery regions and may ignore other equally important regions, leading to inadequate uncovering of forgery cues. In this paper, we strive to address these shortcomings from three aspects: (1) We propose an innovative two-stream network that effectively enlarges the potential regions from which the model extracts forgery evidence. (2) We devise three functional modules to handle the multi-stream and multi-scale features in a collaborative learning scheme. (3) Confronted with the challenge of obtaining forgery annotations, we propose a Semi-supervised Patch Similarity Learning strategy to estimate patch-level forged location annotations. Empirically, our method demonstrates significantly improved robustness and generalizability, outperforming previous methods on six benchmarks, and improving the frame-level AUC on Deepfake Detection Challenge preview dataset from 0.797 to 0.835 and video-level AUC on CelebDF$\_$v1 dataset from 0.811 to 0.847. Our implementation is available at https://github.com/sccsok/Locate-and-Verify. | 翻訳日:2023-09-21 16:52:59 公開日:2023-09-20 |
# 大容量スピンアンサンブルの効率良く均一なマイクロ波制御のための修正分割リング共振器 Modified Split Ring Resonators for Efficient and Homogeneous Microwave Control of Large Volume Spin Ensembles ( http://arxiv.org/abs/2309.11130v1 ) ライセンス: Link先を確認 | Yachel Ben-Shalom, Amir Hen, Nir Bar-Gill | (参考訳) ソリッドステートシステムにおける局所的な欠陥を用いた量子センシングは、ここ数年で注目され、アカデミアと産業の両方で顕著な成果が示されている。
特に、最先端の感度を超えるため、大量で高密度のアンサンブルを採用することは明らかな関心事である。
このような記録感性を達成するための大きな障害は、センサ欠陥の強力で均質な駆動を実現する必要性である。
ここでは, ダイヤモンド中の窒素空孔中心を用いた高周波マイクロ波センシングに注目し, この問題に対処する改良型スプリットリング共振器の設計を開発する。
従来の結果と比較して,大容量での運転強度と均質性が向上し,所望の感性が期待できることを示した。
我々は2[Gauss/\sqrt{Watt}$]の効率比で18[MHz]のRabi周波数に到達し、その不均一性は0.1\:mm^3$のボリュームで<0.7\%$に達する。 Quantum sensing using local defects in solid-state systems has gained significant attention over the past several years, with impressive results demonstrated both in Academia and in Industry. Specifically, employing large volume and high density ensembles for beyond state-of-the-art sensitives is of clear interest. A major obstacle for achieving such record sensitivities is associated with the need to realize strong, homogeneous driving of the sensor defects. Here we focus on high-frequency microwave sensing using nitrogen-vacancy centers in diamond, and develop a modified split-ring resonator design to address this issue. We demonstrate enhanced drive strengths and homogeneities over large volumes compared to previous results, with prospects for enabling the desired sensitivities. We reach Rabi frequencies of up to 18 [MHz] with an efficiency ratio of 2 [$Gauss/\sqrt{Watt}$], along with an inhomogeneity of $<0.7\%$ in a volume of $0.1\:mm^3$. | 翻訳日:2023-09-21 16:52:34 公開日:2023-09-20 |
# 推薦のためのロングテール拡張グラフコントラスト学習 Long-tail Augmented Graph Contrastive Learning for Recommendation ( http://arxiv.org/abs/2309.11177v1 ) ライセンス: Link先を確認 | Qian Zhao and Zhengwei Wu and Zhiqiang Zhang and Jun Zhou | (参考訳) グラフ畳み込みネットワーク(GCN)は、高次関係を効果的に活用できるため、推奨システムに対して有望な結果を示した。
しかし、これらの手法は通常、現実世界のシナリオでデータ空間の問題に遭遇する。
この問題に対処するため、GCNベースのレコメンデーション手法では、自己教師付き信号を導入するためにコントラッシブラーニングを採用している。
有効性にもかかわらず、これらの手法は頭と尾のノード間のかなりの差を考慮に入れていない。
これは非一様表現分布につながる可能性があり、これはコントラスト学習法の性能にとって重要な要素である。
そこで本研究では,Long-tail Augmented Graph Contrastive Learning (LAGCL)法を提案する。
具体的には,予測された隣接情報を補足して末尾ノードを強化するための学習可能なロングテール拡張手法を導入し,得られた拡張グラフに基づいてコントラストビューを生成する。
データ拡張スキーマを学習可能にするために,ヘッドノードから擬似テールノードを生成するauto dropモジュールと,擬似テールノードからヘッドノードを再構築する知識転送モジュールを設計した。
さらに、生成したテール/ヘッドノードの分布が元のテール/ヘッドノードの分布と一致することを保証するために、生成逆ネットワークを用いる。
3つのベンチマークデータセットで実施された大規模な実験は、我々のモデルの性能が最先端よりも大幅に向上したことを示している。
さらに,学習表現の均一性と長テール性能におけるLAGCLの優位性を示す。
コードはhttps://github.com/im0qianqian/LAGCLで公開されている。 Graph Convolutional Networks (GCNs) has demonstrated promising results for recommender systems, as they can effectively leverage high-order relationship. However, these methods usually encounter data sparsity issue in real-world scenarios. To address this issue, GCN-based recommendation methods employ contrastive learning to introduce self-supervised signals. Despite their effectiveness, these methods lack consideration of the significant degree disparity between head and tail nodes. This can lead to non-uniform representation distribution, which is a crucial factor for the performance of contrastive learning methods. To tackle the above issue, we propose a novel Long-tail Augmented Graph Contrastive Learning (LAGCL) method for recommendation. Specifically, we introduce a learnable long-tail augmentation approach to enhance tail nodes by supplementing predicted neighbor information, and generate contrastive views based on the resulting augmented graph. To make the data augmentation schema learnable, we design an auto drop module to generate pseudo-tail nodes from head nodes and a knowledge transfer module to reconstruct the head nodes from pseudo-tail nodes. Additionally, we employ generative adversarial networks to ensure that the distribution of the generated tail/head nodes matches that of the original tail/head nodes. Extensive experiments conducted on three benchmark datasets demonstrate the significant improvement in performance of our model over the state-of-the-arts. Further analyses demonstrate the uniformity of learned representations and the superiority of LAGCL on long-tail performance. Code is publicly available at https://github.com/im0qianqian/LAGCL | 翻訳日:2023-09-21 16:43:00 公開日:2023-09-20 |
# 分割医療画像: 医用画像分割のための複数のサブ領域の抽出 Partition-A-Medical-Image: Extracting Multiple Representative Sub-regions for Few-shot Medical Image Segmentation ( http://arxiv.org/abs/2309.11172v1 ) ライセンス: Link先を確認 | Yazhou Zhu, Shidong Wang, Tong Xin, Zheng Zhang, Haofeng Zhang | (参考訳) Few-shot Medical Image Segmentation (FSMIS)は、高品質なアノテーションが自然に不足する医療画像セグメンテーションタスクのための、より有望なソリューションである。
しかし、現在の主流の手法は、主に外観や背景に大きなクラス内変動のあるサポート画像から全体表現を抽出することに焦点を当てており、クエリ画像への適応に困難が伴う。
本研究では, 所定の支援医用画像から複数の代表領域を抽出し, 生成した画像領域を詳細に選択する手法を提案する。
具体的には、支援画像の前景を別々の領域に分解し、その後、設計されたRPLモジュールを介して地域レベルの表現を導出する。
次に, 自己支持型多方向自己脱バイアス (ms) ブロックと支援クエリ型対話的脱バイアス (id) ブロックによる地域表現の乱れを抑制する双方向除去機構に基づく, 新たな原型的表現脱バイアス (prd) モジュールを提案する。
最後に、アセンブリ予測(AP)モジュールは、スタックされたRDモジュールを用いて学習した複数のプロトタイプ表現の予測のバランスと統合を図っている。
3つの公開医療画像データセットの広範な実験により、主要なFSMIS法よりも一貫した改善が示された。
ソースコードはhttps://github.com/YazhouZhu19/PAMIで入手できる。 Few-shot Medical Image Segmentation (FSMIS) is a more promising solution for medical image segmentation tasks where high-quality annotations are naturally scarce. However, current mainstream methods primarily focus on extracting holistic representations from support images with large intra-class variations in appearance and background, and encounter difficulties in adapting to query images. In this work, we present an approach to extract multiple representative sub-regions from a given support medical image, enabling fine-grained selection over the generated image regions. Specifically, the foreground of the support image is decomposed into distinct regions, which are subsequently used to derive region-level representations via a designed Regional Prototypical Learning (RPL) module. We then introduce a novel Prototypical Representation Debiasing (PRD) module based on a two-way elimination mechanism which suppresses the disturbance of regional representations by a self-support, Multi-direction Self-debiasing (MS) block, and a support-query, Interactive Debiasing (ID) block. Finally, an Assembled Prediction (AP) module is devised to balance and integrate predictions of multiple prototypical representations learned using stacked PRD modules. Results obtained through extensive experiments on three publicly accessible medical imaging datasets demonstrate consistent improvements over the leading FSMIS methods. The source code is available at https://github.com/YazhouZhu19/PAMI. | 翻訳日:2023-09-21 16:42:36 公開日:2023-09-20 |
# AutoSynth: オブジェクトポイントクラウド登録のための3Dトレーニングデータ生成を学ぶ AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud Registration ( http://arxiv.org/abs/2309.11170v1 ) ライセンス: Link先を確認 | Zheng Dang, Mathieu Salzmann | (参考訳) 現在のディープラーニングパラダイムでは、トレーニングデータの量と品質は、ネットワークアーキテクチャとそのトレーニング詳細と同じくらい重要になります。
しかし、特に3Dオブジェクト登録のようなタスクでは、実際のデータを大規模に収集、処理、注釈付けすることは難しく、高価で、時間を要する。
合成データセットは作成できるが、設計には専門知識が必要であり、限られたカテゴリが含まれる。
本稿では,ポイントクラウド登録のための3Dトレーニングデータを自動的に生成するAutoSynthという新しい手法を提案する。
具体的には、多種多様な3d形状の可能性のあるデータセットを低コストで探索し、最適なデータセットを自動的にキュレートする。これを実現するために、形状プリミティブを組み立てて合成した3dデータセットを生成し、リアルタイムクラウド上で3d登録のための最良のトレーニングデータを探すメタラーニング戦略を開発する。
この検索を扱いやすいものにするためには、point cloudの登録ネットワークをはるかに小さなサブゲートネットワークに置き換えて、4056.43ドルのスピードアップを実現します。
BPNetとIDAMの2つの異なるポイントクラウド登録ネットワークで実装することで、このアプローチの汎用性を実証する。
TUD-L,LINEMOD,Occluded-LINEMODに関する我々の研究結果は,検索データセットでトレーニングされたニューラルネットワークが,広く使用されているModelNet40データセットでトレーニングされたニューラルネットワークよりも一貫してパフォーマンスが向上していることを示す。 In the current deep learning paradigm, the amount and quality of training data are as critical as the network architecture and its training details. However, collecting, processing, and annotating real data at scale is difficult, expensive, and time-consuming, particularly for tasks such as 3D object registration. While synthetic datasets can be created, they require expertise to design and include a limited number of categories. In this paper, we introduce a new approach called AutoSynth, which automatically generates 3D training data for point cloud registration. Specifically, AutoSynth automatically curates an optimal dataset by exploring a search space encompassing millions of potential datasets with diverse 3D shapes at a low cost.To achieve this, we generate synthetic 3D datasets by assembling shape primitives, and develop a meta-learning strategy to search for the best training data for 3D registration on real point clouds. For this search to remain tractable, we replace the point cloud registration network with a much smaller surrogate network, leading to a $4056.43$ times speedup. We demonstrate the generality of our approach by implementing it with two different point cloud registration networks, BPNet and IDAM. Our results on TUD-L, LINEMOD and Occluded-LINEMOD evidence that a neural network trained on our searched dataset yields consistently better performance than the same one trained on the widely used ModelNet40 dataset. | 翻訳日:2023-09-21 16:42:13 公開日:2023-09-20 |
# 自己刺激スピンエコーのスケーリング Scaling of self-stimulated spin echoes ( http://arxiv.org/abs/2309.11169v1 ) ライセンス: Link先を確認 | Sebastian de Graaf, Aditya Jayaraman, Sergey Kubatkin, Andrey Danilov, Vishal Ranjan | (参考訳) 近年、スピンアンサンブルと超伝導共振器の高協力性と不均質結合状態において自己刺激エコーが報告されている。
本研究では,高速周波数可変共振器によるエコーシレンシングによる相対振幅の検討を行った。
cawo$_4$結晶におけるer$^{3+}$電子スピンの高異方性スピン線幅は、スピン共鳴アンサンブルの協調性に依存することも研究できる。
自己刺激エコーは主に2つの大きな制御パルスとそれ以前のエコーの組み合わせによって生じる。 Self-stimulated echoes have recently been reported in the high cooperativity and inhomogeneous coupling regime of spin ensembles with superconducting resonators. In this work, we study their relative amplitudes using echo-silencing made possible by a fast frequency tunable resonator. The highly anisotropic spin linewidth of Er$^{3+}$ electron spins in the CaWO$_4$ crystal also allows to study the dependence on spin-resonator ensemble cooperativity. It is demonstrated that self-stimulated echoes primarily result from a combination of two large control pulses and the echo preceding it. | 翻訳日:2023-09-21 16:41:46 公開日:2023-09-20 |
# 言語・文法間の事前学習モデルの評価 Assessment of Pre-Trained Models Across Languages and Grammars ( http://arxiv.org/abs/2309.11165v1 ) ライセンス: Link先を確認 | Alberto Mu\~noz-Ortiz and David Vilares and Carlos G\'omez-Rodr\'iguez | (参考訳) 本稿では,多言語大言語モデル (LLM) が文法をどのように学習するかを評価するための手法を提案する。
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元する。
そこで我々は、いくつかのLLMを選択し、依存関係解析のための13のUDツリーバンクと構成解析のための10のツリーバンクについて研究する。
結果はこう示しています
i) フレームワークはエンコーディング間で一貫性がある。
(ii)事前学習された単語ベクトルは、依存関係よりも構文の構成表現を好まない。
(iii)サブワードトークン化は、文字ベースのモデルとは対照的に構文を表現するために必要であり、
(4)プレトレーニングデータにおける言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。 We present an approach for assessing how multilingual large language models (LLMs) learn syntax in terms of multi-formalism syntactic structures. We aim to recover constituent and dependency structures by casting parsing as sequence labeling. To do so, we select a few LLMs and study them on 13 diverse UD treebanks for dependency parsing and 10 treebanks for constituent parsing. Our results show that: (i) the framework is consistent across encodings, (ii) pre-trained word vectors do not favor constituency representations of syntax over dependencies, (iii) sub-word tokenization is needed to represent syntax, in contrast to character-based models, and (iv) occurrence of a language in the pretraining data is more important than the amount of task data when recovering syntax from the word vectors. | 翻訳日:2023-09-21 16:41:34 公開日:2023-09-20 |
# 少数映像分割のための多粒度時間プロトタイプ学習 Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation ( http://arxiv.org/abs/2309.11160v1 ) ライセンス: Link先を確認 | Nian Liu, Kepan Nan, Wangbo Zhao, Yuanwei Liu, Xiwen Yao, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Junwei Han, Fahad Shahbaz Khan | (参考訳) FSVOS(Few-Shot Video Object Segmentation)は、いくつかのアノテーション付きサポートイメージで定義された同じカテゴリのクエリビデオにオブジェクトをセグメントすることを目的としている。
しかし、この作業はほとんど探索されなかった。
本研究は,映像データの時間的相関性を扱うために,外部サポートガイダンス情報と適応的なクエリガイダンス手がかりを組み合わせた最新の数ショット画像分割手法であるIPMTに基づいて,多粒度時間的ガイダンス情報を活用することを提案する。
問合せビデオ情報をクリッププロトタイプとメモリプロトタイプに分解して,局所的および長期的内部時間的ガイダンスをキャプチャする。
フレームプロトタイプは、微粒な適応誘導を処理し、双方向のクリップフレームプロトタイプ通信を可能にするために、フレーム毎に独立してさらに使用される。
ノイズメモリの影響を低減するため,異なる予測領域間の構造的類似性関係と,信頼性の高いメモリフレームの選択を支援することを提案する。
さらに,学習したプロトタイプのカテゴリー識別性を高めるために,新たなセグメンテーション損失も提案されている。
実験の結果,提案したビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも有意に優れていた。
コードはhttps://github.com/nankepan/VIPMTで入手できる。 Few-Shot Video Object Segmentation (FSVOS) aims to segment objects in a query video with the same category defined by a few annotated support images. However, this task was seldom explored. In this work, based on IPMT, a state-of-the-art few-shot image segmentation method that combines external support guidance information with adaptive query guidance cues, we propose to leverage multi-grained temporal guidance information for handling the temporal correlation nature of video data. We decompose the query video information into a clip prototype and a memory prototype for capturing local and long-term internal temporal guidance, respectively. Frame prototypes are further used for each frame independently to handle fine-grained adaptive guidance and enable bidirectional clip-frame prototype communication. To reduce the influence of noisy memory, we propose to leverage the structural similarity relation among different predicted regions and the support for selecting reliable memory frames. Furthermore, a new segmentation loss is also proposed to enhance the category discriminability of the learned prototypes. Experimental results demonstrate that our proposed video IPMT model significantly outperforms previous models on two benchmark datasets. Code is available at https://github.com/nankepan/VIPMT. | 翻訳日:2023-09-21 16:41:24 公開日:2023-09-20 |
# 未登録時間経過画像における植物細胞追跡と3次元グラフの類似性の学習 Learning Deformable 3D Graph Similarity to Track Plant Cells in Unregistered Time Lapse Images ( http://arxiv.org/abs/2309.11157v1 ) ライセンス: Link先を確認 | Md Shazid Islam, Arindam Dutta, Calvin-Khang Ta, Kevin Rodriguez, Christian Michael, Mark Alber, G. Venugopala Reddy, Amit K. Roy-Chowdhury | (参考訳) 顕微鏡で得られた画像中の植物細胞を追跡することは、多数の細胞、密集した植物細胞と細胞分裂の異なる層の非均一な成長などの生物学的現象のために難しい問題である。
さらに、イメージングプロセスに固有のノイズや回避不能な全身的エラーが深い組織層内の画像の問題をさらに複雑にする。
本稿では,植物細胞を密に充填した3次元細胞構造を利用して3次元グラフを作成し,正確な細胞追跡を行う新しい学習手法を提案する。
さらに, セル分割検出と有効3次元登録のための新しいアルゴリズムを提案し, 最先端のアルゴリズムを改良する。
ベンチマークデータセット上での追跡精度と推論時間の観点から,本アルゴリズムの有効性を示す。 Tracking of plant cells in images obtained by microscope is a challenging problem due to biological phenomena such as large number of cells, non-uniform growth of different layers of the tightly packed plant cells and cell division. Moreover, images in deeper layers of the tissue being noisy and unavoidable systemic errors inherent in the imaging process further complicates the problem. In this paper, we propose a novel learning-based method that exploits the tightly packed three-dimensional cell structure of plant cells to create a three-dimensional graph in order to perform accurate cell tracking. We further propose novel algorithms for cell division detection and effective three-dimensional registration, which improve upon the state-of-the-art algorithms. We demonstrate the efficacy of our algorithm in terms of tracking accuracy and inference-time on a benchmark dataset. | 翻訳日:2023-09-21 16:41:02 公開日:2023-09-20 |
# 小惑星近傍のナビゲーションのためのcnnによる局所的特徴 CNN-based local features for navigation near an asteroid ( http://arxiv.org/abs/2309.11156v1 ) ライセンス: Link先を確認 | Olli Knuuttila, Antti Kestil\"a, Esa Kallio | (参考訳) 本稿では,小惑星探査と軌道上探査における近距離航法の課題について述べる。
伝統的な特徴抽出法は、散乱光が限られているため、小惑星の顕著な外観変化に苦しむ。
そこで,我々は小惑星近接航法に特化した軽量特徴抽出器を提案し,照明変化やアフィン変換に頑健な設計を行った。
小惑星の状況下で,最先端の特徴抽出ネットワークと3つの軽量ネットワークアーキテクチャを比較し,評価する。
提案する特徴抽出器は,NEAR Shoemaker, Hayabusa, Rosetta, OSIRIS-RExなどのミッションからの合成画像と実世界のデータの両方を活用する。
私たちのコントリビューションには、トレーニングされた機能抽出器、既存のメソッドに対するインクリメンタルな改善、ドメイン固有の機能抽出器をトレーニングするためのパイプラインが含まれています。
実験結果から,正確なナビゲーションと位置推定を行う上でのアプローチの有効性が示された。
この研究は小惑星ナビゲーションの分野を前進させることを目的としており、この領域における将来の研究への洞察を提供する。 This article addresses the challenge of vision-based proximity navigation in asteroid exploration missions and on-orbit servicing. Traditional feature extraction methods struggle with the significant appearance variations of asteroids due to limited scattered light. To overcome this, we propose a lightweight feature extractor specifically tailored for asteroid proximity navigation, designed to be robust to illumination changes and affine transformations. We compare and evaluate state-of-the-art feature extraction networks and three lightweight network architectures in the asteroid context. Our proposed feature extractors and their evaluation leverages both synthetic images and real-world data from missions such as NEAR Shoemaker, Hayabusa, Rosetta, and OSIRIS-REx. Our contributions include a trained feature extractor, incremental improvements over existing methods, and a pipeline for training domain-specific feature extractors. Experimental results demonstrate the effectiveness of our approach in achieving accurate navigation and localization. This work aims to advance the field of asteroid navigation and provides insights for future research in this domain. | 翻訳日:2023-09-21 16:40:50 公開日:2023-09-20 |
# ProtoExplorer: プロトタイプ探索と精錬によるディープフェイク映像の解釈法則解析 ProtoExplorer: Interpretable Forensic Analysis of Deepfake Videos using Prototype Exploration and Refinement ( http://arxiv.org/abs/2309.11155v1 ) ライセンス: Link先を確認 | Merel de Leeuw den Bouter, Javier Lloret Pardo, Zeno Geradts, Marcel Worring | (参考訳) 高度な設定では、人間に解釈可能な予測を提供する機械学習モデルが非常に重要です。
これは、膨大な数の調整可能なパラメータを持つ複雑なディープラーニングベースモデルの出現によってさらに真実となる。
近年, 深層学習を解釈可能な手法として, プロトタイプベースの手法が登場している。
特に,法医学的文脈におけるディープフェイク映像の分析に注目する。
ディープフェイクビデオの検出にプロトタイプベースの手法が導入されたが、実際のシナリオでの使用は依然として大きな課題を呈しており、プロトタイプは過度に類似し、解釈可能性もプロトタイプによって異なる傾向にある。
本稿では,プロトタイプ学習のためのVisual Analyticsプロセスモデルを提案し,これに基づいてプロトタイプベースディープフェイク検出モデルの探索と改善を行うVisual AnalyticsシステムであるProtoExplorerを提案する。
ProtoExplorerは、ビデオデータを扱う際にプロトタイプベースの予測を可視化し、時間的にフィルタリングするツールを提供する。
時空間プロトタイプの作業の複雑さを解消し、可視化を容易にする。
さらに、プロトタイプを対話的に削除して置き換えることで、検出精度を維持しつつ、より解釈可能でバイアスの少ない予測を実現することで、モデルの改良を可能にする。
このシステムは法医学の専門家によって設計され、オープンエンドの思考評価とインタビューに基づいて、数多くのラウンドで評価された。
これらのセッションは、システムの改善に必要なフィードバックを提供しながら、我々のプロトタイプベースのdeepfakeビデオの強みを確認しました。 In high-stakes settings, Machine Learning models that can provide predictions that are interpretable for humans are crucial. This is even more true with the advent of complex deep learning based models with a huge number of tunable parameters. Recently, prototype-based methods have emerged as a promising approach to make deep learning interpretable. We particularly focus on the analysis of deepfake videos in a forensics context. Although prototype-based methods have been introduced for the detection of deepfake videos, their use in real-world scenarios still presents major challenges, in that prototypes tend to be overly similar and interpretability varies between prototypes. This paper proposes a Visual Analytics process model for prototype learning, and, based on this, presents ProtoExplorer, a Visual Analytics system for the exploration and refinement of prototype-based deepfake detection models. ProtoExplorer offers tools for visualizing and temporally filtering prototype-based predictions when working with video data. It disentangles the complexity of working with spatio-temporal prototypes, facilitating their visualization. It further enables the refinement of models by interactively deleting and replacing prototypes with the aim to achieve more interpretable and less biased predictions while preserving detection accuracy. The system was designed with forensic experts and evaluated in a number of rounds based on both open-ended think aloud evaluation and interviews. These sessions have confirmed the strength of our prototype based exploration of deepfake videos while they provided the feedback needed to continuously improve the system. | 翻訳日:2023-09-21 16:40:33 公開日:2023-09-20 |
# 視覚慣性オドメトリーとタイト融合による単トラック地上車両動特性モデルのオンラインキャリブレーション Online Calibration of a Single-Track Ground Vehicle Dynamics Model by Tight Fusion with Visual-Inertial Odometry ( http://arxiv.org/abs/2309.11148v1 ) ライセンス: Link先を確認 | Haolong Li, Joerg Stueckler | (参考訳) 車輪付き移動ロボットは、その動きとナビゲーション計画における制御行動の効果を推定する能力を必要とする。
本稿では,視覚的慣性オードメトリーを用いた車輪付き地上車両のシングルトラックダイナミックスモデルに厳密に融合する新しいアプローチST-VIOを提案する。
提案手法は,オンラインのダイナミクスモデルに適合し,将来の制御入力を前提とした正確な前方予測を容易にする。
単トラック動力学モデルは、通常の微分方程式を用いて平地における特定の制御入力の下での車輪付き車両の運動を近似する。
単一トラックモデルの特異性のない微分可能な変種を用いて、動的因子をVIOにシームレスに統合し、VIO状態変数とともにオンラインにモデルパラメータを最適化する。
地形や車輪の異なる屋内・屋外両環境における実環境データを用いて本手法の有効性を検証した。
実験では,ST-VIOは環境の変化に適応するだけでなく,新しい制御入力で正確な予測を行うことができ,トラッキング精度も向上することを示した。 Wheeled mobile robots need the ability to estimate their motion and the effect of their control actions for navigation planning. In this paper, we present ST-VIO, a novel approach which tightly fuses a single-track dynamics model for wheeled ground vehicles with visual inertial odometry. Our method calibrates and adapts the dynamics model online and facilitates accurate forward prediction conditioned on future control inputs. The single-track dynamics model approximates wheeled vehicle motion under specific control inputs on flat ground using ordinary differential equations. We use a singularity-free and differentiable variant of the single-track model to enable seamless integration as dynamics factor into VIO and to optimize the model parameters online together with the VIO state variables. We validate our method with real-world data in both indoor and outdoor environments with different terrain types and wheels. In our experiments, we demonstrate that our ST-VIO can not only adapt to the change of the environments and achieve accurate prediction under new control inputs, but even improves the tracking accuracy. | 翻訳日:2023-09-21 16:40:13 公開日:2023-09-20 |
# 継続的学習システム開発を支援する機械学習学習時間の予測に向けて Towards a Prediction of Machine Learning Training Time to Support Continuous Learning Systems Development ( http://arxiv.org/abs/2309.11226v1 ) ライセンス: Link先を確認 | Francesca Marzi, Giordano d'Aloisio, Antinisca Di Marco, and Giovanni Stilo | (参考訳) 機械学習モデル(ML)モデルのトレーニング時間を予測する問題は、科学コミュニティにおいて極めて重要になっている。
mlモデルのトレーニング時間を事前に予測できることは、エネルギー効率と、例えばmlopsアーキテクチャの文脈におけるパフォーマンスの両方において、最良のモデルを自動的に選択することを可能にする。
本稿では,本研究の方向性について述べる。
特に、ZhengらによるFPTC(Full Parameter Time Complexity)アプローチについて広範な実証的研究を行い、機械学習モデルのトレーニング時間をデータセットとモデルの両方のパラメータの関数として形式化する唯一のアプローチについて述べる。
我々は,ロジスティック回帰とランダムフォレスト分類のための定式化について検討し,アプローチの主な長所と短所を強調した。
最後に、本研究から、トレーニング時間の予測が文脈(例えば、関連するデータセット)とどのように関係しているか、そしてFPTCアプローチが一般化できないのかを観察する。 The problem of predicting the training time of machine learning (ML) models has become extremely relevant in the scientific community. Being able to predict a priori the training time of an ML model would enable the automatic selection of the best model both in terms of energy efficiency and in terms of performance in the context of, for instance, MLOps architectures. In this paper, we present the work we are conducting towards this direction. In particular, we present an extensive empirical study of the Full Parameter Time Complexity (FPTC) approach by Zheng et al., which is, to the best of our knowledge, the only approach formalizing the training time of ML models as a function of both dataset's and model's parameters. We study the formulations proposed for the Logistic Regression and Random Forest classifiers, and we highlight the main strengths and weaknesses of the approach. Finally, we observe how, from the conducted study, the prediction of training time is strictly related to the context (i.e., the involved dataset) and how the FPTC approach is not generalizable. | 翻訳日:2023-09-21 16:33:40 公開日:2023-09-20 |
# オンラインインタラクションにおける多様性の活用 Leveraging Diversity in Online Interactions ( http://arxiv.org/abs/2309.11224v1 ) ライセンス: Link先を確認 | Nardine Osman and Bruno Rosell i Gui and Carles Sierra | (参考訳) 本論文は、人々が日々の問題解決を支援するために、オンラインで人々を繋ぐという課題に対処する。
オンラインインタラクションを媒介する宣言的規範を活用し、人々を繋ぐ際に多様性を活用することの課題に特に焦点をあてる。
異なる大学サイトでパイロットを運用し、高いユーザ満足度を背景として、選択したプロファイルの多様性の相対的な成功を示す。 This paper addresses the issue of connecting people online to help them find support with their day-to-day problems. We make use of declarative norms for mediating online interactions, and we specifically focus on the issue of leveraging diversity when connecting people. We run pilots at different university sites, and the results show relative success in the diversity of the selected profiles, backed by high user satisfaction. | 翻訳日:2023-09-21 16:33:23 公開日:2023-09-20 |
# 幾何学的単語を用いた一般化Few-Shot Point Cloud Segmentation Generalized Few-Shot Point Cloud Segmentation Via Geometric Words ( http://arxiv.org/abs/2309.11222v1 ) ライセンス: Link先を確認 | Yating Xu, Conghui Hu, Na Zhao, Gim Hee Lee | (参考訳) 既存の完全な教師付きポイントクラウドセグメンテーションメソッドは、新しいクラスで動的テスト環境で苦しむ。
少数のショットポイントクラウドセグメンテーションアルゴリズムは、ベースクラスのセグメンテーション精度を犠牲にして新しいクラスに適応することを学ぶことでこの問題に対処する。
これは、いくつかのサポートポイントクラウドしか持たない新しいカテゴリに一般化し、同時にセグメンテーションの能力を保持する必要がある、一般化された数ショットポイントクラウドセグメンテーションというより実践的なパラダイムの最初の試みである。
基本クラスと新規クラス間で共有される幾何学的成分を表す幾何学的単語を提案し、それらを新しい幾何学的意味表現に組み込んで、古いクラスを忘れずに新しいクラスへのより良い一般化を容易にする。
さらに,幾何学的事前知識でセグメント化を導くための幾何学的プロトタイプも導入する。
S3DISとScanNetの大規模な実験は,ベースライン法よりも優れた性能を示す。
私たちのコードは、https://github.com/Pixie8888/GFS-3DSeg_GWsで利用可能です。 Existing fully-supervised point cloud segmentation methods suffer in the dynamic testing environment with emerging new classes. Few-shot point cloud segmentation algorithms address this problem by learning to adapt to new classes at the sacrifice of segmentation accuracy for the base classes, which severely impedes its practicality. This largely motivates us to present the first attempt at a more practical paradigm of generalized few-shot point cloud segmentation, which requires the model to generalize to new categories with only a few support point clouds and simultaneously retain the capability to segment base classes. We propose the geometric words to represent geometric components shared between the base and novel classes, and incorporate them into a novel geometric-aware semantic representation to facilitate better generalization to the new classes without forgetting the old ones. Moreover, we introduce geometric prototypes to guide the segmentation with geometric prior knowledge. Extensive experiments on S3DIS and ScanNet consistently illustrate the superior performance of our method over baseline methods. Our code is available at: https://github.com/Pixie8888/GFS-3DSeg_GWs. | 翻訳日:2023-09-21 16:33:16 公開日:2023-09-20 |
# 変圧器ネットワークを用いた自動バス呼分類 Automatic Bat Call Classification using Transformer Networks ( http://arxiv.org/abs/2309.11218v1 ) ライセンス: Link先を確認 | Frank Fundel, Daniel A. Braun, Sebastian Gottwald | (参考訳) コウモリの自動識別は、コウモリとその生息する生態系をモニタリングする上で、難しいが重要な課題である。
自動呼び出しの識別における大きな課題は、高い呼び出し変数、種間の類似性、干渉呼び出し、注釈付きデータの欠如である。
現在利用可能なモデルの多くは、単一のコールデータセットでトレーニングされているため、実際のデータに対するパフォーマンスが比較的低い上に、リアルタイムな分類には遅すぎることが多い。
本稿では,リアルタイムな分類シナリオに適用可能なマルチラベル分類のためのTransformerアーキテクチャを提案する。
複数のbats呼び出しを複数の同時呼び出しで単一の記録にマージすることにより、合成した多種多様な記録でモデルを訓練する。
本手法は, 88.92%(F1スコア84.23%)と多種マクロF1スコア74.40%の精度を実現する。
独立したデータセットであるchirovoxの他の3つのツールと比較して、単一種分類の精度は少なくとも25.82%向上し、マルチ種分類のマクロf1-scoreは少なくとも6.9%向上している。 Automatically identifying bat species from their echolocation calls is a difficult but important task for monitoring bats and the ecosystem they live in. Major challenges in automatic bat call identification are high call variability, similarities between species, interfering calls and lack of annotated data. Many currently available models suffer from relatively poor performance on real-life data due to being trained on single call datasets and, moreover, are often too slow for real-time classification. Here, we propose a Transformer architecture for multi-label classification with potential applications in real-time classification scenarios. We train our model on synthetically generated multi-species recordings by merging multiple bats calls into a single recording with multiple simultaneous calls. Our approach achieves a single species accuracy of 88.92% (F1-score of 84.23%) and a multi species macro F1-score of 74.40% on our test set. In comparison to three other tools on the independent and publicly available dataset ChiroVox, our model achieves at least 25.82% better accuracy for single species classification and at least 6.9% better macro F1-score for multi species classification. | 翻訳日:2023-09-21 16:32:57 公開日:2023-09-20 |
# 考えながら話す - テキスト生成中の音声合成のストリーミング Speak While You Think: Streaming Speech Synthesis During Text Generation ( http://arxiv.org/abs/2309.11210v1 ) ライセンス: Link先を確認 | Avihu Dekel, Slava Shechtman, Raul Fernandez, David Haws, Zvi Kons, Ron Hoory | (参考訳) 大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。
Text-To-Speechを使ってLPM出力を合成すると、典型的には顕著なレイテンシが生じる。
LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
LLM2Speechは、ストリーミングを可能にするために将来のコンテキストへの露出を制限しながら、非ストリーミングの教師モデルの予測を模倣する。
llmの隠れた埋め込みを利用しており、テキスト生成の副産物であり、意味的な文脈を含んでいる。
実験結果から,LLM2Speechは教師の質を維持しつつ,遅延を低減し,自然な会話を可能にすることがわかった。 Large Language Models (LLMs) demonstrate impressive capabilities, yet interaction with these models is mostly facilitated through text. Using Text-To-Speech to synthesize LLM outputs typically results in notable latency, which is impractical for fluent voice conversations. We propose LLM2Speech, an architecture to synthesize speech while text is being generated by an LLM which yields significant latency reduction. LLM2Speech mimics the predictions of a non-streaming teacher model while limiting the exposure to future context in order to enable streaming. It exploits the hidden embeddings of the LLM, a by-product of the text generation that contains informative semantic context. Experimental results show that LLM2Speech maintains the teacher's quality while reducing the latency to enable natural conversations. | 翻訳日:2023-09-21 16:32:34 公開日:2023-09-20 |
# ブロックチェーンアプリケーションの性能評価のためのモデルベース機械学習アプローチ A Model-Based Machine Learning Approach for Assessing the Performance of Blockchain Applications ( http://arxiv.org/abs/2309.11205v1 ) ライセンス: Link先を確認 | Adel Albshri, Ali Alzubaidi, Ellis Solaiman | (参考訳) 最近のブロックチェーン技術の進歩は、さまざまなドメインの代替手段としての地位を固める。
しかし、基盤となるインフラストラクチャの複雑さと分散性のため、ブロックチェーンアプリケーションのパフォーマンス評価は難しい場合がある。
したがって、ブロックチェーンベースのアプリケーションの開発と評価を促進するためには、信頼できるモデリングアプローチが必要である。
シミュレーションベースのソリューションが研究されている一方で、マシンラーニング(ml)モデルベースの技術がブロックチェーンアプリケーションのパフォーマンス評価と組み合わせて議論されることはほとんどない。
本研究は2つのmlモデルに基づく手法を用いて行う。
まず、k$neighest neighbor (k$nn) と support vector machine (svm) をトレーニングし、所定の構成パラメータを使用してブロックチェーンのパフォーマンスを予測する。
次に、Salp Swarm Optimization (SO) MLモデルを用いて、必要なパフォーマンスレベルを達成するための最適なブロックチェーン構成を調査する。
我々は、不確実性にもかかわらず最適なパラメータ構成を正確に推奨することを証明するために、ISOと呼ばれる粗い集合理論を用いてSOを強化する。
最後に、統計的比較は、我々のモデルが競争力を持つことを示している。
k$NN モデルは SVM を 5 % 上回り、ISO は通常の SO に比べて 4 % の精度差を減少させることを示した。 The recent advancement of Blockchain technology consolidates its status as a viable alternative for various domains. However, evaluating the performance of blockchain applications can be challenging due to the underlying infrastructure's complexity and distributed nature. Therefore, a reliable modelling approach is needed to boost Blockchain-based applications' development and evaluation. While simulation-based solutions have been researched, machine learning (ML) model-based techniques are rarely discussed in conjunction with evaluating blockchain application performance. Our novel research makes use of two ML model-based methods. Firstly, we train a $k$ nearest neighbour ($k$NN) and support vector machine (SVM) to predict blockchain performance using predetermined configuration parameters. Secondly, we employ the salp swarm optimization (SO) ML model which enables the investigation of optimal blockchain configurations for achieving the required performance level. We use rough set theory to enhance SO, hereafter called ISO, which we demonstrate to prove achieving an accurate recommendation of optimal parameter configurations; despite uncertainty. Finally, statistical comparisons indicate that our models have a competitive edge. The $k$NN model outperforms SVM by 5\% and the ISO also demonstrates a reduction of 4\% inaccuracy deviation compared to regular SO. | 翻訳日:2023-09-21 16:32:20 公開日:2023-09-20 |
# 人工知能を使って編み物パターンの自動化 Using Artificial Intelligence for the Automation of Knitting Patterns ( http://arxiv.org/abs/2309.11202v1 ) ライセンス: Link先を確認 | Uduak Uboh | (参考訳) 編み物パターンは編物の作成と設計において重要な要素である。
伝統的にこれらのパターンは非公式に教えられていたが、技術の進歩により編み物に興味のある人は編み物を始めるためのガイドとしてこのパターンを利用することができる。
編み物は主に趣味であり、工業製造で特殊編み物機を使用する以外は、編み物におけるAlの使用は、他の分野よりも広くは使われていない。
しかし,自動システムを用いた編み込みパターン分類が有効かどうかを判断することが重要である。
編み物のパターンを認識し分類するために。
本研究では,データ拡張と伝達学習技術を用いて深層学習モデルを提案する。
Inception ResNet-V2はモデルで使用される主要な特徴抽出と分類アルゴリズムである。
精度,対数損失,F1スコア,精度,リコールスコアなどの指標を用いてモデルの評価を行った。
モデル評価の結果は,高いモデル精度,精度,リコール,F1スコアを示した。
さらに、クラスの大半でAUCスコアは0.7-0.9の範囲であった。
他の事前学習モデルと転送学習を伴うresnet-50モデルを用いて比較分析を行い,提案するモデル評価結果が他を上回った。
このプロジェクトの主な制限は時間であり、より多くの時間とともに、多くのエポックよりも精度が高かったかもしれない。 Knitting patterns are a crucial component in the creation and design of knitted materials. Traditionally, these patterns were taught informally, but thanks to advancements in technology, anyone interested in knitting can use the patterns as a guide to start knitting. Perhaps because knitting is mostly a hobby, with the exception of industrial manufacturing utilising specialised knitting machines, the use of Al in knitting is less widespread than its application in other fields. However, it is important to determine whether knitted pattern classification using an automated system is viable. In order to recognise and classify knitting patterns. Using data augmentation and a transfer learning technique, this study proposes a deep learning model. The Inception ResNet-V2 is the main feature extraction and classification algorithm used in the model. Metrics like accuracy, logarithmic loss, F1-score, precision, and recall score were used to evaluate the model. The model evaluation's findings demonstrate high model accuracy, precision, recall, and F1 score. In addition, the AUC score for majority of the classes was in the range (0.7-0.9). A comparative analysis was done using other pretrained models and a ResNet-50 model with transfer learning and the proposed model evaluation results surpassed all others. The major limitation for this project is time, as with more time, there might have been better accuracy over a larger number of epochs. | 翻訳日:2023-09-21 16:32:00 公開日:2023-09-20 |
# aiをいつ信頼するか:ニューラルネットワークの認証の進歩と課題 When to Trust AI: Advances and Challenges for Certification of Neural Networks ( http://arxiv.org/abs/2309.11196v1 ) ライセンス: Link先を確認 | Marta Kwiatkowska, Xiyue Zhang | (参考訳) 人工知能(ai)は急速に進歩しており、自律システム、医療診断、自然言語処理など、幅広い応用分野に展開する準備が整っている。
現実世界のアプリケーションに対するai技術の初期の採用には問題がなく、特にニューラルネットワークは不安定で、逆境の例に影響を受けやすい。
長期的には、システム障害の回避と信頼性の確保による潜在的な害を軽減するため、適切な安全保証技術を開発する必要がある。
本稿では、認証と説明可能性に着目し、ai決定の安全性を確保するために開発された技術の概要と今後の課題について述べる。 Artificial intelligence (AI) has been advancing at a fast pace and it is now poised for deployment in a wide range of applications, such as autonomous systems, medical diagnosis and natural language processing. Early adoption of AI technology for real-world applications has not been without problems, particularly for neural networks, which may be unstable and susceptible to adversarial examples. In the longer term, appropriate safety assurance techniques need to be developed to reduce potential harm due to avoidable system failures and ensure trustworthiness. Focusing on certification and explainability, this paper provides an overview of techniques that have been developed to ensure safety of AI decisions and discusses future challenges. | 翻訳日:2023-09-21 16:31:40 公開日:2023-09-20 |
# RHALE:ロバストと不均一性を考慮した局所効果の蓄積 RHALE: Robust and Heterogeneity-aware Accumulated Local Effects ( http://arxiv.org/abs/2309.11193v1 ) ライセンス: Link先を確認 | Vasilis Gkolemis, Theodore Dalamagas, Eirini Ntoutsi, Christos Diou | (参考訳) 累積局所効果(英: Accumulated Local Effects, ALE)は、ある特徴が出力に与える影響を分離するために広く使われている説明可能性法である。
しかし、2つの制限がある。
まず、不均一性として知られる平均的な(グローバルな)効果からインスタンスレベルの(局所的な)効果の偏りを定量化しない。
第二に、平均効果を推定するために、機能ドメインをユーザ定義の固定サイズのビンに分割する。
これらの制限に対処するため,我々はロバストで不均質なエール (rhale) を提案する。
RHALEは局所効果の標準偏差を考慮して不均一性を定量化し、最適な可変サイズのビン分割を自動的に決定する。
本稿では,各ビン内の局所的効果の標準偏差を偏りなく近似するために,ビン分割を十分条件に従わなければならないことを証明する。
これらの条件に基づき, 最適分割を自動的に決定し, 推定バイアスと分散のバランスをとるアルゴリズムを提案する。
合成および実データを用いた評価により,RHALE が他の手法に比べて優れていること,特に相関性のある場合,自動ビン分割の利点などを示す。 Accumulated Local Effects (ALE) is a widely-used explainability method for isolating the average effect of a feature on the output, because it handles cases with correlated features well. However, it has two limitations. First, it does not quantify the deviation of instance-level (local) effects from the average (global) effect, known as heterogeneity. Second, for estimating the average effect, it partitions the feature domain into user-defined, fixed-sized bins, where different bin sizes may lead to inconsistent ALE estimations. To address these limitations, we propose Robust and Heterogeneity-aware ALE (RHALE). RHALE quantifies the heterogeneity by considering the standard deviation of the local effects and automatically determines an optimal variable-size bin-splitting. In this paper, we prove that to achieve an unbiased approximation of the standard deviation of local effects within each bin, bin splitting must follow a set of sufficient conditions. Based on these conditions, we propose an algorithm that automatically determines the optimal partitioning, balancing the estimation bias and variance. Through evaluations on synthetic and real datasets, we demonstrate the superiority of RHALE compared to other methods, including the advantages of automatic bin splitting, especially in cases with correlated features. | 翻訳日:2023-09-21 16:31:30 公開日:2023-09-20 |
# ランダム拘束モデルにおける弱エルゴーディティ破壊遷移 Weak ergodicity breaking transition in randomly constrained model ( http://arxiv.org/abs/2309.11180v1 ) ライセンス: Link先を確認 | Aydin Deger and Achilleas Lazarides | (参考訳) ライドバーグ原子の実験は、最近、少数の特別な初期状態から異常に遅い崩壊を発見した。
このような長寿命状態 (LLS) のロバスト性を, 可変範囲$\mu$の局所拘束ランダムシステムのアンサンブルを用いて検討する。
様々な$\mu$が与えられると、熱と弱非エルゴード相(有限個のLSSをサポートする)の遷移が見つかる。
さらに, 実験で観測されたLSSは, 微小な摂動を加えると消失し, ここで報告した遷移が既知のものと異なることを示す。
すると LLS のダイナミクスがヒルベルト空間の一部のみを探索することを示し、したがってヒルベルト空間の局所化に対応する。 Experiments in Rydberg atoms have recently found unusually slow decay from a small number of special initial states. We investigate the robustness of such long-lived states (LLS) by studying an ensemble of locally constrained random systems with tunable range $\mu$. Upon varying $\mu$, we find a transition between a thermal and a weakly non-ergodic (supporting a finite number of LLS) phases. Furthermore, we demonstrate that the LLS observed in the experiments disappear upon the addition of small perturbations so that the transition reported here is distinct from known ones. We then show that the LLS dynamics explores only part of the accessible Hilbert space, thus corresponding to localisation in Hilbert space. | 翻訳日:2023-09-21 16:31:08 公開日:2023-09-20 |
# StructChart: 視覚チャート理解のための知覚、構造化、推論 StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding ( http://arxiv.org/abs/2309.11268v1 ) ライセンス: Link先を確認 | Renqiu Xia, Bo Zhang, Haoyang Peng, Ning Liao, Peng Ye, Botian Shi, Junchi Yan, Yu Qiao | (参考訳) チャートは様々な科学分野の文献で一般的であり、読者に簡単にアクセス可能なリッチな情報を伝える。
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識、あるいはグラフ形式で抽出されたデータに対して推論を実行することに焦点を当てている。
本稿では,ピアワークに特有な質問応答タスクを超えて,異なる下流タスクに広く適用可能な,統合的かつラベル効率の高い共同知覚と推論タスクの学習パラダイムを確立することを目的とする。
具体的には、structchartはまず、チャート情報を人気のある管状形式(特に線形化されたcsv)から提案されている構造化三重項表現(str)に再構成する。
次に、チャート認識タスクの性能を定量的に評価する構造化チャート指向表現尺度(SCRM)を提案する。
学習用データセットを充実させるためには,Large Language Model (LLM)を活用する可能性をさらに検討し,チャートの視覚的スタイルと統計情報の両方の観点からチャートの多様性を高める。
様々なチャート関連タスクに関する広範囲な実験が行われ、チャート理解のフロンティアを推進するために統一されたチャート知覚-合理化パラダイムの有効性と可能性を示している。 Charts are common in literature across different scientific fields, conveying rich information easily accessible to readers. Current chart-related tasks focus on either chart perception which refers to extracting information from the visual charts, or performing reasoning given the extracted data, e.g. in a tabular form. In this paper, we aim to establish a unified and label-efficient learning paradigm for joint perception and reasoning tasks, which can be generally applicable to different downstream tasks, beyond the question-answering task as specifically studied in peer works. Specifically, StructChart first reformulates the chart information from the popular tubular form (specifically linearized CSV) to the proposed Structured Triplet Representations (STR), which is more friendly for reducing the task gap between chart perception and reasoning due to the employed structured information extraction for charts. We then propose a Structuring Chart-oriented Representation Metric (SCRM) to quantitatively evaluate the performance for the chart perception task. To enrich the dataset for training, we further explore the possibility of leveraging the Large Language Model (LLM), enhancing the chart diversity in terms of both chart visual style and its statistical information. Extensive experiments are conducted on various chart-related tasks, demonstrating the effectiveness and promising potential for a unified chart perception-reasoning paradigm to push the frontier of chart understanding. | 翻訳日:2023-09-21 16:22:41 公開日:2023-09-20 |
# 説明可能なAIによる分類からセグメンテーションへ:き裂検出と成長モニタリングに関する研究 From Classification to Segmentation with Explainable AI: A Study on Crack Detection and Growth Monitoring ( http://arxiv.org/abs/2309.11267v1 ) ライセンス: Link先を確認 | Florent Forest, Hugo Porta, Devis Tuia, Olga Fink | (参考訳) インフラの表面ひび割れのモニタリングは、構造的健康モニタリングに不可欠である。
自動視覚検査は、特に難解な領域において、効果的な解決策を提供する。
機械学習アプローチはその効果を証明しているが、典型的には教師付きトレーニングには大きな注釈付きデータセットが必要である。
亀裂が検出されると、その重大度を監視するには、しばしば損傷の正確な区分を必要とする。
しかし、セグメンテーションのための画像のピクセルレベルのアノテーションは労働集約的です。
このコストを軽減するために、説明可能な人工知能(XAI)を利用して分類器の説明からセグメンテーションを導き、画像レベルの監督が弱いだけを必要とする。
本稿では,この手法を表面ひび割れの分断とモニタリングに応用することを提案する。
各種XAI法の性能評価を行い,本手法が重度定量化と成長モニタリングをいかに促進するかを検討する。
その結果, 得られたセグメンテーションマスクは, 教師付き手法よりも品質が低いが, 意味を保ち, 重度モニタリングが可能であり, 実質的なラベリングコストを低減できることがわかった。 Monitoring surface cracks in infrastructure is crucial for structural health monitoring. Automatic visual inspection offers an effective solution, especially in hard-to-reach areas. Machine learning approaches have proven their effectiveness but typically require large annotated datasets for supervised training. Once a crack is detected, monitoring its severity often demands precise segmentation of the damage. However, pixel-level annotation of images for segmentation is labor-intensive. To mitigate this cost, one can leverage explainable artificial intelligence (XAI) to derive segmentations from the explanations of a classifier, requiring only weak image-level supervision. This paper proposes applying this methodology to segment and monitor surface cracks. We evaluate the performance of various XAI methods and examine how this approach facilitates severity quantification and growth monitoring. Results reveal that while the resulting segmentation masks may exhibit lower quality than those produced by supervised methods, they remain meaningful and enable severity monitoring, thus reducing substantial labeling costs. | 翻訳日:2023-09-21 16:22:16 公開日:2023-09-20 |
# twintex:3次元抽象モデルのための形状認識テクスチャ生成 TwinTex: Geometry-aware Texture Generation for Abstracted 3D Architectural Models ( http://arxiv.org/abs/2309.11258v1 ) ライセンス: Link先を確認 | Weidan Xiong, Hongqian Zhang, Botao Peng, Ziyu Hu, Yongli Wu, Jianwei Guo, Hui Huang | (参考訳) 粗いアーキテクチャモデルは、個々の建物から、Digital Twin City、Metaverse、LODsなどの下流アプリケーションのためのシーンまで、スケールで生成されることが多い。
このような断片的な平面モデルは、3次元高密度再構成の双子として抽象化することができる。
しかし、これらのモデルは通常実際の建物やシーンと比較して現実的なテクスチャを欠いており、鮮明な表示や直接参照には適さない。
本稿では,スプリットワイズ平面プロキシのためのフォトリアルなテクスチャを生成する最初の自動テクスチャマッピングフレームワークであるtwintexを提案する。
本手法は,このような2つのテクスチャ生成において発生する課題に対処する。
具体的には,各原平面について,まず,測光品質,視点品質,ファサードテクスチャの完全性を考慮した,欲張りなヒューリスティックな写真群を選択する。
次に、選択した写真の集合から異なるレベルのライン特徴(LoL)を抽出し、後段のガイダンスを生成する。
LoLsでは,局所からグローバルまでのテクスチャとテクスチャを整合させる最適化アルゴリズムを採用している。
最後に,マルチマスク初期化コンポーネントと欠落領域を暗示する新しいデータセットで拡散モデルを微調整する。
多くの建物、屋内シーン、複雑な人工物体における実験結果は、アルゴリズムの一般化能力を示している。
提案手法は, 高品質なテクスチャマッピング手法を超越し, より少ない労力で, 熟練した生産水準に達する。
プロジェクトページ:https://vcc.tech/research/2023/TwinTex。 Coarse architectural models are often generated at scales ranging from individual buildings to scenes for downstream applications such as Digital Twin City, Metaverse, LODs, etc. Such piece-wise planar models can be abstracted as twins from 3D dense reconstructions. However, these models typically lack realistic texture relative to the real building or scene, making them unsuitable for vivid display or direct reference. In this paper, we present TwinTex, the first automatic texture mapping framework to generate a photo-realistic texture for a piece-wise planar proxy. Our method addresses most challenges occurring in such twin texture generation. Specifically, for each primitive plane, we first select a small set of photos with greedy heuristics considering photometric quality, perspective quality and facade texture completeness. Then, different levels of line features (LoLs) are extracted from the set of selected photos to generate guidance for later steps. With LoLs, we employ optimization algorithms to align texture with geometry from local to global. Finally, we fine-tune a diffusion model with a multi-mask initialization component and a new dataset to inpaint the missing region. Experimental results on many buildings, indoor scenes and man-made objects of varying complexity demonstrate the generalization ability of our algorithm. Our approach surpasses state-of-the-art texture mapping methods in terms of high-fidelity quality and reaches a human-expert production level with much less effort. Project page: https://vcc.tech/research/2023/TwinTex. | 翻訳日:2023-09-21 16:21:59 公開日:2023-09-20 |
# 量子グラフのグリーン関数に対する閉形式表現-散乱アプローチ Closed form expressions for the Green's function of a quantum graph -- a scattering approach ( http://arxiv.org/abs/2309.11251v1 ) ライセンス: Link先を確認 | Tristan Lawrie, Sven Gnutzmann, Gregor Tanner | (参考訳) 本研究では,一般の自己共役マッチング条件を持つ閉および開両有限量子グラフ上のグリーン関数の閉形式式を生成するための3段階の手順を提案する。
まず、Barra と Gaspard [Barra F と Gaspard P 2001, Phys のアプローチを一般化し、単純化する。
rev. e {\bf 65}, 016205] を参照し、明示的な表現の妥当性について論じる。
コンパクトグラフの場合、明示的な表現は、離散エネルギー固有値の極の合計としてスペクトル分解と同値であり、射影核を含む剰余は対応する固有状態にある。
グリーン関数の導出は、各頂点または部分グラフを散乱行列によって記述された散乱点として扱うことにより定常解を構築する散乱アプローチに基づいている。
後者は、グリーン関数が導出される単純な閉形式で与えられる。
関連する散乱行列は、連続体の有界状態が存在する波動数についてよく定義されていない逆作用素を含む。
これらの境界状態や完全傷痕に関連する散乱行列の特異点を正規化できることが示されている。
グリーンの函数や散乱行列は正則部分と特異部分の和として表現され、特異部分は射影核を完全スカー上に含む。 In this work we present a three step procedure for generating a closed form expression of the Green's function on both closed and open finite quantum graphs with general self-adjoint matching conditions. We first generalize and simplify the approach by Barra and Gaspard [Barra F and Gaspard P 2001, Phys. Rev. E {\bf 65}, 016205] and then discuss the validity of the explicit expressions. For compact graphs, we show that the explicit expression is equivalent to the spectral decomposition as a sum over poles at the discrete energy eigenvalues with residues that contain projector kernel onto the corresponding eigenstate. The derivation of the Green's function is based on the scattering approach, in which stationary solutions are constructed by treating each vertex or subgraph as a scattering site described by a scattering matrix. The latter can then be given in a simple closed form from which the Green's function is derived. The relevant scattering matrices contain inverse operators which are not well defined for wave numbers at which bound states in the continuum exists. It is shown that the singularities in the scattering matrix related to these bound states or perfect scars can be regularised. Green's functions or scattering matrices can then be expressed as a sum of a regular and a singular part where the singular part contains the projection kernel onto the perfect scar. | 翻訳日:2023-09-21 16:21:34 公開日:2023-09-20 |
# Box2Poly: 任意形状および回転テキストのメモリ効率の良いポリゴン予測 Box2Poly: Memory-Efficient Polygon Prediction of Arbitrarily Shaped and Rotated Text ( http://arxiv.org/abs/2309.11248v1 ) ライセンス: Link先を確認 | Xuyang Chen, Dong Wang, Konrad Schindler, Mingwei Sun, Yongliang Wang, Nicolo Savioli, Liqiu Meng | (参考訳) 近年,個々の境界頂点の座標を異なるクエリ特徴を用いてエンコードすることにより,多角形予測が試みられている。
しかし、このアプローチは大きなメモリオーバーヘッドを引き起こし、同一インスタンスに属する頂点間の複雑な関係を効果的に捉えるのに苦労する。
その結果、不規則なテキストレイアウトは概説された頂点の予測につながり、結果の品質が低下する。
これらの課題に対処するために,多角形予測のためのカスケードデコードパイプラインであるSparse R-CNNをルーツとする革新的なアプローチを提案する。
提案手法は,先行結果のスケールと位置を考慮し,ポリゴン予測を反復的に精錬することで精度を確保する。
この安定化回帰パイプラインを活用することで、単一の特徴ベクトルを使ってポリゴンインスタンスの回帰を導くだけでも、有望な検出結果が得られる。
同時に、インスタンスレベルの機能提案の活用により、メモリ効率が大幅に向上(最先端のDPText-DETRに比べて50%低下)し、ベンチマークの性能低下により推論速度が低下する(>40%低下)。 Recently, Transformer-based text detection techniques have sought to predict polygons by encoding the coordinates of individual boundary vertices using distinct query features. However, this approach incurs a significant memory overhead and struggles to effectively capture the intricate relationships between vertices belonging to the same instance. Consequently, irregular text layouts often lead to the prediction of outlined vertices, diminishing the quality of results. To address these challenges, we present an innovative approach rooted in Sparse R-CNN: a cascade decoding pipeline for polygon prediction. Our method ensures precision by iteratively refining polygon predictions, considering both the scale and location of preceding results. Leveraging this stabilized regression pipeline, even employing just a single feature vector to guide polygon instance regression yields promising detection results. Simultaneously, the leverage of instance-level feature proposal substantially enhances memory efficiency (>50% less vs. the state-of-the-art method DPText-DETR) and reduces inference speed (>40% less vs. DPText-DETR) with minor performance drop on benchmarks. | 翻訳日:2023-09-21 16:21:15 公開日:2023-09-20 |
# 空気圧縮機用階層型マルチエージェント強化学習 Hierarchical Multi-Agent Reinforcement Learning for Air Combat Maneuvering ( http://arxiv.org/abs/2309.11247v1 ) ライセンス: Link先を確認 | Ardian Selmonaj, Oleg Szehr, Giacomo Del Rio, Alessandro Antonucci, Adrian Schneider, Michael R\"uegsegger | (参考訳) 空対空戦闘シナリオをシミュレートする人工知能の応用が注目を集めている。
高次元の状態と行動空間の現在までに、状況情報(不完全でフィルタリングされた情報、確率性、ミッション目標に関する不完全な知識など)と非線形飛行ダイナミクスの複雑さは、正確な航空戦闘決定に重大な課題をもたらす。
これらの課題は、複数の異種剤が関与する場合にさらに悪化する。
複数の異種エージェントを用いた空対空戦闘のための階層型多エージェント強化学習フレームワークを提案する。
本枠組みでは, 意思決定過程を抽象化の2段階に分割し, 異種低レベル政策が個々の単位の動作を制御し, 高レベルの指揮官政策が全体ミッション目標に応じてマクロコマンドを発行する。
低レベルの政策は正確な戦闘制御のために訓練される。
彼らのトレーニングは、ますます複雑なトレーニングシナリオとリーグベースのセルフプレイを持つ学習カリキュラムで組織されている。
指揮官政策は、事前訓練された低レベル政策を与えられたミッション目標に基づいて訓練される。
実証的検証は、設計選択の利点を提唱します。 The application of artificial intelligence to simulate air-to-air combat scenarios is attracting increasing attention. To date the high-dimensional state and action spaces, the high complexity of situation information (such as imperfect and filtered information, stochasticity, incomplete knowledge about mission targets) and the nonlinear flight dynamics pose significant challenges for accurate air combat decision-making. These challenges are exacerbated when multiple heterogeneous agents are involved. We propose a hierarchical multi-agent reinforcement learning framework for air-to-air combat with multiple heterogeneous agents. In our framework, the decision-making process is divided into two stages of abstraction, where heterogeneous low-level policies control the action of individual units, and a high-level commander policy issues macro commands given the overall mission targets. Low-level policies are trained for accurate unit combat control. Their training is organized in a learning curriculum with increasingly complex training scenarios and league-based self-play. The commander policy is trained on mission targets given pre-trained low-level policies. The empirical validation advocates the advantages of our design choices. | 翻訳日:2023-09-21 16:20:51 公開日:2023-09-20 |
# カラーパス再考: 可換因子を用いたリフテッドモデルの構築 Colour Passing Revisited: Lifted Model Construction with Commutative Factors ( http://arxiv.org/abs/2309.11236v1 ) ライセンス: Link先を確認 | Malte Luttermann, Tanya Braun, Ralf M\"oller, Marcel Gehrke | (参考訳) lifted probabilistic inferenceは、確率モデルにおける対称性を利用して、ドメインサイズに関して扱いやすい確率的推論を可能にする。
昇降推論を適用するには、昇降表現を得る必要があり、そうするためには、いわゆるカラーパスアルゴリズムが最先端技術である。
しかし,色通過アルゴリズムは特定の推論アルゴリズムに結びついており,昇降表現を構築しながら因子の可換性を無視していることがわかった。
我々は、論理変数を用いて特定の推論アルゴリズムとは無関係に昇降表現を構築するとともに、オフライン段階における因子の可換性を利用した色通りアルゴリズムの修正版を寄贈する。
提案アルゴリズムは, 提案手法の精度が高く, 圧縮量を大幅に増加させ, 結果モデルを適用した際の確率的推論におけるオンラインクエリ時間を大幅に高速化する。 Lifted probabilistic inference exploits symmetries in a probabilistic model to allow for tractable probabilistic inference with respect to domain sizes. To apply lifted inference, a lifted representation has to be obtained, and to do so, the so-called colour passing algorithm is the state of the art. The colour passing algorithm, however, is bound to a specific inference algorithm and we found that it ignores commutativity of factors while constructing a lifted representation. We contribute a modified version of the colour passing algorithm that uses logical variables to construct a lifted representation independent of a specific inference algorithm while at the same time exploiting commutativity of factors during an offline-step. Our proposed algorithm efficiently detects more symmetries than the state of the art and thereby drastically increases compression, yielding significantly faster online query times for probabilistic inference when the resulting model is applied. | 翻訳日:2023-09-21 16:20:34 公開日:2023-09-20 |
# OpenChat: 混合品質データによるオープンソースの言語モデルの改善 OpenChat: Advancing Open-source Language Models with Mixed-Quality Data ( http://arxiv.org/abs/2309.11235v1 ) ライセンス: Link先を確認 | Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song, Yang Liu | (参考訳) 現在、LLaMAのようなオープンソースの大規模言語モデルが登場している。
近年、教師付き微調整(SFT)と強化学習微調整(RLFT)が取り入れられ、これらのモデルと人間の目標が一致している。
しかし、SFT法は、全てのトレーニングデータを均等に混合品質で扱う一方、RLFT法は高品質なペアワイドまたはランキングベースの選好データを必要とする。
本研究では,混合品質データを用いたオープンソースの言語モデルを構築するために,OpenChatという新しいフレームワークを提案する。
具体的には、限られた量の専門家データと大量の準最適データとを混合した一般的なSFTトレーニングデータを考える。
本稿では,異なるデータソースを粗粒度評価ラベルとして扱うc(onditioned)-rlftを提案し,補足的なデータ品質情報を活用するためのクラス条件付きポリシーを学習する。
興味深いことに、C-RLFTの最適ポリシーは、軽量でコストのかかる人選好ラベリングを回避するシングルステージのRLフリー教師あり学習によって容易に解決できる。
C-RLFTで微調整したopenchat-13bは,3つの標準ベンチマークの広範な実験により,13bのオープンソース言語モデルの中で最も高い平均性能を達成した。
さらに,openchat-13bのみがベースモデルを超えるモデル一般化性能を検証するためにagievalを用いた。
最後に,openchatの有効性と堅牢性に光を当てるために,一連の分析を行った。
私たちのコード、データ、モデルはhttps://github.com/imoneoi/openchat.comで公開されています。 Nowadays, open-source large language models like LLaMA have emerged. Recent developments have incorporated supervised fine-tuning (SFT) and reinforcement learning fine-tuning (RLFT) to align these models with human goals. However, SFT methods treat all training data with mixed quality equally, while RLFT methods require high-quality pairwise or ranking-based preference data. In this study, we present a novel framework, named OpenChat, to advance open-source language models with mixed-quality data. Specifically, we consider the general SFT training data, consisting of a small amount of expert data mixed with a large proportion of sub-optimal data, without any preference labels. We propose the C(onditioned)-RLFT, which regards different data sources as coarse-grained reward labels and learns a class-conditioned policy to leverage complementary data quality information. Interestingly, the optimal policy in C-RLFT can be easily solved through single-stage, RL-free supervised learning, which is lightweight and avoids costly human preference labeling. Through extensive experiments on three standard benchmarks, our openchat-13b fine-tuned with C-RLFT achieves the highest average performance among all 13b open-source language models. Moreover, we use AGIEval to validate the model generalization performance, in which only openchat-13b surpasses the base model. Finally, we conduct a series of analyses to shed light on the effectiveness and robustness of OpenChat. Our code, data, and models are publicly available at https://github.com/imoneoi/openchat. | 翻訳日:2023-09-21 16:20:19 公開日:2023-09-20 |
# chatgpt-4 スペイン語の学術書をレビューするツール ChatGPT-4 as a Tool for Reviewing Academic Books in Spanish ( http://arxiv.org/abs/2309.11231v1 ) ライセンス: Link先を確認 | Jonnathan Berrezueta-Guzman, Laura Malache-Silva and Stephan Krusche | (参考訳) 本研究は,スペイン文学・学術書の編集ツールとして,OpenAIが開発した人工知能言語モデルChatGPT-4の可能性を評価する。
出版業界において、効率的でアクセス可能なレビューと編集プロセスの必要性が、自動化されたソリューションの探索を促した。
ChatGPT-4は、最も先進的な言語モデルの一つであり、テキストの理解と生成に優れた機能を提供する。
本研究では, chatgpt-4の特徴と能力について, 文法的修正, 様式的コヒーレンス, およびスペイン語の文章の言語的豊かさの観点から分析した。
100の文学的・学術的なテキストを用いてテストを行い、ChatGPT-4による編集は、専門家の人間レビュアーや編集者による編集と比較された。
結果から,ChatGPT-4は文法的・正書法的な修正を高精度に行うことができる一方で,文脈感度,書誌分析,深い文脈理解,グラフやテーブルなどの視覚的コンテンツとの相互作用といった領域では,依然として課題に直面していることがわかった。
しかし、チャットgpt-4と人間のレビュー担当者と編集者とのコラボレーションは、品質を損なうことなく効率を改善するための有望な戦略であると考えられる。
さらに、著者らはチャットgpt-4は編集プロセスにおいて貴重なツールであると考えているが、その使用は、スペイン語の文学や学術書の高度な編集を確実にするために人間の編集者の作業と相補的であるべきである。 This study evaluates the potential of ChatGPT-4, an artificial intelligence language model developed by OpenAI, as an editing tool for Spanish literary and academic books. The need for efficient and accessible reviewing and editing processes in the publishing industry has driven the search for automated solutions. ChatGPT-4, being one of the most advanced language models, offers notable capabilities in text comprehension and generation. In this study, the features and capabilities of ChatGPT-4 are analyzed in terms of grammatical correction, stylistic coherence, and linguistic enrichment of texts in Spanish. Tests were conducted with 100 literary and academic texts, where the edits made by ChatGPT-4 were compared to those made by expert human reviewers and editors. The results show that while ChatGPT-4 is capable of making grammatical and orthographic corrections with high accuracy and in a very short time, it still faces challenges in areas such as context sensitivity, bibliometric analysis, deep contextual understanding, and interaction with visual content like graphs and tables. However, it is observed that collaboration between ChatGPT-4 and human reviewers and editors can be a promising strategy for improving efficiency without compromising quality. Furthermore, the authors consider that ChatGPT-4 represents a valuable tool in the editing process, but its use should be complementary to the work of human editors to ensure high-caliber editing in Spanish literary and academic books. | 翻訳日:2023-09-21 16:19:50 公開日:2023-09-20 |
# クラウドセマンティクスセグメンテーションのロバスト化に向けて Towards Robust Few-shot Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2309.11228v1 ) ライセンス: Link先を確認 | Yating Xu, Na Zhao, Gim Hee Lee | (参考訳) 数少ないポイントクラウドセマンティクスセグメンテーションは、少数のサポートセットサンプルしか持たない新しいunseenクラスに迅速に適応するようにモデルをトレーニングすることを目的としている。
しかし,多くの現実的な環境において,サポートセットのノイズフリーな仮定は容易に破ることができる。
本稿では,テスト時間におけるノイズ支援セットの有害な影響を受けながら,少数点クラウドセグメンテーションの堅牢性向上に焦点をあてる。
そこで我々はまず,対象クラスのクリーンなサンプルをノイズのあるサンプルから分離する識別的特徴表現を学習するために,CCNS(Component-level Clean Noise separation)表現学習を提案する。
我々は,ccnsから分離したクリーンおよびノイズサポートサンプルを活用して,マルチスケールのレベルベースノイズ抑圧(mdns)方式を提案し,そのサポートセットからノイズショットを除去する。
2つのベンチマークデータセット上で、様々なノイズ設定に関する広範な実験を行う。
その結果,CCNSとMDNSの組み合わせは性能を著しく向上させることがわかった。
私たちのコードはhttps://github.com/pixie8888/r3dfsegで入手できる。 Few-shot point cloud semantic segmentation aims to train a model to quickly adapt to new unseen classes with only a handful of support set samples. However, the noise-free assumption in the support set can be easily violated in many practical real-world settings. In this paper, we focus on improving the robustness of few-shot point cloud segmentation under the detrimental influence of noisy support sets during testing time. To this end, we first propose a Component-level Clean Noise Separation (CCNS) representation learning to learn discriminative feature representations that separates the clean samples of the target classes from the noisy samples. Leveraging the well separated clean and noisy support samples from our CCNS, we further propose a Multi-scale Degree-based Noise Suppression (MDNS) scheme to remove the noisy shots from the support set. We conduct extensive experiments on various noise settings on two benchmark datasets. Our results show that the combination of CCNS and MDNS significantly improves the performance. Our code is available at https://github.com/Pixie8888/R3DFSSeg. | 翻訳日:2023-09-21 16:19:23 公開日:2023-09-20 |
# クラウドコンピューティングにおける最適資源供給のためのコスト認識機構 A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud Computing ( http://arxiv.org/abs/2309.11299v1 ) ライセンス: Link先を確認 | Safiye Ghasemi, Mohammad Reza Meybodi, Mehdi Dehghan Takht Fooladi, and Amir Masoud Rahmani | (参考訳) 近年,クラウドコンピューティングにおける計算資源の普及により,新たな資源供給課題が出現している。
リソースプロビジョニング技術は、要求の要件を満たしながら、総コストを最小に保たなければならない。
クラウドサービスの利用が広範に行われていることから,サービス提供の効果的なスキームの開発は,費用削減の保証を実現するための新たな学習ベースのリソース提供手法を提案する。
最適化リソースプロビジョニング(ORP)アプローチの貢献は以下の通りである。
まず、要求されたアプリケーションのプロビジョニングを効率的に処理するためのコスト効率のよい方法を提供するように設計されている。既存のモデルのほとんどは、タスクの依存関係を気にするワークフローのみを許可しているが、ORPは、どのアプリケーションを構成するサービスに基づいて実行し、その効率的なプロビジョニングを完全に気にしている。
第2に、要求されたアプリケーションの各サービスをホストするための最も適切なリソースを選択する学習オートマトンベースのアプローチです。
第3に、データ集約、プロセス集約、および通常の3つの典型的なワークロードに対して包括的な評価が行われる。
実験結果から,本手法は要件の大部分を効率的に適用し,その結果,設計目標を達成できた。 Due to the recent wide use of computational resources in cloud computing, new resource provisioning challenges have been emerged. Resource provisioning techniques must keep total costs to a minimum while meeting the requirements of the requests. According to widely usage of cloud services, it seems more challenging to develop effective schemes for provisioning services cost-effectively; we have proposed a novel learning based resource provisioning approach that achieves cost-reduction guarantees of demands. The contributions of our optimized resource provisioning (ORP) approach are as follows. Firstly, it is designed to provide a cost-effective method to efficiently handle the provisioning of requested applications; while most of the existing models allow only workflows in general which cares about the dependencies of the tasks, ORP performs based on services of which applications comprised and cares about their efficient provisioning totally. Secondly, it is a learning automata-based approach which selects the most proper resources for hosting each service of the demanded application; our approach considers both cost and service requirements together for deploying applications. Thirdly, a comprehensive evaluation is performed for three typical workloads: data-intensive, process-intensive and normal applications. The experimental results show that our method adapts most of the requirements efficiently, and furthermore the resulting performance meets our design goals. | 翻訳日:2023-09-21 16:14:29 公開日:2023-09-20 |
# 精度を超えて:構造的および文脈的情報を保存する埋め込みの表現能力を測定する Beyond Accuracy: Measuring Representation Capacity of Embeddings to Preserve Structural and Contextual Information ( http://arxiv.org/abs/2309.11294v1 ) ライセンス: Link先を確認 | Sarwan Ali | (参考訳) データの構造とコンテキストをキャプチャするので、データの効果的な表現はさまざまな機械学習タスクにおいて不可欠である。
埋め込みはデータ表現の強力なテクニックとして登場したが、構造的および文脈的な情報を保存するための品質と能力の評価は依然として課題である。
本稿では、埋め込みの \textit{representation capacity} を測定する方法を提案することで、このニーズに対処する。
この研究の背後にあるモチベーションは、埋め込みの強さと限界を理解することの重要性から来ており、研究者や実践者が特定のアプリケーションに適切な埋め込みモデルを選択する際に、情報的な決定をすることができる。
分類やクラスタリングなどの外在的評価手法と、近隣の合意や信頼性といったt-SNEに基づく地域分析を組み合わせることで、表現能力の包括的評価を行う。
さらに、重み最適化(分類、クラスタリング、近隣合意、信頼性)のための最適化手法(ベイジアン最適化)を使用することで、メトリクスの最適組み合わせを選択するための客観的かつデータ駆動的なアプローチが保証される。
提案手法は, 埋込評価の分野の進展に寄与するだけでなく, 研究者や実践者に対して, 埋込方法の有効性を定量的に評価する上で有効である。
評価のために、実世界の生物配列(タンパク質とヌクレオチド)データセットを使用し、Spike2Vec、Spaced $k$-mers、PWM2Vec、AutoEncoderといった文献からの4ドル埋め込みメソッドの表現能力解析を行った。 Effective representation of data is crucial in various machine learning tasks, as it captures the underlying structure and context of the data. Embeddings have emerged as a powerful technique for data representation, but evaluating their quality and capacity to preserve structural and contextual information remains a challenge. In this paper, we address this need by proposing a method to measure the \textit{representation capacity} of embeddings. The motivation behind this work stems from the importance of understanding the strengths and limitations of embeddings, enabling researchers and practitioners to make informed decisions in selecting appropriate embedding models for their specific applications. By combining extrinsic evaluation methods, such as classification and clustering, with t-SNE-based neighborhood analysis, such as neighborhood agreement and trustworthiness, we provide a comprehensive assessment of the representation capacity. Additionally, the use of optimization techniques (bayesian optimization) for weight optimization (for classification, clustering, neighborhood agreement, and trustworthiness) ensures an objective and data-driven approach in selecting the optimal combination of metrics. The proposed method not only contributes to advancing the field of embedding evaluation but also empowers researchers and practitioners with a quantitative measure to assess the effectiveness of embeddings in capturing structural and contextual information. For the evaluation, we use $3$ real-world biological sequence (proteins and nucleotide) datasets and performed representation capacity analysis of $4$ embedding methods from the literature, namely Spike2Vec, Spaced $k$-mers, PWM2Vec, and AutoEncoder. | 翻訳日:2023-09-21 16:14:07 公開日:2023-09-20 |
# クロス共振駆動による3ビットパリティゲート Three-qubit Parity Gate via Simultaneous Cross Resonance Drives ( http://arxiv.org/abs/2309.11287v1 ) ライセンス: Link先を確認 | Toshinari Itoko, Moein Malekakhlagh, Naoki Kanazawa, and Maika Takita | (参考訳) ネイティブマルチキュービットパリティゲートは、量子誤り訂正における絡み合い生成、論理状態符号化、パリティ測定など、様々な潜在的な量子コンピューティング応用を持つ。
ここでは、共通目標を持つ2つの制御量子ビット上の同時共振駆動を用いて、3量子パリティゲートの効率的な実装を示す。
我々は,エコー型相互共振ゲートを用いたキャリブレーション手法を開発した。
我々は2つの連続CNOTゲートを持つ単純実装よりも、同時駆動を使用することで、インターリーブされたランダム化ベンチマーク忠実度が高くなることを確認した。
また,我々の同時パリティゲートは,全マイクロウェーブ制御を持つ7つの超伝導量子ビットを用いて,ibm量子プロセッサ上のヘキサゴンコードのパリティ測定誤差を著しく改善できることを実証した。 Native multi-qubit parity gates have various potential quantum computing applications, such as entanglement creation, logical state encoding and parity measurement in quantum error correction. Here, using simultaneous cross-resonance drives on two control qubits with a common target, we demonstrate an efficient implementation of a three-qubit parity gate. We have developed a calibration procedure based on the one for the echoed cross-resonance gate. We confirm that our use of simultaneous drives leads to higher interleaved randomized benchmarking fidelities than a naive implementation with two consecutive CNOT gates. We also demonstrate that our simultaneous parity gates can significantly improve the parity measurement error probability for the heavy-hexagon code on an IBM Quantum processor using seven superconducting qubits with all-microwave control. | 翻訳日:2023-09-21 16:13:38 公開日:2023-09-20 |
# センサモデリングの再考:階層情報による交通予測 Rethinking Sensors Modeling: Hierarchical Information Enhanced Traffic Forecasting ( http://arxiv.org/abs/2309.11284v1 ) ライセンス: Link先を確認 | Qian Ma, Zijian Zhang, Xiangyu Zhao, Haoliang Li, Hongwei Zhao, Yiqi Wang, Zitao Liu, and Wanyu Wang | (参考訳) 都市化の加速に伴い、交通予測はスマートシティ建設において重要な役割を担っている。
時空間予測の文脈で重要なのは、センサーの依存関係をモデル化する方法にある。
しかし、既存の研究は基本的にセンサー間の微小な関係のみを考慮し、センサーは等しく扱われ、そのマクロな依存関係は無視される。
本稿では,センサの依存性モデリングを,地域的視点とグローバル的視点という2つの階層から再考する。
特に,領域間依存性を維持するために,領域内相関の高いオリジナルセンサを領域ノードとして統合する。
次に,センサ間のグローバル依存を反映したグローバルノードとして代表的および共通的な時空間パターンを生成し,時空間依存学習のための補助情報を提供する。
ノード表現の一般性と現実性を追求するため,我々はMeta GCNを導入し,物理データ空間における局所ノードとグローバルノードを校正する。
さらに,階層間グラフ畳み込みを考案し,階層間の情報伝達を行う。
そこで本研究では,階層的情報強化時空間予測手法hiestを提案し,地域依存と共通時空間パターンの作成と活用を行う。
大規模な実験により、最先端のベースラインに対するHIESTのリードパフォーマンスが検証された。
再現性を容易にするためにコードを公開します。 With the acceleration of urbanization, traffic forecasting has become an essential role in smart city construction. In the context of spatio-temporal prediction, the key lies in how to model the dependencies of sensors. However, existing works basically only consider the micro relationships between sensors, where the sensors are treated equally, and their macroscopic dependencies are neglected. In this paper, we argue to rethink the sensor's dependency modeling from two hierarchies: regional and global perspectives. Particularly, we merge original sensors with high intra-region correlation as a region node to preserve the inter-region dependency. Then, we generate representative and common spatio-temporal patterns as global nodes to reflect a global dependency between sensors and provide auxiliary information for spatio-temporal dependency learning. In pursuit of the generality and reality of node representations, we incorporate a Meta GCN to calibrate the regional and global nodes in the physical data space. Furthermore, we devise the cross-hierarchy graph convolution to propagate information from different hierarchies. In a nutshell, we propose a Hierarchical Information Enhanced Spatio-Temporal prediction method, HIEST, to create and utilize the regional dependency and common spatio-temporal patterns. Extensive experiments have verified the leading performance of our HIEST against state-of-the-art baselines. We publicize the code to ease reproducibility. | 翻訳日:2023-09-21 16:13:27 公開日:2023-09-20 |
# the wizard of curiosities: 楽しい事実で対話を豊かにする The Wizard of Curiosities: Enriching Dialogues with Fun Facts ( http://arxiv.org/abs/2309.11283v1 ) ライセンス: Link先を確認 | Frederico Vicente, Rafael Ferreira, David Semedo and Jo\~ao Magalh\~aes | (参考訳) 会話で好奇心を導入することは、楽しく楽しい方法で人に何か新しいものを教える方法である。
文脈化された好奇心との対話を充実させることで,対話システムに対するユーザの認識とユーザエクスペリエンス全体を改善することができる。
本稿では,料理分野とDIY分野の対話を対象とするキュリオシティの集合を紹介する。
特に、Amazon Alexa TaskBotチャレンジ(マルチモーダルおよびマルチターン会話設定)のコンテキストで収集された実際のヒューマンエージェント会話を使用します。
1000以上の会話を持つA/Bテストによると、好奇心はユーザーのエンゲージメントを増加させるだけでなく、平均的な相対評価が9.7%向上する。 Introducing curiosities in a conversation is a way to teach something new to the person in a pleasant and enjoyable way. Enriching dialogues with contextualized curiosities can improve the users' perception of a dialog system and their overall user experience. In this paper, we introduce a set of curated curiosities, targeting dialogues in the cooking and DIY domains. In particular, we use real human-agent conversations collected in the context of the Amazon Alexa TaskBot challenge, a multimodal and multi-turn conversational setting. According to an A/B test with over 1000 conversations, curiosities not only increase user engagement, but provide an average relative rating improvement of 9.7%. | 翻訳日:2023-09-21 16:13:08 公開日:2023-09-20 |
# Pose-Conditioned Dataset Updates を用いた言語駆動型物体融合 Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset Updates ( http://arxiv.org/abs/2309.11281v1 ) ライセンス: Link先を確認 | Ka Chun Shum, Jaeyeon Kim, Binh-Son Hua, Duc Thanh Nguyen, Sai-Kit Yeung | (参考訳) neural radiance fieldは、ニューラルネットワークのシーン表現とボリュームレンダリングから高品質なマルチビュー一貫性画像を生成する、新たなレンダリング手法である。
ニューラル・ラジアンス・フィールドに基づく手法はシーンの再構成に頑健であるが、オブジェクトの追加や削除は限られている。
本稿では,ニューラル・ラミアンス・フィールドを用いたオブジェクト操作のための新しい言語駆動アプローチを提案する。
具体的には、背景放射場に複数ビュー画像の集合で表される新しい前景オブジェクトを挿入するために、テキスト・ツー・イメージ拡散モデルを用いて、対象物を対象の背景に融合させた画像の学習と生成を行う。
これらの合成画像は背景輝度フィールドを洗練するために使用され、オブジェクトと背景の両方を含むビュー一貫性のある画像をレンダリングできます。
映像の一貫性を確保するため,我々は,すでにトレーニング済みのビューに近いカメラビューでのラミアンスフィールドトレーニングを優先し,残りのビューにトレーニングを伝播させるデータセット更新戦略を提案する。
我々は,同じデータセット更新戦略の下で,テキストから3Dモデルへのデータとオブジェクト除去を用いて,オブジェクト挿入のためのメソッドを簡単に適用できることを実証した。
実験結果から,本手法は編集シーンの写実的画像を生成するとともに,3次元再構成や神経放射場ブレンディングにおいて最先端の手法より優れていた。 Neural radiance field is an emerging rendering method that generates high-quality multi-view consistent images from a neural scene representation and volume rendering. Although neural radiance field-based techniques are robust for scene reconstruction, their ability to add or remove objects remains limited. This paper proposes a new language-driven approach for object manipulation with neural radiance fields through dataset updates. Specifically, to insert a new foreground object represented by a set of multi-view images into a background radiance field, we use a text-to-image diffusion model to learn and generate combined images that fuse the object of interest into the given background across views. These combined images are then used for refining the background radiance field so that we can render view-consistent images containing both the object and the background. To ensure view consistency, we propose a dataset updates strategy that prioritizes radiance field training with camera views close to the already-trained views prior to propagating the training to remaining views. We show that under the same dataset updates strategy, we can easily adapt our method for object insertion using data from text-to-3D models as well as object removal. Experimental results show that our method generates photorealistic images of the edited scenes, and outperforms state-of-the-art methods in 3D reconstruction and neural radiance field blending. | 翻訳日:2023-09-21 16:12:55 公開日:2023-09-20 |
# 対称関数のきめ細かい問合せ複雑性について On the Fine-Grained Query Complexity of Symmetric Functions ( http://arxiv.org/abs/2309.11279v1 ) ライセンス: Link先を確認 | Supartha Podder, Penghui Yao and Zekun Ye | (参考訳) 本稿では、確率が任意に1/2$に近いランダム化および量子化アルゴリズムを含む、Watrous予想のきめ細かいバージョンを探索する。
私たちの貢献には以下のものがある。
i) 固定されたクエリ数が与えられた2つの基本部分対称ブール関数の量子およびランダム化クエリアルゴリズムの最適成功確率の解析。
我々は、これらの2つの関数を$t$クエリで計算する量子アルゴリズムに対して、成功確率が1/2に近い場合であっても、量子アルゴリズムと同じ成功確率を達成する$\mathsf{poly}(t)$クエリを用いたランダム化アルゴリズムが存在することを証明する。
i)任意の全対称ブール関数$f$に対して、量子アルゴリズムが成功確率1/2+\beta$を計算するために$T$クエリを使用していれば、成功確率1/2+\Omega(\delta\beta^2)$を計算するために$O(T^2)$クエリを使用してランダム化されたアルゴリズムが存在し、$\beta,\delta$を任意に小さな正の値にすることができる。
コーナリーとして、アルゴリズムの成功確率が 1/2 に任意に近づく状態において、全対称ブール関数に対するアーロンソン・アンバイニス導出のランダム化版を証明する。
iii) 部分対称ブール関数のいくつかの基本複雑性測度に対する多項式同値性を示す。
具体的には、ある部分対称ブール関数に対して、量子的クエリの複雑性は1/2に近い任意の誤差に対して最も2次的に証明する。
次に、量子クエリの複雑性が少なくとも2次であることを示す。
さらに、いくつかの複雑性測度の厳密な境界を与え、それらの多項式同値性を示す。 This paper explores a fine-grained version of the Watrous conjecture, including the randomized and quantum algorithms with success probabilities arbitrarily close to $1/2$. Our contributions include the following: i) An analysis of the optimal success probability of quantum and randomized query algorithms of two fundamental partial symmetric Boolean functions given a fixed number of queries. We prove that for any quantum algorithm computing these two functions using $T$ queries, there exist randomized algorithms using $\mathsf{poly}(T)$ queries that achieve the same success probability as the quantum algorithm, even if the success probability is arbitrarily close to 1/2. ii) We establish that for any total symmetric Boolean function $f$, if a quantum algorithm uses $T$ queries to compute $f$ with success probability $1/2+\beta$, then there exists a randomized algorithm using $O(T^2)$ queries to compute $f$ with success probability $1/2+\Omega(\delta\beta^2)$ on a $1-\delta$ fraction of inputs, where $\beta,\delta$ can be arbitrarily small positive values. As a corollary, we prove a randomized version of Aaronson-Ambainis Conjecture for total symmetric Boolean functions in the regime where the success probability of algorithms can be arbitrarily close to 1/2. iii) We present polynomial equivalences for several fundamental complexity measures of partial symmetric Boolean functions. Specifically, we first prove that for certain partial symmetric Boolean functions, quantum query complexity is at most quadratic in approximate degree for any error arbitrarily close to 1/2. Next, we show exact quantum query complexity is at most quadratic in degree. Additionally, we give the tight bounds of several complexity measures, indicating their polynomial equivalence. | 翻訳日:2023-09-21 16:12:14 公開日:2023-09-20 |
# 校正情報を用いたクロスプラットフォーム用リアルタイムニューラルビデオコーデックの開発 Towards Real-Time Neural Video Codec for Cross-Platform Application Using Calibration Information ( http://arxiv.org/abs/2309.11276v1 ) ライセンス: Link先を確認 | Kuan Tian, Yonghang Guan, Jinxi Xiang, Jun Zhang, Xiao Han, Wei Yang | (参考訳) 最先端のニューラルビデオコーデックは、特定のケースでrdパフォーマンスの点で、最も洗練された従来のコーデックを上回っている。
しかし,2つの大きな理由から,実用的利用は依然として困難である。
1)浮動小数点演算によるクロスプラットフォーム計算誤差は,ビットストリームの不正確な復号につながる可能性がある。
2) 符号化・復号プロセスの高い計算複雑性は, 実時間性能を達成する上で課題となる。
本稿では,720pビデオビットストリームを他のエンコーディングプラットフォームからコンシューマ級gpu上で効率的にデコードできる,リアルタイムのクロスプラットフォームニューラルビデオコーデックを提案する。
まず,プラットフォーム間の浮動小数点計算の不確実性に起因するコーデックの不整合性を解決するために,符号化と復号の段階間のエントロピーパラメータの一貫した量子化を保証するキャリブレーション伝達系を設計する。
エンコーディングとデコードの間にトランスバウンダリー量子化を持つ可能性のあるパラメータは、エンコーディングステージで識別され、それらの座標は補助送信ビットストリームによって配信される。
これにより、これらの不整合パラメータを復号段階で適切に処理することができる。
さらに,補助ビットストリームのビットレートを低減するために,ガウス制約を用いてエントロピーパラメータの分布を補正する。
第二に、リアルタイムビデオコーデックのデコード側の計算制限に合わせるために、軽量なモデルの設計を行う。
一連の効率向上技術により、nvidia rtx 2080 gpu上で25fpsのデコード速度を達成することができる。
実験により、720p映像のリアルタイム復号化を他のプラットフォーム上で実現できることが実証された。
さらに、リアルタイムモデルは、アンカーH.265によるPSNRの観点から、最大24.2\%のBDレートの改善をもたらす。 The state-of-the-art neural video codecs have outperformed the most sophisticated traditional codecs in terms of RD performance in certain cases. However, utilizing them for practical applications is still challenging for two major reasons. 1) Cross-platform computational errors resulting from floating point operations can lead to inaccurate decoding of the bitstream. 2) The high computational complexity of the encoding and decoding process poses a challenge in achieving real-time performance. In this paper, we propose a real-time cross-platform neural video codec, which is capable of efficiently decoding of 720P video bitstream from other encoding platforms on a consumer-grade GPU. First, to solve the problem of inconsistency of codec caused by the uncertainty of floating point calculations across platforms, we design a calibration transmitting system to guarantee the consistent quantization of entropy parameters between the encoding and decoding stages. The parameters that may have transboundary quantization between encoding and decoding are identified in the encoding stage, and their coordinates will be delivered by auxiliary transmitted bitstream. By doing so, these inconsistent parameters can be processed properly in the decoding stage. Furthermore, to reduce the bitrate of the auxiliary bitstream, we rectify the distribution of entropy parameters using a piecewise Gaussian constraint. Second, to match the computational limitations on the decoding side for real-time video codec, we design a lightweight model. A series of efficiency techniques enable our model to achieve 25 FPS decoding speed on NVIDIA RTX 2080 GPU. Experimental results demonstrate that our model can achieve real-time decoding of 720P videos while encoding on another platform. Furthermore, the real-time model brings up to a maximum of 24.2\% BD-rate improvement from the perspective of PSNR with the anchor H.265. | 翻訳日:2023-09-21 16:11:28 公開日:2023-09-20 |
# モジュラーロボットを用いた捕食者・捕食者シナリオによる開放性 Open-endedness induced through a predator-prey scenario using modular robots ( http://arxiv.org/abs/2309.11275v1 ) ライセンス: Link先を確認 | Dimitri Kachler and Karine Miras | (参考訳) 本研究は,捕食者-捕食者シナリオが,開放型進化(oee)の出現をいかに引き起こすかを検討する。
制御器が進化する固定モルフォロジーのモジュラーロボットを利用する。
どちらの種でも、ロボットは信号を送受信し、環境内の他のロボットの相対的な位置を認識することができる。
具体的には、タグ付けシステムと呼ばれる機能を導入し、個人がお互いを知覚する方法を変更し、行動の複雑さを増大させることを期待する。
以上の結果から,モジュール型ロボットを用いた捕食・捕食のダイナミックスによるOEE導入の可能性を示す。
しかし、そのような出現は、明示的な行動規範への条件付けの再現に依存するように見えた。 This work investigates how a predator-prey scenario can induce the emergence of Open-Ended Evolution (OEE). We utilize modular robots of fixed morphologies whose controllers are subject to evolution. In both species, robots can send and receive signals and perceive the relative positions of other robots in the environment. Specifically, we introduce a feature we call a tagging system: it modifies how individuals can perceive each other and is expected to increase behavioral complexity. Our results show the emergence of adaptive strategies, demonstrating the viability of inducing OEE through predator-prey dynamics using modular robots. Such emergence, nevertheless, seemed to depend on conditioning reproduction to an explicit behavioral criterion. | 翻訳日:2023-09-21 16:10:53 公開日:2023-09-20 |
# フォールトインジェクションテストフレームワークを用いた機械学習データ適合性とパフォーマンステスト Machine Learning Data Suitability and Performance Testing Using Fault Injection Testing Framework ( http://arxiv.org/abs/2309.11274v1 ) ライセンス: Link先を確認 | Manal Rahal and Bestoun S. Ahmed and Jorgen Samuelsson | (参考訳) ユーザ信頼性をシームレスに獲得する実運用対応のMLシステムを保証するためには,レジリエント機械学習(ML)システムの構築が必要である。
入力データの品質とモデルが、データに敏感なシステムのエンドツーエンドテストの成功に大きく影響する。
しかし、入力データのテストアプローチは体系的ではなく、モデルテストと比較しても少ない。
本稿では,複数のデータ障害に対するmlモデルのレジリエンスをテストする入力データ(fiul-data)テストフレームワークにおける,望ましくない学習のためのフォールトインジェクションを提案する。
データミュータレータは、異なるフォールトインジェクションの影響に対するmlシステムの脆弱性を探索する。
提案されたフレームワークは、3つの主要なアイデアに基づいて設計されている: ミュータはランダムではない; 1つのデータミュータレータがインスタンスで適用され、選択されたmlモデルが事前に最適化されている。
本稿では,アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて,fiul-dataフレームワークを評価する。
データ変異に対する選択されたMLモデルの応答を個別に分析し、比較する2段階のプロセスで経験的評価を行う。
その結果,fiul-dataフレームワークにより,mlモデルのレジリエンス評価が可能となった。
ほとんどの実験では、mlモデルがより大きなトレーニングデータセットにおいて高いレジリエンスを示しており、より小さなトレーニングセットでベクタ回帰をサポートするよりも勾配ブーストが優れている。
全体として、平均二乗誤差計量は、データ変異に対する高い感度のためにモデルのレジリエンスを評価するのに有用である。 Creating resilient machine learning (ML) systems has become necessary to ensure production-ready ML systems that acquire user confidence seamlessly. The quality of the input data and the model highly influence the successful end-to-end testing in data-sensitive systems. However, the testing approaches of input data are not as systematic and are few compared to model testing. To address this gap, this paper presents the Fault Injection for Undesirable Learning in input Data (FIUL-Data) testing framework that tests the resilience of ML models to multiple intentionally-triggered data faults. Data mutators explore vulnerabilities of ML systems against the effects of different fault injections. The proposed framework is designed based on three main ideas: The mutators are not random; one data mutator is applied at an instance of time, and the selected ML models are optimized beforehand. This paper evaluates the FIUL-Data framework using data from analytical chemistry, comprising retention time measurements of anti-sense oligonucleotide. Empirical evaluation is carried out in a two-step process in which the responses of selected ML models to data mutation are analyzed individually and then compared with each other. The results show that the FIUL-Data framework allows the evaluation of the resilience of ML models. In most experiments cases, ML models show higher resilience at larger training datasets, where gradient boost performed better than support vector regression in smaller training sets. Overall, the mean squared error metric is useful in evaluating the resilience of models due to its higher sensitivity to data mutation. | 翻訳日:2023-09-21 16:10:28 公開日:2023-09-20 |
# DISC-LawLLM: 知的法律サービスのための微調整大型言語モデル DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services ( http://arxiv.org/abs/2309.11325v1 ) ライセンス: Link先を確認 | Shengbin Yue, Wei Chen, Siyuan Wang, Bingxuan Li, Chenchen Shen, Shujun Liu, Yuxuan Zhou, Yao Xiao, Song Yun, Wei Lin, Xuanjing Huang, Zhongyu Wei | (参考訳) 本稿では,大規模言語モデル(llms)を活用したインテリジェントな法的システムである disc-lawllm を提案する。
我々は,中国の司法ドメインにおいて教師付き微調整データセットと法的推論能力を備えた微調整llmを構築するための戦略を推し進める法的シロジズムを採用する。
LLMを検索モジュールで拡張し、外部の法的知識にアクセスし活用するモデルの能力を高める。
DISC-Law-Eval(英語版)は、客観的および主観的両方の次元からインテリジェントな法体系を評価するために提示される。
DISC-Law-Evalの定量的および定性的な結果から,多様な法的シナリオにまたがる多様なユーザに対して,システムの有効性が示された。
詳細はhttps://github.com/FudanDISC/DISC-LawLLM.comで確認できる。 We propose DISC-LawLLM, an intelligent legal system utilizing large language models (LLMs) to provide a wide range of legal services. We adopt legal syllogism prompting strategies to construct supervised fine-tuning datasets in the Chinese Judicial domain and fine-tune LLMs with legal reasoning capability. We augment LLMs with a retrieval module to enhance models' ability to access and utilize external legal knowledge. A comprehensive legal benchmark, DISC-Law-Eval, is presented to evaluate intelligent legal systems from both objective and subjective dimensions. Quantitative and qualitative results on DISC-Law-Eval demonstrate the effectiveness of our system in serving various users across diverse legal scenarios. The detailed resources are available at https://github.com/FudanDISC/DISC-LawLLM. | 翻訳日:2023-09-21 16:01:50 公開日:2023-09-20 |
# 拡散型編集による顔の老化 Face Aging via Diffusion-based Editing ( http://arxiv.org/abs/2309.11321v1 ) ライセンス: Link先を確認 | Xiangyi Chen and St\'ephane Lathuili\`ere | (参考訳) 本稿では,顔に年齢に伴う変化を組み込んだ顔画像の過去・将来の生成という,顔の老化の問題に対処する。
従来の老化法は人間の顔画像データセットにのみ依存しており、それ故にその固有のスケールとバイアスに制約されている。
これにより、彼らの応用範囲は限定的な年齢範囲に制限され、大きな年齢格差を処理できない。
FAdingは,Diffusion-based editiNGによる顔の老化に対処するための新しいアプローチである。
我々は、大規模言語画像拡散モデルのリッチな事前利用により、既存の手法を超越する。
まず,年齢を考慮した微調整手法を用いて,顔年齢編集作業のための事前学習拡散モデルを提案する。
次に、入力画像を潜在ノイズに反転させ、最適化されたヌルテキスト埋め込みを得る。
最後に,注意制御によるテキストガイド付き地域年齢編集を行う。
定量的および定性的な分析により,本手法は既存手法よりも老化精度,属性保存,老化品質に優れることを示した。 In this paper, we address the problem of face aging: generating past or future facial images by incorporating age-related changes to the given face. Previous aging methods rely solely on human facial image datasets and are thus constrained by their inherent scale and bias. This restricts their application to a limited generatable age range and the inability to handle large age gaps. We propose FADING, a novel approach to address Face Aging via DIffusion-based editiNG. We go beyond existing methods by leveraging the rich prior of large-scale language-image diffusion models. First, we specialize a pre-trained diffusion model for the task of face age editing by using an age-aware fine-tuning scheme. Next, we invert the input image to latent noise and obtain optimized null text embeddings. Finally, we perform text-guided local age editing via attention control. The quantitative and qualitative analyses demonstrate that our method outperforms existing approaches with respect to aging accuracy, attribute preservation, and aging quality. | 翻訳日:2023-09-21 16:01:37 公開日:2023-09-20 |
# wftnet:長期時系列予測におけるグローバルおよびローカル周期性の利用 WFTNet: Exploiting Global and Local Periodicity in Long-term Time Series Forecasting ( http://arxiv.org/abs/2309.11319v1 ) ライセンス: Link先を確認 | Peiyuan Liu, Beiliang Wu, Naiqi Li, Tao Dai, Fengmao Lei, Jigang Bao, Yong Jiang, Shu-Tao Xia | (参考訳) 最近のcnnとトランスフォーマのモデルでは、時系列予測に周波数と周期情報を活用しようと試みている。
しかし、既存のほとんどの仕事はフーリエ変換に基づいているため、細粒度および局所周波数構造を捉えることはできない。
本稿では,長期連続予測のためのウェーブレット・フーリエ変換ネットワーク(WFTNet)を提案する。
WFTNetは、フーリエ変換とウェーブレット変換の両方を用いて信号から包括的な時間周波数情報を抽出する。
さらに,グローバルおよび局所周波数パターンの重要性を適応的にバランスさせるために,周期性重み付き係数(PWC)を導入する。
様々な時系列データセットの大規模な実験により、WFTNetは他の最先端のベースラインを一貫して上回っていることが示されている。 Recent CNN and Transformer-based models tried to utilize frequency and periodicity information for long-term time series forecasting. However, most existing work is based on Fourier transform, which cannot capture fine-grained and local frequency structure. In this paper, we propose a Wavelet-Fourier Transform Network (WFTNet) for long-term time series forecasting. WFTNet utilizes both Fourier and wavelet transforms to extract comprehensive temporal-frequency information from the signal, where Fourier transform captures the global periodic patterns and wavelet transform captures the local ones. Furthermore, we introduce a Periodicity-Weighted Coefficient (PWC) to adaptively balance the importance of global and local frequency patterns. Extensive experiments on various time series datasets show that WFTNet consistently outperforms other state-of-the-art baseline. | 翻訳日:2023-09-21 16:01:22 公開日:2023-09-20 |
# モデル初期化が深部モデル一般化に及ぼす影響を明らかにする:成人および小児の胸部X線像を用いた検討 Uncovering the effects of model initialization on deep model generalization: A study with adult and pediatric Chest X-ray images ( http://arxiv.org/abs/2309.11318v1 ) ライセンス: Link先を確認 | Sivaramakrishnan Rajaraman, Ghada Zamzmi, Feng Yang, Zhaohui Liang, Zhiyun Xue, and Sameer Antani | (参考訳) 医用コンピュータビジョンアプリケーションにおけるディープラーニングモデルの性能と信頼性向上には,モデル初期化技術が不可欠である。
非医療画像には多くの文献が存在するが、医療画像、特に胸部X線(CXR)への影響は理解されていない。
このギャップに対処するために,本研究では,成人および小児の集団に焦点を当てた,コールドスタート,ウォームスタート,縮小および摂動スタートの3つの深層モデル初期化手法を検討した。
具体的には,トレーニング用データの定期的に到着するシナリオに注目し,進行中のデータ流入とモデル更新の必要性の現実的なシナリオを受け入れる。
これらのモデルを用いて,外部の成人および小児のcxrデータセットに対する汎用性を評価する。
F-score-weighted Sequential Least-Squares Quadratic Programming (F-SLSQP) と Attention-Guided Ensembles with Learnable Fuzzy Softmax は、複数のモデルから重みパラメータを集約し、それらの集合的知識と相補的表現を活用する。
95%信頼区間とp値を用いて統計的有意性テストを行い,モデルの性能を解析した。
評価の結果,imagenet-pre-trained weightsで初期化したモデルがランダムに初期化されたモデルよりも優れた一般化性を示し,非医療的画像に対するいくつかの結果と矛盾することが示された。
特に、ImageNet-pretrainedモデルは、異なるトレーニングシナリオで内部および外部テスト中に一貫したパフォーマンスを示す。
これらのモデルの重量レベルのアンサンブルは、個々のモデルと比較してテスト中にかなり高いリコール(p<0.05)を示す。
そこで本研究では,特に重みレベルアンサンブルを用いた場合の,imagenetプリトレーニングされた重み初期化の利点を強調する。 Model initialization techniques are vital for improving the performance and reliability of deep learning models in medical computer vision applications. While much literature exists on non-medical images, the impacts on medical images, particularly chest X-rays (CXRs) are less understood. Addressing this gap, our study explores three deep model initialization techniques: Cold-start, Warm-start, and Shrink and Perturb start, focusing on adult and pediatric populations. We specifically focus on scenarios with periodically arriving data for training, thereby embracing the real-world scenarios of ongoing data influx and the need for model updates. We evaluate these models for generalizability against external adult and pediatric CXR datasets. We also propose novel ensemble methods: F-score-weighted Sequential Least-Squares Quadratic Programming (F-SLSQP) and Attention-Guided Ensembles with Learnable Fuzzy Softmax to aggregate weight parameters from multiple models to capitalize on their collective knowledge and complementary representations. We perform statistical significance tests with 95% confidence intervals and p-values to analyze model performance. Our evaluations indicate models initialized with ImageNet-pre-trained weights demonstrate superior generalizability over randomly initialized counterparts, contradicting some findings for non-medical images. Notably, ImageNet-pretrained models exhibit consistent performance during internal and external testing across different training scenarios. Weight-level ensembles of these models show significantly higher recall (p<0.05) during testing compared to individual models. Thus, our study accentuates the benefits of ImageNet-pretrained weight initialization, especially when used with weight-level ensembles, for creating robust and generalizable deep learning solutions. | 翻訳日:2023-09-21 16:01:06 公開日:2023-09-20 |
# ゲーム理論を用いたクラウド市場におけるアプリケーションの動的価格設定 Dynamic Pricing of Applications in Cloud Marketplaces using Game Theory ( http://arxiv.org/abs/2309.11316v1 ) ライセンス: Link先を確認 | Safiye Ghasemi, Mohammad Reza Meybodi, Mehdi Dehghan Takht-Fooladi, and Amir Masoud Rahmani | (参考訳) サービスのデリバリにおける新たな関心事としてのクラウドマーケットプレースの競争性は、価格ポリシーを企業にとって重要なタスクにする。
価格戦略は近年 多くの研究者を惹きつけています
ゲーム理論はそのような競合にうまく対処できるので、この懸念は現在の研究においてプロバイダ間で通常のフォームゲームを設計することで解決される。
プロバイダが競争ベースの価格ポリシーを改善するために登録する委員会が検討されている。
ゲーム理論の機能は動的価格政策の設計に適用される。
委員会の使用によってゲームは完全な情報となり、各プレイヤーは他のプレイヤーの報酬機能を認識している。
プレイヤーは利益を最大化するために価格政策を強化する。
本論文の貢献は,新しい動的価格戦略を提供するためのゲーム形態のクラウドマーケットプレースを定量的にモデル化することであり,nash均衡の存在と一意性を証明することによって検証する。 The competitive nature of Cloud marketplaces as new concerns in delivery of services makes the pricing policies a crucial task for firms. so that, pricing strategies has recently attracted many researchers. Since game theory can handle such competing well this concern is addressed by designing a normal form game between providers in current research. A committee is considered in which providers register for improving their competition based pricing policies. The functionality of game theory is applied to design dynamic pricing policies. The usage of the committee makes the game a complete information one, in which each player is aware of every others payoff functions. The players enhance their pricing policies to maximize their profits. The contribution of this paper is the quantitative modeling of Cloud marketplaces in form of a game to provide novel dynamic pricing strategies; the model is validated by proving the existence and the uniqueness of Nash equilibrium of the game. | 翻訳日:2023-09-21 16:00:31 公開日:2023-09-20 |
# 後悔最小化手法を用いたクラウド市場における競争ベースの価格戦略 A Competition-based Pricing Strategy in Cloud Markets using Regret Minimization Techniques ( http://arxiv.org/abs/2309.11312v1 ) ライセンス: Link先を確認 | S.Ghasemi, M.R.Meybodi, M.Dehghan, A.M.Rahmani | (参考訳) クラウドコンピューティングは、さまざまな研究者によって広く研究されている、かなり新しい商用パラダイムである。
プロバイダが互いの価格ポリシーを知らずにより多くの顧客を引き付けようとしているため、価格設定はクラウドコンピューティングマーケットプレースにおいて大きな問題である。
この知識の欠如を克服するために、不完全な情報ゲームによってそれらの競争をモデル化する。
そこで本研究では,後悔最小化アルゴリズムに関連する価格政策を提案し,不完全な情報ゲームに適用する。
クラウドの競合ベースのマーケットプレースに基づいて、プロバイダは経験豊富な後悔を使って戦略の配布を更新する。
戦略の確率を更新するアルゴリズムを反復的に適用するというアイデアは、後悔を最小化する。
実験の結果は、他の価格政策と比較して、プロバイダの利益が大幅に増加したことを示している。
また,クラウドのシミュレーション市場における様々な後悔の最小化手法の有効性について検討したが,本研究の文献では確認されていない。
また、検討対象組織への提供者投資の見返りが研究され、有望な結果が得られた。 Cloud computing as a fairly new commercial paradigm, widely investigated by different researchers, already has a great range of challenges. Pricing is a major problem in Cloud computing marketplace; as providers are competing to attract more customers without knowing the pricing policies of each other. To overcome this lack of knowledge, we model their competition by an incomplete-information game. Considering the issue, this work proposes a pricing policy related to the regret minimization algorithm and applies it to the considered incomplete-information game. Based on the competition based marketplace of the Cloud, providers update the distribution of their strategies using the experienced regret. The idea of iteratively applying the algorithm for updating probabilities of strategies causes the regret get minimized faster. The experimental results show much more increase in profits of the providers in comparison with other pricing policies. Besides, the efficiency of a variety of regret minimization techniques in a simulated marketplace of Cloud are discussed which have not been observed in the studied literature. Moreover, return on investment of providers in considered organizations is studied and promising results appeared. | 翻訳日:2023-09-21 16:00:17 公開日:2023-09-20 |
# フラットネスの創造と発見 - 継続的学習のためのフラットトレーニングスペースの構築 Create and Find Flatness: Building Flat Training Spaces in Advance for Continual Learning ( http://arxiv.org/abs/2309.11305v1 ) ライセンス: Link先を確認 | Wenhang Shi, Yiren Chen, Zhe Zhao, Wei Lu, Kimmo Yan, Xiaoyong Du | (参考訳) ニューラルネットワークは、新しい情報を同化しながら、事前の知識を保持するのに苦労している。
既存の研究の多くは、新しいタスクに遭遇したときのみこの問題を緩和し、タスク前フェーズの重要性を見越すことを強調している。
そこで我々は,現在のタスク学習段階に注目を移し,新しい枠組みであるc&f (create and find flatness) を提示した。
具体的には,現在の課題の学習において,このフレームワークは損失状況の最小限の領域を適応的に生成する。
その後、その平坦度に基づいて現在のタスクにおけるパラメータの重要性を見出す。
新しいタスクにモデルを適用する場合、フラット性に応じて制約が適用され、差し迫ったタスクに対してフラットスペースが同時に準備される。
理論的には、生成した平坦性と発見された平坦性の一貫性を実証する。
このように、我々のフレームワークは、新しいタスクを学習するための十分なパラメータ空間だけでなく、以前のタスクの知識も保持する。
実験結果から,C&Fの非定常学習手法としての最先端性能と,他の手法を取り入れたフレームワークとしての有効性を示す。
私たちの仕事はhttps://github.com/Eric8932/Create-and-Find-Flatness.comで公開しています。 Catastrophic forgetting remains a critical challenge in the field of continual learning, where neural networks struggle to retain prior knowledge while assimilating new information. Most existing studies emphasize mitigating this issue only when encountering new tasks, overlooking the significance of the pre-task phase. Therefore, we shift the attention to the current task learning stage, presenting a novel framework, C&F (Create and Find Flatness), which builds a flat training space for each task in advance. Specifically, during the learning of the current task, our framework adaptively creates a flat region around the minimum in the loss landscape. Subsequently, it finds the parameters' importance to the current task based on their flatness degrees. When adapting the model to a new task, constraints are applied according to the flatness and a flat space is simultaneously prepared for the impending task. We theoretically demonstrate the consistency between the created and found flatness. In this manner, our framework not only accommodates ample parameter space for learning new tasks but also preserves the preceding knowledge of earlier tasks. Experimental results exhibit C&F's state-of-the-art performance as a standalone continual learning approach and its efficacy as a framework incorporating other methods. Our work is available at https://github.com/Eric8932/Create-and-Find-Flatness. | 翻訳日:2023-09-21 16:00:00 公開日:2023-09-20 |
# 単純集合による代数トポロジーのための新しい量子計算セット A new quantum computational set-up for algebraic topology via simplicial sets ( http://arxiv.org/abs/2309.11304v1 ) ライセンス: Link先を確認 | Roberto Zucchini | (参考訳) 本稿では,Simplicial set theoryに基づく代数トポロジーの量子計算フレームワークの基礎を概説する。
これは、主にトポロジカルデータ解析を目的とし、単純な複素数に制限された以前の研究を拡張した。
我々のセットアップは任意のパラ有限単純集合に適用され、それを有限次元の単純ヒルベルト空間に関連付け、その単純作用素構造を深く研究する。
特に、simplicial set のホモロジーを決定する問題は、simplicial Hilbert frameworkの中でどのように解決できるかを示す。
本稿では,量子コンピュータの有限資源を考慮した量子計算環境において,単純集合論的アルゴリズムを実装できる条件について検討する。
最後に,いくつかの基本的な量子アルゴリズムを組み合わせた簡約集合の単純ホモロジー空間とベッチ数を計算可能な量子アルゴリズムスキームを概説する。 In this paper, we lay down the foundation of a quantum computational framework for algebraic topology based on simplicial set theory. This extends previous work, which was limited to simplicial complexes and aimed mostly to topological data analysis. Our set--up applies to any parafinite simplicial set and proceeds by associating with it a finite dimensional simplicial Hilbert space, whose simplicial operator structure we study in depth. We show in particular how the problem of determining the simplicial set's homology can be solved within the simplicial Hilbert framework. We examine further the conditions under which simplicial set theoretic algorithms can be implemented in a quantum computational setting taking into account a quantum computer's finite resources. We outline finally a quantum algorithmic scheme capable to compute the simplicial homology spaces and Betti numbers of a simplicial set combining a number of basic quantum algorithms. | 翻訳日:2023-09-21 15:59:38 公開日:2023-09-20 |
# 中間回路計測による量子状態の判別 Qutrit state discrimination with mid-circuit measurements ( http://arxiv.org/abs/2309.11303v1 ) ライセンス: Link先を確認 | Naoki Kanazawa, Haruki Emori, David C. McKay | (参考訳) 量子状態の読み出しは、キュートアルゴリズムの実行だけでなく、エラー訂正回路における消去検出やゲートセットのリークエラー評価にも重要な技術である。
特殊なiq判別器を用いた従来の手法では、入力にはメモリ集約型iqデータが必要であり、システムサイズのスケールアップが困難である。
本研究では,2進判別器を量子ビット読み出しに活用する中回路計測に基づく識別手法を提案する。
我々の判別器はIQ判別器と同等の性能を示し、量子ビット制御のための標準量子プロセッサで容易に利用できる。
また,本手法は,漏洩ランダム化ベンチマークや状態人口減衰測定など,典型的なベンチマークおよびキャラクタリゼーション実験を再実装できることを示す。 Qutrit state readout is an important technology not only for execution of qutrit algorithms but also for erasure detection in error correction circuits and leakage error characterization of the gate set. Conventional technique using a specialized IQ discriminator requires memory intensive IQ data for input, and has difficulty in scaling up the system size. In this study, we propose the mid-circuit measurement based discrimination technique which exploits a binary discriminator for qubit readout. Our discriminator shows comparable performance with the IQ discriminator, and readily available for standard quantum processors calibrated for qubit control. We also demonstrate our technique can reimplement typical benchmarking and characterization experiments such as leakage randomized benchmarking and state population decay measurement. | 翻訳日:2023-09-21 15:59:25 公開日:2023-09-20 |
# 変異型オートエンコーダによる糖尿病網膜症領域の一般化 Generalizing Across Domains in Diabetic Retinopathy via Variational Autoencoders ( http://arxiv.org/abs/2309.11301v1 ) ライセンス: Link先を確認 | Sharon Chokuwa and Muhammad H. Khan | (参考訳) 糖尿病網膜症分類(dr:domain generalization for diabetic retinopathy)は、様々な画像条件と患者層を持つ未発見の領域から網膜画像を適切に分類することを可能にし、幅広い臨床環境においてその適用性を高める。
本研究では,drデータセットで発生する領域シフトを効果的に解決する,より頑健で適応可能なドメイン不変表現を得ることを目的として,基礎画像の潜在空間を乱す変分オートエンコーダの固有能力について検討する。
我々のアプローチの単純さにもかかわらず、この古典的な手法の有効性を探求し、公開データセットを使用して、このタスクに対する現代の最先端のアプローチよりも優れる能力を示す。
本研究は,DR分類の高度化が領域一般化に本質的に優れているという仮定に挑戦する。
これは、単純な方法を考慮し、高度な技術のみに頼るのではなく、医療画像の一般化という困難なタスクに適応することの重要性を強調している。 Domain generalization for Diabetic Retinopathy (DR) classification allows a model to adeptly classify retinal images from previously unseen domains with various imaging conditions and patient demographics, thereby enhancing its applicability in a wide range of clinical environments. In this study, we explore the inherent capacity of variational autoencoders to disentangle the latent space of fundus images, with an aim to obtain a more robust and adaptable domain-invariant representation that effectively tackles the domain shift encountered in DR datasets. Despite the simplicity of our approach, we explore the efficacy of this classical method and demonstrate its ability to outperform contemporary state-of-the-art approaches for this task using publicly available datasets. Our findings challenge the prevailing assumption that highly sophisticated methods for DR classification are inherently superior for domain generalization. This highlights the importance of considering simple methods and adapting them to the challenging task of generalizing medical images, rather than solely relying on advanced techniques. | 翻訳日:2023-09-21 15:59:15 公開日:2023-09-20 |
# 効率的なエネルギー輸送とトラップのための量子エミッタリングの利用 Harnessing quantum emitter rings for efficient energy transport and trapping ( http://arxiv.org/abs/2309.11376v1 ) ライセンス: Link先を確認 | Raphael Holzinger, Jonah Peter, Stefan Ostermann, Helmut Ritsch and Susanne Yelin | (参考訳) 低光条件下での効率的な励起エネルギーの輸送と収穫は、自然界や量子技術においても重要なプロセスである。
ここでは,2レベル量子エミッタの構成における励起エネルギー輸送に対する量子光学的視点を定式化し,特に障害に対する効率とロバスト性を重視した。
サブ波長間隔を持つエミッタリングの周期幾何学について検討し, 近接場双極子-双極子相互作用により集合電子状態が出現する。
このシステムは、励起輸送に特に適しており、エネルギー障害や放射性脱コヒーレンスから保護されている集団のサブラジアント状態を引き起こす。
リングジオメトリと他の構成を比較すると、前者は入射光を吸収し、輸送し、トラップするより効率的であることが示される。
我々の発見は、量子エミッタの特定の選択について無知であるため、光子輸送特性に優れた量子技術のための一般的な設計原理を示し、自然光ハーベスティングシステムの高効率エネルギー輸送効率をもたらす潜在的なメカニズムを解明する可能性がある。 Efficient transport and harvesting of excitation energy under low light conditions is an important process in nature and quantum technologies alike. Here we formulate a quantum optics perspective to excitation energy transport in configurations of two-level quantum emitters with a particular emphasis on efficiency and robustness against disorder. We study a periodic geometry of emitter rings with subwavelength spacing, where collective electronic states emerge due to near-field dipole-dipole interactions. The system gives rise to collective subradiant states that are particularly suited to excitation transport and are protected from energy disorder and radiative decoherence. Comparing ring geometries with other configurations shows that that the former are more efficient in absorbing, transporting, and trapping incident light. Because our findings are agnostic as to the specific choice of quantum emitters, they indicate general design principles for quantum technologies with superior photon transport properties and may elucidate potential mechanisms resulting in the highly efficient energy transport efficiencies in natural light-harvesting systems. | 翻訳日:2023-09-21 15:53:08 公開日:2023-09-20 |
# 協調型スピン増幅 Cooperative Spin Amplification ( http://arxiv.org/abs/2309.11374v1 ) ライセンス: Link先を確認 | Minxiang Xu, Min Jiang, Yuanhong Wang, Haowen Su, Ying Huang, Xinhua Peng | (参考訳) 量子増幅は精度測定の鍵となる資源として認識される。
しかしながら、ほとんどの従来のパラダイムでは、利得やスペクトル線幅などの量子増幅の性能を制限する独立した粒子のアンサンブルを用いる。
本稿では,フィードバック回路内に組み込まれた協調129xe核スピンを用いた新しい信号増幅法を示し,希ガススピンコヒーレンス時間を少なくとも1桁向上させる。
このような技術を用いることで、磁場は3つ以上のオーダーで実質的に前向きになり、87Rb磁気センサが組み込まれている。
超高感度の4.0 fT/Hz$^{1/2}$は、光子ショットノイズを超越し、組み込み原子磁気センサのスピン投射ノイズより下にあり、超新星制約を超える感度のダークマター探索を含むエキサイティングな応用を可能にする。
以上の知見は、量子増幅の物理を協調スピン系に拡張し、既存の様々なセンサに一般化し、新しいタイプの協調量子センサを可能にした。 Quantum amplification is recognized as a key resource for precision measurements. However, most conventional paradigms employ an ensemble of independent particles that usually limit the performance of quantum amplification in gain, spectral linewidth, etc. Here we demonstrate a new signal amplification using cooperative 129Xe nuclear spins embedded within a feedback circuit, where the noble-gas spin coherence time is enhanced by at least one order of magnitude. Using such a technique, magnetic field can be substantially pre-enhanced by more than three orders and is in situ readout with an embedded 87Rb magnetometer. We realize an ultrahigh magnetic sensitivity of 4.0 fT/Hz$^{1/2}$ that surpasses the photon-shot noise and even below the spin-projection noise of the embedded atomic magnetometer, allowing for exciting applications including searches for dark matter with sensitivity well beyond supernova constraints. Our findings extend the physics of quantum amplification to cooperative spin systems and can be generalized to a wide variety of existing sensors, enabling a new class of cooperative quantum sensors. | 翻訳日:2023-09-21 15:52:52 公開日:2023-09-20 |
# 音声認識を用いたツールデリバリーにおける動的ハンドジェスチャ機能付ヒト運動適応 Dynamic Hand Gesture-Featured Human Motor Adaptation in Tool Delivery using Voice Recognition ( http://arxiv.org/abs/2309.11368v1 ) ライセンス: Link先を確認 | Haolin Fei, Stefano Tedeschi, Yanpei Huang, Andrew Kennedy and Ziwei Wang | (参考訳) 人間とロボットのコラボレーションは、対話的なタスクに対して高い効率のユーザに利益をもたらしました。
しかし、ほとんどの協調的なスキームは複雑な人間と機械のインターフェイスに依存しており、自然な手足の制御に比べて、必要な直感性を欠いている。
また、低いトレーニングデータ要求で人間の意図を理解することも期待しています。
これらの課題に対応するために,手動作と動的動作認識,音声認識,切り替え可能な制御適応戦略をシームレスに統合する,革新的なロボット協調フレームワークを提案する。
これらのモジュールはユーザフレンドリーなアプローチを提供し、特に両手で作業している場合に、ロボットが必要なツールを提供することを可能にする。
そのため、ロボットは直感的なジェスチャーを解釈するのに対し、人間と機械のインターフェイスの使用を訓練することなくタスク実行に集中することができる。
提案するマルチモーダルインタラクションフレームワークは、RealSense D435iカメラを備えたUR5eロボットプラットフォームで実行され、ハンダリング回路基板タスクを通じて有効性を評価する。
その結果,静的手動作認識モジュールの精度は94.3\%,動的動作認識モジュールの精度は97.6\%であった。
ヒトの単独操作と比較して、提案手法は、人間の意図を著しく妨げることなく、より高い効率のツールデリバリを促進する。 Human-robot collaboration has benefited users with higher efficiency towards interactive tasks. Nevertheless, most collaborative schemes rely on complicated human-machine interfaces, which might lack the requisite intuitiveness compared with natural limb control. We also expect to understand human intent with low training data requirements. In response to these challenges, this paper introduces an innovative human-robot collaborative framework that seamlessly integrates hand gesture and dynamic movement recognition, voice recognition, and a switchable control adaptation strategy. These modules provide a user-friendly approach that enables the robot to deliver the tools as per user need, especially when the user is working with both hands. Therefore, users can focus on their task execution without additional training in the use of human-machine interfaces, while the robot interprets their intuitive gestures. The proposed multimodal interaction framework is executed in the UR5e robot platform equipped with a RealSense D435i camera, and the effectiveness is assessed through a soldering circuit board task. The experiment results have demonstrated superior performance in hand gesture recognition, where the static hand gesture recognition module achieves an accuracy of 94.3\%, while the dynamic motion recognition module reaches 97.6\% accuracy. Compared with human solo manipulation, the proposed approach facilitates higher efficiency tool delivery, without significantly distracting from human intents. | 翻訳日:2023-09-21 15:52:32 公開日:2023-09-20 |
# 位置依存質量背景における振動子型量子井戸ポテンシャルの合理的拡張 Rational extensions of an oscillator-shaped quantum well potential in a position-dependent mass background ( http://arxiv.org/abs/2309.11364v1 ) ライセンス: Link先を確認 | C. Quesne | (参考訳) Scarf I ポテンシャルに対する定数質量 Schr\"odinger 方程式に点正準変換を適用することにより、最近提案された位置依存質量に付随する振動子型量子井戸モデルが解けることを示す。
X_1$-ヤコビ例外直交多項式と連結された後者の既知の有理拡大を用いて、始点と同じスペクトルを持つ有理拡張位置依存質量モデルを構築する。
さらに、$X_2$-ヤコビ例外直交多項式に付随する位置依存質量モデルも考慮されている。 We show that a recently proposed oscillator-shaped quantum well model associated with a position-dependent mass can be solved by applying a point canonical transformation to the constant-mass Schr\"odinger equation for the Scarf I potential. On using the known rational extension of the latter connected with $X_1$-Jacobi exceptional orthogonal polynomials, we build a rationally-extended position-dependent mass model with the same spectrum as the starting one. Some more involved position-dependent mass models associated with $X_2$-Jacobi exceptional orthogonal polynomials are also considered. | 翻訳日:2023-09-21 15:52:10 公開日:2023-09-20 |
# 材料科学のための知識グラフ質問回答(KGQA4MAT):金属-有機フレームワーク知識グラフ(MOF-KG)のための自然言語インタフェースの開発 Knowledge Graph Question Answering for Materials Science (KGQA4MAT): Developing Natural Language Interface for Metal-Organic Frameworks Knowledge Graph (MOF-KG) ( http://arxiv.org/abs/2309.11361v1 ) ライセンス: Link先を確認 | Yuan An, Jane Greenberg, Alex Kalinowski, Xintong Zhao, Xiaohua Hu, Fernando J. Uribe-Romo, Kyle Langlois, Jacob Furst, Diego A. G\'omez-Gualdr\'on | (参考訳) 材料科学における知識グラフ質問回答(KGQA4MAT)のための総合的なベンチマークデータセットを,金属-有機フレームワーク(MOF)に着目して提示する。
構造データベースと文献から抽出した知識を統合することにより,金属-有機フレームワーク(MOF-KG)の知識グラフを構築した。
ドメインエキスパート向けのMOF-KGアクセシビリティを向上させるため,知識グラフを問合せするための自然言語インタフェースの開発を目指している。
比較,集計,複雑なグラフ構造を含む161の複雑な質問からなるベンチマークを開発した。
各質問には3つのバリエーションがあり、644の質問と161のKGクエリがある。
このベンチマークを評価するために,ChatGPTを用いて自然言語質問を正規のKGクエリに変換する手法を開発した。
また、このアプローチをよく知られたQALD-9データセットに適用し、さまざまなプラットフォームやクエリ言語でKGQA問題に対処するChatGPTの可能性を示す。
このベンチマークと提案手法は,ドメイン固有資料知識グラフを問合せするための,ユーザフレンドリで効率的なインターフェースのさらなる研究と開発を促進することを目的としている。 We present a comprehensive benchmark dataset for Knowledge Graph Question Answering in Materials Science (KGQA4MAT), with a focus on metal-organic frameworks (MOFs). A knowledge graph for metal-organic frameworks (MOF-KG) has been constructed by integrating structured databases and knowledge extracted from the literature. To enhance MOF-KG accessibility for domain experts, we aim to develop a natural language interface for querying the knowledge graph. We have developed a benchmark comprised of 161 complex questions involving comparison, aggregation, and complicated graph structures. Each question is rephrased in three additional variations, resulting in 644 questions and 161 KG queries. To evaluate the benchmark, we have developed a systematic approach for utilizing ChatGPT to translate natural language questions into formal KG queries. We also apply the approach to the well-known QALD-9 dataset, demonstrating ChatGPT's potential in addressing KGQA issues for different platforms and query languages. The benchmark and the proposed approach aim to stimulate further research and development of user-friendly and efficient interfaces for querying domain-specific materials science knowledge graphs, thereby accelerating the discovery of novel materials. | 翻訳日:2023-09-21 15:51:59 公開日:2023-09-20 |
# レアイベント予測に関する総合的調査 A Comprehensive Survey on Rare Event Prediction ( http://arxiv.org/abs/2309.11356v1 ) ライセンス: Link先を確認 | Chathurangi Shyalika, Ruwan Wickramarachchi, Amit Sheth | (参考訳) まれな事象予測は、機械学習とデータ分析を使用して、低い確率でイベントを識別および予測することを含む。
一般的なイベントの頻度が稀なイベントの頻度を大幅に上回る不均衡なデータ分布のため、機械学習パイプラインの各ステップ、すなわちデータ処理からアルゴリズム、評価プロトコルまで、特別なメソッドを使用する必要がある。
産業4.0のような現実の応用には稀な事象の発生を予測することが重要であり、統計学や機械学習において活発な研究領域である。
本稿では,レアイベントデータ,データ処理,アルゴリズム手法,評価手法という4次元のレアイベント予測手法について概説する。
具体的には、異なるモダリティ(数値、画像、テキスト、音声など)の73のデータセット、データ処理の4つの主要なカテゴリ、5つの主要なアルゴリズムのグループ化、2つの広範な評価アプローチを検討する。
本稿では,現在の文献におけるギャップを特定し,希少事象の予測の課題を浮き彫りにする。
また、実践者や研究者の指導に役立つ研究の方向性も示唆している。 Rare event prediction involves identifying and forecasting events with a low probability using machine learning and data analysis. Due to the imbalanced data distributions, where the frequency of common events vastly outweighs that of rare events, it requires using specialized methods within each step of the machine learning pipeline, i.e., from data processing to algorithms to evaluation protocols. Predicting the occurrences of rare events is important for real-world applications, such as Industry 4.0, and is an active research area in statistical and machine learning. This paper comprehensively reviews the current approaches for rare event prediction along four dimensions: rare event data, data processing, algorithmic approaches, and evaluation approaches. Specifically, we consider 73 datasets from different modalities (i.e., numerical, image, text, and audio), four major categories of data processing, five major algorithmic groupings, and two broader evaluation approaches. This paper aims to identify gaps in the current literature and highlight the challenges of predicting rare events. It also suggests potential research directions, which can help guide practitioners and researchers. | 翻訳日:2023-09-21 15:51:35 公開日:2023-09-20 |
# C$\cdot$ASE:物理系文字に対する条件付き逆スキル埋め込みの学習 C$\cdot$ASE: Learning Conditional Adversarial Skill Embeddings for Physics-based Characters ( http://arxiv.org/abs/2309.11351v1 ) ライセンス: Link先を確認 | Zhiyang Dou, Xuelin Chen, Qingnan Fan, Taku Komura, Wenping Wang | (参考訳) C$\cdot$ASEは,物理系文字に対する条件付き逆スキル埋め込みを学習する,効率的かつ効果的なフレームワークである。
物理的にシミュレートされたキャラクタは、実行すべきスキルを直接操作する形で制御性を提供しながら、スキルの多様なレパートリーを学習することができる。
C$\cdot$ASEは、不均一なスキルモーションを、条件行動分布を学ぶための低レベル条件モデルのトレーニングのための均質なサンプルを含む別個のサブセットに分割する。
スキル条件の模倣学習は、訓練後のキャラクターのスキルを明確に制御する。
トレーニングコースでは、さまざまな複雑なスキルのバランスをとるために、焦点スキルサンプリング、骨格残留力、要素的特徴マスクが組み込まれており、アジャイルの動作をマスターするためにダイナミクスミスマッチを緩和し、より一般的な行動特性をそれぞれ捉えている。
トレーニングが完了すると、条件付きモデルは高度な多様性と現実的なスキルを生み出すことができ、最先端のモデルよりも優れ、さまざまな下流タスクで再利用することができる。
特に、明示的なスキルコントロールハンドルでは、高レベルなポリシーやユーザが所望のスキル仕様でキャラクターを指示することができるため、インタラクティブなキャラクターアニメーションには有利である。 We present C$\cdot$ASE, an efficient and effective framework that learns conditional Adversarial Skill Embeddings for physics-based characters. Our physically simulated character can learn a diverse repertoire of skills while providing controllability in the form of direct manipulation of the skills to be performed. C$\cdot$ASE divides the heterogeneous skill motions into distinct subsets containing homogeneous samples for training a low-level conditional model to learn conditional behavior distribution. The skill-conditioned imitation learning naturally offers explicit control over the character's skills after training. The training course incorporates the focal skill sampling, skeletal residual forces, and element-wise feature masking to balance diverse skills of varying complexities, mitigate dynamics mismatch to master agile motions and capture more general behavior characteristics, respectively. Once trained, the conditional model can produce highly diverse and realistic skills, outperforming state-of-the-art models, and can be repurposed in various downstream tasks. In particular, the explicit skill control handle allows a high-level policy or user to direct the character with desired skill specifications, which we demonstrate is advantageous for interactive character animation. | 翻訳日:2023-09-21 15:51:17 公開日:2023-09-20 |
# アンサンブルを使って実行することもできます -- Deep Ensembles Spread Over Time You can have your ensemble and run it too -- Deep Ensembles Spread Over Time ( http://arxiv.org/abs/2309.11333v1 ) ライセンス: Link先を確認 | Isak Meding, Alexander Bodin, Adam Tonderski, Joakim Johnander, Christoffer Petersson, Lennart Svensson | (参考訳) 独立に訓練されたディープニューラルネットワークのアンサンブルは、ライバルのベイズネットワークのパフォーマンスに不確実性をもたらす。
単一モデルに対する予測パフォーマンスの面でも大幅に改善されている。
しかし、深層アンサンブルは、アンサンブルメンバーの数とともに複雑さが直線的に増加するため、自律運転のような限られた計算予算を持つ環境では一般的には使われない。
自動運転のようなロボット工学の応用に応用できる重要な観察は、データが一般的にシーケンシャルであることだ。
例えば、物体が認識されるとき、自動運転車は通常、単一の画像ではなく、一連の画像を観察します。
これにより、深いアンサンブルが時間とともに広がるのかという疑問が持ち上がる。
本研究では,時間とともに広がる深層アンサンブル(desot)の提案と解析を行う。
このアイデアは、シーケンスの各データポイントに1つのアンサンブルメンバーのみを適用し、一連のデータポイントに予測を融合させることである。
我々は,追跡画像パッチのシーケンスを分類する交通標識分類のためのdesotを実装し,実験を行った。
desotは計算コストの増加を回避しつつ,予測および不確実性推定性能の観点から,深いアンサンブルの利点を享受できることがわかった。
さらに、DESOTは実装が簡単で、トレーニング中にシーケンスを必要としない。
最後に、デソットは深いアンサンブルと同様に、分散検出のために単一のモデルよりも優れています。 Ensembles of independently trained deep neural networks yield uncertainty estimates that rival Bayesian networks in performance. They also offer sizable improvements in terms of predictive performance over single models. However, deep ensembles are not commonly used in environments with limited computational budget -- such as autonomous driving -- since the complexity grows linearly with the number of ensemble members. An important observation that can be made for robotics applications, such as autonomous driving, is that data is typically sequential. For instance, when an object is to be recognized, an autonomous vehicle typically observes a sequence of images, rather than a single image. This raises the question, could the deep ensemble be spread over time? In this work, we propose and analyze Deep Ensembles Spread Over Time (DESOT). The idea is to apply only a single ensemble member to each data point in the sequence, and fuse the predictions over a sequence of data points. We implement and experiment with DESOT for traffic sign classification, where sequences of tracked image patches are to be classified. We find that DESOT obtains the benefits of deep ensembles, in terms of predictive and uncertainty estimation performance, while avoiding the added computational cost. Moreover, DESOT is simple to implement and does not require sequences during training. Finally, we find that DESOT, like deep ensembles, outperform single models for out-of-distribution detection. | 翻訳日:2023-09-21 15:50:57 公開日:2023-09-20 |
# マヨラナとアンドレーエフの境界状態とを区別する輸送ベースの融合 Transport-based fusion that distinguishes between Majorana and Andreev bound states ( http://arxiv.org/abs/2309.11328v1 ) ライセンス: Link先を確認 | Maximilian Nitsch, Rub\'en Seoane Souto, Stephanie Matern, Martin Leijnse | (参考訳) 位相的マヨラナ有界状態と非位相的アンドレーエフ有界状態とを区別し、前者の特異な性質を測定することは困難であることが証明されている。
本研究では,通常の鉛に結合したマヨラナボックス内の輸送計測に基づいて,新しいタイプの融合プロトコルを提案し,理論的に解析することにより,この問題を軽減することを目的とする。
このプロトコルは、導体の1つにトンネル結合された異なるナノワイヤペア間の切り替えに基づいている。
majoranaシステムでは、パリティ封鎖に関連する異なる状態の切り替えに繋がる。
各スイッチで送信される電荷は、マヨラナ核融合規則の測定を提供する。
重要なことに、この結果は非トポロジカル Andreev 境界状態を持つ系では異なる。
提案プロトコルは,直流電流の測定とトンネル結合の高速ゲート制御のみを必要とする。 It has proven difficult to distinguish between topological Majorana bound states and nontopological Andreev bound states and to measure the unique properties of the former. In this work, we aim to alleviate this problem by proposing and theoretically analyzing a new type of fusion protocol based on transport measurements in a Majorana box coupled to normal leads. The protocol is based on switching between different nanowire pairs being tunnel coupled to one of the leads. For a Majorana system, this leads to switching between different states associated with parity blockade. The charge being transmitted at each switch provides a measurement of the Majorana fusion rules. Importantly, the result is different for a system with nontopological Andreev bound states. The proposed protocol only requires measuring a DC current combined with fast gate-control of the tunnel couplings. | 翻訳日:2023-09-21 15:50:36 公開日:2023-09-20 |
# カメラを完璧なピンホールモデルに変える方法 How to turn your camera into a perfect pinhole model ( http://arxiv.org/abs/2309.11326v1 ) ライセンス: Link先を確認 | Ivan De Boi, Stuti Pathak, Marina Oliveira, Rudi Penne | (参考訳) カメラキャリブレーションは、様々なコンピュータビジョンアプリケーションにおいて、最初の、そして基本的なステップである。
研究の活発な分野であるにもかかわらず、Zhangの手法は一般的なツールボックスに実装されているため、カメラキャリブレーションに広く使われている。
しかし、この方法は最初、単純化された歪みモデルを持つピンホールモデルを仮定する。
本研究では,ガウス過程を用いて画像から歪みを除去する前処理の手法を提案する。
本手法では歪みモデルを仮定する必要はなく,湾曲ミラー反射の魚眼画像のような複数の歪み源の場合であっても,厳しい歪み画像に適用することができる。
ガウス過程は全ての歪みとカメラの欠陥を捉え、仮想画像は正方形のピクセルを持つ理想的なピンホールカメラによって撮影される。
さらに、この理想的なGPカメラは、正方形格子キャリブレーションパターンの1つの画像のみを必要とする。
このモデルでは、純粋な射影幾何学的な設定で設計される多くのアルゴリズムやアプリケーションを、非線形レンズ歪みに非常に敏感な性能で真にアップグレードすることができる。
本手法は,zhangのキャリブレーション手法を単純化し,パラメータ数を削減し,歪みパラメータを除去し,反復最適化を行うことで有効性を示す。
合成データと実世界画像を用いて検証を行う。
本研究の貢献は、ガウス過程を用いた仮想理想ピンホールカメラの構築、簡易キャリブレーション法、レンズ歪み除去などである。 Camera calibration is a first and fundamental step in various computer vision applications. Despite being an active field of research, Zhang's method remains widely used for camera calibration due to its implementation in popular toolboxes. However, this method initially assumes a pinhole model with oversimplified distortion models. In this work, we propose a novel approach that involves a pre-processing step to remove distortions from images by means of Gaussian processes. Our method does not need to assume any distortion model and can be applied to severely warped images, even in the case of multiple distortion sources, e.g., a fisheye image of a curved mirror reflection. The Gaussian processes capture all distortions and camera imperfections, resulting in virtual images as though taken by an ideal pinhole camera with square pixels. Furthermore, this ideal GP-camera only needs one image of a square grid calibration pattern. This model allows for a serious upgrade of many algorithms and applications that are designed in a pure projective geometry setting but with a performance that is very sensitive to nonlinear lens distortions. We demonstrate the effectiveness of our method by simplifying Zhang's calibration method, reducing the number of parameters and getting rid of the distortion parameters and iterative optimization. We validate by means of synthetic data and real world images. The contributions of this work include the construction of a virtual ideal pinhole camera using Gaussian processes, a simplified calibration method and lens distortion removal. | 翻訳日:2023-09-21 15:50:21 公開日:2023-09-20 |
# 文法誤り訂正における自然言語説明のためのプロンプト挿入による制御生成 Controlled Generation with Prompt Insertion for Natural Language Explanations in Grammatical Error Correction ( http://arxiv.org/abs/2309.11439v1 ) ライセンス: Link先を確認 | Masahiro Kaneko, Naoaki Okazaki | (参考訳) 文法的誤り訂正(GEC)では,ユーザの修正理由の理解を確保することが重要である。
既存の研究では、修正の根拠となるトークン、例、ヒントが提示されているが、修正の理由を直接説明していない。
言語モデル(LLM)を用いて自然言語を直接説明する手法は様々なタスクで提案されているが,GECにはそのような手法は存在しない。
GEC修正のための説明を生成するには、入力トークンと出力トークンの整列、修正ポイントの識別、およびそれに対応する説明を一貫して提示することが含まれる。
しかし、プロンプトによって生成の明示的な制御が困難であるため、説明を生成する複雑なフォーマットを指定することは容易ではない。
本研究では,LLMが自然言語の修正の理由を説明するために,Prompt Insertion (PI) を用いた制御生成法を提案する。
PIにおいて、LLMはまず入力テキストを訂正し、その後ルールに基づいて自動的に修正ポイントを抽出する。
抽出された補正点をプロンプトとしてLCMの説明出力に順次挿入し、LSMに補正点の説明を生成する。
また、NUCLE、CoNLL2013、CoNLL2014をアノテートすることで、修正理由の説明可能なECCデータセットを作成する。
GPT-3 や ChatGPT からの世代は、いくつかの修正点を見逃すが、PI を用いた生成制御は、すべての修正点の説明を明示的にガイドし、修正点の生成に寄与する。 In Grammatical Error Correction (GEC), it is crucial to ensure the user's comprehension of a reason for correction. Existing studies present tokens, examples, and hints as to the basis for correction but do not directly explain the reasons for corrections. Although methods that use Large Language Models (LLMs) to provide direct explanations in natural language have been proposed for various tasks, no such method exists for GEC. Generating explanations for GEC corrections involves aligning input and output tokens, identifying correction points, and presenting corresponding explanations consistently. However, it is not straightforward to specify a complex format to generate explanations, because explicit control of generation is difficult with prompts. This study introduces a method called controlled generation with Prompt Insertion (PI) so that LLMs can explain the reasons for corrections in natural language. In PI, LLMs first correct the input text, and then we automatically extract the correction points based on the rules. The extracted correction points are sequentially inserted into the LLM's explanation output as prompts, guiding the LLMs to generate explanations for the correction points. We also create an Explainable GEC (XGEC) dataset of correction reasons by annotating NUCLE, CoNLL2013, and CoNLL2014. Although generations from GPT-3 and ChatGPT using original prompts miss some correction points, the generation control using PI can explicitly guide to describe explanations for all correction points, contributing to improved performance in generating correction reasons. | 翻訳日:2023-09-21 15:42:59 公開日:2023-09-20 |
# 疎多成分状態間の絡み合い変換に対する明示的誤差境界 Explicit error bounds for entanglement transformations between sparse multipartite states ( http://arxiv.org/abs/2309.11429v1 ) ライセンス: Link先を確認 | D\'avid Bug\'ar, P\'eter Vrana | (参考訳) 純多部状態間の確率的漸近的絡み合い変換の速度と強い逆指数の間のトレードオフ関係は、原則として強い公理の集合によって暗黙的に決定される絡み合いのクラスによって特徴づけられる。
そのような関数の非自明な族が最近構築されているが、これまで知られていた特徴付けにより、非常に単純な場合のみ評価できるようになった。
本稿では,これらの関数に対する部分加法上界の新たな正規化公式を導出し,既知の超加法下界を補う。
テンソル力で評価される上と下の境界は対数的に有界な項によって異なる。
また、あるスパーシティ制約を満たす状態において、上界は対応する加法的絡み合い測度の値に等しいため、そのような状態に対しては正規化が不要であり、単項式によって評価することができる。
この結果は,局所的な操作や古典的コミュニケーションによる変換の成功確率や,絡み合い尺度の付加性から,漸近的変換に対する強い逆指数にも明確な境界を与える。 The trade-off relation between the rate and the strong converse exponent for probabilistic asymptotic entanglement transformations between pure multipartite states can in principle be characterised in terms of a class of entanglement measures determined implicitly by a set of strong axioms. A nontrivial family of such functionals has recently been constructed, but their previously known characterisations have so far only made it possible to evaluate them in very simple cases. In this paper we derive a new regularised formula for these functionals in terms of a subadditive upper bound, complementing the previously known superadditive lower bound. The upper and lower bounds evaluated on tensor powers differ by a logarithmically bounded term, which provides a bound on the convergence rate. In addition, we find that on states satisfying a certain sparsity constraint, the upper bound is equal to the value of the corresponding additive entanglement measure, therefore the regularisation is not needed for such states, and the evaluation is possible via a single-letter formula. Our results provide explicit bounds on the success probability of transformations by local operations and classical communication and, due to the additivity of the entanglement measures, also on the strong converse exponent for asymptotic transformations. | 翻訳日:2023-09-21 15:42:33 公開日:2023-09-20 |
# CalibFPA:オンラインDeep-Learning Calibrationに基づくFocal Plane Array Imaging System CalibFPA: A Focal Plane Array Imaging System based on Online Deep-Learning Calibration ( http://arxiv.org/abs/2309.11421v1 ) ライセンス: Link先を確認 | Alper G\"ung\"or, M. Umut Bahceci, Yasin Ergen, Ahmet S\"ozak, O. Oner Ekiz, Tolga Yelboga, Tolga \c{C}ukur | (参考訳) 圧縮型焦点平面アレイ(FPA)は、低分解能(LR)センサ上で複数の多重計測値を取得することで、コスト効率の高い高分解能撮像を可能にする。
視覚シーンの多重符号化は通常、電子制御可能な空間光変調器(SLM)を介して行われる。
HR画像は、撮像システムの前方モデルを含む逆問題を解決することにより、符号化された測定値から再構成される。
光収差などのシステム非理想性を捉えるために、画像グリッド上の各空間位置における点源のシステム応答を測定するために、オフラインキャリブレーションスキャンを行うことが主流である。
しかし、個々のグリッド位置を符号化できないため、構造化SLMを使用する場合、キャリブレーションスキャンを実行することは困難である。
本研究では,多重LR測定(CalibFPA)のオンライン深層学習校正に基づく新しい圧縮FPAシステムを提案する。
既製固定符号化開口部を供する圧電ステージを導入する。
次に、ディープニューラルネットワークを使用して、オフラインキャリブレーションスキャンを必要とせずに、多重測定におけるシステム非イデアルの影響を補正する。
最後に、補正された測定値から画像を再構成するために、深いプラグアンドプレイアルゴリズムを用いる。
シミュレーションおよび実験データを用いて、CalibFPAが最先端圧縮FPA法より優れていることを示す。
また,CalibFPAの設計要素の検証と計算複雑性の評価を行う。 Compressive focal plane arrays (FPA) enable cost-effective high-resolution (HR) imaging by acquisition of several multiplexed measurements on a low-resolution (LR) sensor. Multiplexed encoding of the visual scene is typically performed via electronically controllable spatial light modulators (SLM). An HR image is then reconstructed from the encoded measurements by solving an inverse problem that involves the forward model of the imaging system. To capture system non-idealities such as optical aberrations, a mainstream approach is to conduct an offline calibration scan to measure the system response for a point source at each spatial location on the imaging grid. However, it is challenging to run calibration scans when using structured SLMs as they cannot encode individual grid locations. In this study, we propose a novel compressive FPA system based on online deep-learning calibration of multiplexed LR measurements (CalibFPA). We introduce a piezo-stage that locomotes a pre-printed fixed coded aperture. A deep neural network is then leveraged to correct for the influences of system non-idealities in multiplexed measurements without the need for offline calibration scans. Finally, a deep plug-and-play algorithm is used to reconstruct images from corrected measurements. On simulated and experimental datasets, we demonstrate that CalibFPA outperforms state-of-the-art compressive FPA methods. We also report analyses to validate the design elements in CalibFPA and assess computational complexity. | 翻訳日:2023-09-21 15:42:13 公開日:2023-09-20 |
# JPEGのためのCNN:計算コストに関する研究 CNNs for JPEGs: A Study in Computational Cost ( http://arxiv.org/abs/2309.11417v1 ) ライセンス: Link先を確認 | Samuel Felipe dos Santos, Nicu Sebe, and Jurandy Almeida | (参考訳) 畳み込みニューラルネットワーク(cnns)は、過去10年間に驚くべき進歩を遂げ、いくつかのコンピュータビジョンタスクで最先端を定義する。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
しかし、ほとんどの画像データは圧縮フォーマットで利用可能であり、jpegは送信やストレージの目的で、高い計算負荷とメモリ使用量を持つプリミティブデコーディングプロセスを要求するため、最も広く使われている。
このため,近年,圧縮領域から直接学習できる深層学習手法が注目されている。
これらの手法は通常、部分的復号化によってDCTのような画像の周波数領域表現を抽出し、典型的なCNNアーキテクチャに適応して処理を行う。
現在の研究の1つの制限は、周波数領域のデータに対応するために、元のモデルに施された修正がパラメータの量と計算複雑性を著しく増加させることである。
一方, 画像の完全復号化コストは回避されるため, 高速な前処理が可能であり, 一方, モデルが向上しても, 画像の通過コストが増大し, 高速化の可能性が軽減される。
本稿では,周波数領域用に設計した深層モデルの計算コストのさらなる検討を行い,画像の復号化とネットワークへの転送のコストを評価する。
また,RGBベースラインと類似性を維持するため,計算コストと精度のトレードオフを良くした効率的なモデルを実現するために,計算複雑性とパラメータ数を削減できる手作業型およびデータ駆動型手法を提案する。 Convolutional neural networks (CNNs) have achieved astonishing advances over the past decade, defining state-of-the-art in several computer vision tasks. CNNs are capable of learning robust representations of the data directly from the RGB pixels. However, most image data are usually available in compressed format, from which the JPEG is the most widely used due to transmission and storage purposes demanding a preliminary decoding process that have a high computational load and memory usage. For this reason, deep learning methods capable of learning directly from the compressed domain have been gaining attention in recent years. Those methods usually extract a frequency domain representation of the image, like DCT, by a partial decoding, and then make adaptation to typical CNNs architectures to work with them. One limitation of these current works is that, in order to accommodate the frequency domain data, the modifications made to the original model increase significantly their amount of parameters and computational complexity. On one hand, the methods have faster preprocessing, since the cost of fully decoding the images is avoided, but on the other hand, the cost of passing the images though the model is increased, mitigating the possible upside of accelerating the method. In this paper, we propose a further study of the computational cost of deep models designed for the frequency domain, evaluating the cost of decoding and passing the images through the network. We also propose handcrafted and data-driven techniques for reducing the computational complexity and the number of parameters for these models in order to keep them similar to their RGB baselines, leading to efficient models with a better trade off between computational cost and accuracy. | 翻訳日:2023-09-21 15:41:52 公開日:2023-09-20 |
# EDMP:移動計画のための低コスト誘導拡散 EDMP: Ensemble-of-costs-guided Diffusion for Motion Planning ( http://arxiv.org/abs/2309.11414v1 ) ライセンス: Link先を確認 | Kallol Saha, Vishal Mandadi, Jayaram Reddy, Ajit Srikanth, Aditya Agarwal, Bipasha Sen, Arun Singh and Madhava Krishna | (参考訳) ロボット操作のための古典的な動作計画には、与えられた計画を実行するためのシーン固有のコストを最小限に抑える汎用アルゴリズムが含まれている。
このアプローチは、特定のトレーニングデータセットを必要とせずに、新しいシーンを直接棚外で使用できるため、驚くべき適応性を提供します。
しかしながら、与えられたシーンの様々な有効な軌道が何であるかを事前に理解せず、特別に設計されたコスト関数がなければ、全体的なソリューションは成功率が低い傾向にあります。
ディープラーニングベースのアルゴリズムは成功率を大幅に向上させるが、特別なトレーニングデータセットなしでは採用が難しい。
本研究では,古典的かつ深層学習に基づく運動計画の強みを組み合わせることを目的とした,費用対効果に基づく運動計画の拡散であるEDMPを提案する。
拡散ベースのネットワークは多様な運動学的に有効な軌道上で訓練されている。
従来の計画と同様に、推論時に新たなシーンに対して、"コリシオンコスト"のようなシーン固有のコストを計算し、拡散を導き、シーン固有の制約を満たす有効な軌跡を生成する。
さらに,シーン間での多様性を捉えるのに不十分な単一のコスト関数の代わりに,コストのアンサンブルを用いて拡散過程を誘導し,従来のプランナーに比べて成功率を大幅に向上させる。
EDMPはSOTAディープラーニングベースの手法と互換性があり、古典的なプランナーに主に関連する一般化能力を維持している。 Classical motion planning for robotic manipulation includes a set of general algorithms that aim to minimize a scene-specific cost of executing a given plan. This approach offers remarkable adaptability, as they can be directly used off-the-shelf for any new scene without needing specific training datasets. However, without a prior understanding of what diverse valid trajectories are and without specially designed cost functions for a given scene, the overall solutions tend to have low success rates. While deep-learning-based algorithms tremendously improve success rates, they are much harder to adopt without specialized training datasets. We propose EDMP, an Ensemble-of-costs-guided Diffusion for Motion Planning that aims to combine the strengths of classical and deep-learning-based motion planning. Our diffusion-based network is trained on a set of diverse kinematically valid trajectories. Like classical planning, for any new scene at the time of inference, we compute scene-specific costs such as "collision cost" and guide the diffusion to generate valid trajectories that satisfy the scene-specific constraints. Further, instead of a single cost function that may be insufficient in capturing diversity across scenes, we use an ensemble of costs to guide the diffusion process, significantly improving the success rate compared to classical planners. EDMP performs comparably with SOTA deep-learning-based methods while retaining the generalization capabilities primarily associated with classical planners. | 翻訳日:2023-09-21 15:41:25 公開日:2023-09-20 |
# 新規なねじ形軌道形状表現を用いた剛体の運動軌跡分割の促進 Enhancing motion trajectory segmentation of rigid bodies using a novel screw-based trajectory-shape representation ( http://arxiv.org/abs/2309.11413v1 ) ライセンス: Link先を確認 | Arno Verduyn, Maxim Vochten, Joris De Schutter | (参考訳) トラジェクトリセグメンテーションとは、トラジェクトリを意味のある連続的なサブトラジェクトリに分割することを指す。
本稿では3次元剛体運動の軌跡分割について述べる。
文学におけるほとんどのセグメンテーションアプローチは、物体の軌道を点軌道として表現しており、その変換と回転の無視のみを考慮している。
本稿では,翻訳と回転の両方を組み込んだ剛体運動の軌道表現を提案し,さらにいくつかの不変性を示す。
この表現は幾何進行速度と三階軌道形記述子からなる。
スクリュー理論の概念は、この表現を時間不変とし、身体基準点の選択に不変にするために用いられた。
この新たな表現は、シミュレーションと人間の指示された注ぐ動きの実際の記録の両方において、自己教師ありセグメンテーションアプローチで検証される。
その結果、特徴の異なる連続したサブモーションの検出と、従来の表現よりも一貫性のあるセグメンテーションが得られた。
他の既存のセグメンテーション手法は、この軌道表現を使用することで、不変性を改善することができると信じている。 Trajectory segmentation refers to dividing a trajectory into meaningful consecutive sub-trajectories. This paper focuses on trajectory segmentation for 3D rigid-body motions. Most segmentation approaches in the literature represent the body's trajectory as a point trajectory, considering only its translation and neglecting its rotation. We propose a novel trajectory representation for rigid-body motions that incorporates both translation and rotation, and additionally exhibits several invariant properties. This representation consists of a geometric progress rate and a third-order trajectory-shape descriptor. Concepts from screw theory were used to make this representation time-invariant and also invariant to the choice of body reference point. This new representation is validated for a self-supervised segmentation approach, both in simulation and using real recordings of human-demonstrated pouring motions. The results show a more robust detection of consecutive submotions with distinct features and a more consistent segmentation compared to conventional representations. We believe that other existing segmentation methods may benefit from using this trajectory representation to improve their invariance. | 翻訳日:2023-09-21 15:41:00 公開日:2023-09-20 |
# ノイズ量子状態からの非線形特徴の回収 Retrieving non-linear features from noisy quantum states ( http://arxiv.org/abs/2309.11403v1 ) ライセンス: Link先を確認 | Benchi Zhao, Mingrui Jing, Lei Zhang, Xuanqiang Zhao, Kun Wang, Xin Wang | (参考訳) 量子状態の高次モーメントを正確に推定することは、エンタングルメントスペクトロスコピー、エントロピー推定、スペクトル推定、量子状態からの非線形特徴の予測など、量子コンピューティングにおける多くの重要なタスクの基本的な前提条件である。
しかし実際には、避けられない量子ノイズは、所望の値へのアクセスを妨げます。
本稿では,ノイズの多い状態から高次モーメントを抽出する可能性と効率を体系的に解析することにより,この問題に対処する。
まず、基礎となるノイズチャネルが可逆である場合に限り、このタスクを達成できる量子プロトコルが存在することを示す。
次に、量子演算と古典的後処理のみを用いて最適なサンプル複雑性を実現するプロトコルを導出する手法を確立する。
従来のプロトコルとは対照的に、観測可能なシフトと呼ばれる新しい技術により、オーバヘッドが低くなり、異なる量子操作のサンプリングが避けられ、現在の量子デバイスで実用化される候補が強くなる。
提案手法は,高次情報検索における絡み合いプロトコルのパワーを示すが,既存の手法では絡み合いは役に立たない。
我々の研究は、量子ノイズが高次情報抽出にどのように影響するかを深く理解し、それに取り組むためのガイダンスを提供する。 Accurately estimating high-order moments of quantum states is an elementary precondition for many crucial tasks in quantum computing, such as entanglement spectroscopy, entropy estimation, spectrum estimation and predicting non-linear features from quantum states. But in reality, inevitable quantum noise prevents us from accessing the desired value. In this paper, we address this issue by systematically analyzing the feasibility and efficiency of extracting high-order moments from noisy states. We first show that there exists a quantum protocol capable of accomplishing this task if and only if the underlying noise channel is invertible. We then establish a method for deriving protocols that attain optimal sample complexity using quantum operations and classical post-processing only. Our protocols, in contrast to conventional ones, incur lower overheads and avoid sampling different quantum operations due to a novel technique called observable shift, making the protocols strong candidates for practical usage on current quantum devices. The proposed method also indicates the power of entangled protocols in retrieving high-order information, whereas in the existing methods, entanglement does not help. Our work contributes to a deeper understanding of how quantum noise could affect high-order information extraction and provides guidance on how to tackle it. | 翻訳日:2023-09-21 15:40:43 公開日:2023-09-20 |
# 電子取引におけるトランスフォーマー対LSTM Transformers versus LSTMs for electronic trading ( http://arxiv.org/abs/2309.11400v1 ) ライセンス: Link先を確認 | Paul Bilokon and Yitao Qiu | (参考訳) 人工知能の急速な発展に伴い、リカレントニューラルネットワーク(rnn)の一種であるlong short term memory(lstm)が時系列予測に広く用いられている。
RNNと同様に、Transformerはシーケンシャルデータを扱うように設計されている。
Transformerは自然言語処理(NLP)で大きな成功を収めたため、研究者は時系列予測におけるTransformerのパフォーマンスに興味を持ち、時系列予測におけるTransformerベースのソリューションは近年数多く出回っている。
しかし、金融時系列予測に関しては、LSTMは依然として支配的なアーキテクチャである。
そこで本研究では,Transformerベースのモデルが金融時系列予測に適用可能か,LSTMに勝るか,という疑問に答えたい。
この質問に答えるために、LSTMベースの様々なモデルとトランスフォーマーベースのモデルを比較し、高周波リミットオーダーブックデータに基づく複数の財務予測タスクについて比較する。
DLSTMと呼ばれるLSTMベースの新しいモデルを構築し、Transformerベースのモデルのための新しいアーキテクチャは、財務予測に適応するように設計されている。
実験結果は,トランスフォーマーモデルが絶対価格系列予測において限定的な利点しか持たないことを示す。
LSTMベースのモデルは、価格差や価格移動などの差分シーケンス予測において、より良い、より堅牢な性能を示す。 With the rapid development of artificial intelligence, long short term memory (LSTM), one kind of recurrent neural network (RNN), has been widely applied in time series prediction. Like RNN, Transformer is designed to handle the sequential data. As Transformer achieved great success in Natural Language Processing (NLP), researchers got interested in Transformer's performance on time series prediction, and plenty of Transformer-based solutions on long time series forecasting have come out recently. However, when it comes to financial time series prediction, LSTM is still a dominant architecture. Therefore, the question this study wants to answer is: whether the Transformer-based model can be applied in financial time series prediction and beat LSTM. To answer this question, various LSTM-based and Transformer-based models are compared on multiple financial prediction tasks based on high-frequency limit order book data. A new LSTM-based model called DLSTM is built and new architecture for the Transformer-based model is designed to adapt for financial prediction. The experiment result reflects that the Transformer-based model only has the limited advantage in absolute price sequence prediction. The LSTM-based models show better and more robust performance on difference sequence prediction, such as price difference and price movement. | 翻訳日:2023-09-21 15:40:22 公開日:2023-09-20 |
# Ethereumの証明は持続可能か?
スマートコントラクトプラットフォーム間の競争の観点から考える$-$ Is Ethereum Proof of Stake Sustainable? $-$ Considering from the Perspective of Competition Among Smart Contract Platforms $-$ ( http://arxiv.org/abs/2309.11394v1 ) ライセンス: Link先を確認 | Kenji Saito, Yutaka Soejima, Toshihiko Sugiura, Yukinobu Kitamura, Mitsuru Iwamura | (参考訳) EthereumがProof of Stakeに移行したMergeアップデート以降、電力消費が減少し、セキュリティが向上したことが指摘されている。
しかし、たとえそうであっても、この状態は維持できるのだろうか?
本稿では,ethereumのネイティブ通貨であるether(eth)の価格に対する,他のスマートコントラクトプラットフォームとの競合による潜在的な影響について考察する。 Since the Merge update upon which Ethereum transitioned to Proof of Stake, it has been touted that it resulted in lower power consumption and increased security. However, even if that is the case, can this state be sustained? In this paper, we focus on the potential impact of competition with other smart contract platforms on the price of Ethereum's native currency, Ether (ETH), thereby raising questions about the safety and sustainability purportedly brought about by the design of Proof of Stake. | 翻訳日:2023-09-21 15:39:59 公開日:2023-09-20 |
# safurai 001: コードllm評価のための新しい質的アプローチ Safurai 001: New Qualitative Approach for Code LLM Evaluation ( http://arxiv.org/abs/2309.11385v1 ) ライセンス: Link先を確認 | Davide Cifarelli, Leonardo Boiardi, Alessandro Puppo | (参考訳) 本稿では,コーディング支援分野において有意な可能性を持つ新しいLarge Language Model(LLM)であるSafurai-001を提案する。
コーディングllmの最近の進歩により、safurai-001はwizardcoder [xu et al., 2023]、pangucoder [shen et al., 2023]、phi-1 [gunasekar et al., 2023]のような最新のモデルと性能が競合するが、より会話的なインタラクションを提供することを目指している。
データエンジニアリングの進歩(データトランスフォーメーションとプロンプトエンジニアリングの最新の技術を含む)と命令チューニングを活用することで、この新しいモデルは、最近のクローズドおよびオープンソース開発と対決することを約束する。
また,llmの符号化に有効な評価基準の必要性を認識し,様々なパラメータを用いた評価ベンチマークであるgpt4ベースのマルチパラメータを導入することで,モデルの機能と性能に関する総合的な洞察を提供する。
評価の結果, Safurai-001 は GPT-3.5 を1.58%, WizardCoder を18.78% 上回っていることがわかった。 This paper presents Safurai-001, a new Large Language Model (LLM) with significant potential in the domain of coding assistance. Driven by recent advancements in coding LLMs, Safurai-001 competes in performance with the latest models like WizardCoder [Xu et al., 2023], PanguCoder [Shen et al., 2023] and Phi-1 [Gunasekar et al., 2023] but aims to deliver a more conversational interaction. By capitalizing on the progress in data engineering (including latest techniques of data transformation and prompt engineering) and instruction tuning, this new model promises to stand toe-to-toe with recent closed and open source developments. Recognizing the need for an efficacious evaluation metric for coding LLMs, this paper also introduces GPT4-based MultiParameters, an evaluation benchmark that harnesses varied parameters to present a comprehensive insight into the models functioning and performance. Our assessment shows that Safurai-001 can outperform GPT-3.5 by 1.58% and WizardCoder by 18.78% in the Code Readability parameter and more. | 翻訳日:2023-09-21 15:39:49 公開日:2023-09-20 |
# Budget-Aware Pruning: 少ないパラメータで複数のドメインを扱う Budget-Aware Pruning: Handling Multiple Domains with Less Parameters ( http://arxiv.org/abs/2309.11464v1 ) ライセンス: Link先を確認 | Samuel Felipe dos Santos, Rodrigo Berriel, Thiago Oliveira-Santos, Nicu Sebe, and Jurandy Almeida | (参考訳) ディープラーニングは、いくつかのコンピュータビジョンタスクやドメインで最先端のパフォーマンスを達成した。
それにもかかわらず、計算コストは高く、かなりの量のパラメータを必要とする。
このような要件は、リソース制限された環境での使用を妨げ、ソフトウェアとハードウェアの最適化を要求する。
別の制限として、深層モデルは通常単一のドメインやタスクに特化しており、新しいパラメータを学習し、新しいパラメータを格納する必要がある。
マルチドメイン学習(MDL)は、複数のドメインでうまく機能する単一のモデルを学習することでこの問題を解決する。
それでも、モデルは通常、1つのドメインのベースラインよりも大きい。
本研究の目的は, ユーザ定義予算に従って複数のドメインを処理可能なモデルを作成することであり, 類似の分類性能を維持しつつ, 計算コストを高くすることである。
これを実現するために、すべてのドメインに対して、ベースラインモデルからユーザーの予算で定義された量まで、同様のフィルタのサブセットを使用することを奨励します。
次に、任意のドメインで使用されていないフィルタをネットワークからプルーニングする。
提案手法は、リソース制限されたデバイスに適応し、我々の知識では、テスト時に複数のドメインを処理する唯一の作業であり、パラメータが少なく、単一のドメインのベースラインモデルよりも計算の複雑さが低い。 Deep learning has achieved state-of-the-art performance on several computer vision tasks and domains. Nevertheless, it still has a high computational cost and demands a significant amount of parameters. Such requirements hinder the use in resource-limited environments and demand both software and hardware optimization. Another limitation is that deep models are usually specialized into a single domain or task, requiring them to learn and store new parameters for each new one. Multi-Domain Learning (MDL) attempts to solve this problem by learning a single model that is capable of performing well in multiple domains. Nevertheless, the models are usually larger than the baseline for a single domain. This work tackles both of these problems: our objective is to prune models capable of handling multiple domains according to a user-defined budget, making them more computationally affordable while keeping a similar classification performance. We achieve this by encouraging all domains to use a similar subset of filters from the baseline model, up to the amount defined by the user's budget. Then, filters that are not used by any domain are pruned from the network. The proposed approach innovates by better adapting to resource-limited devices while, to our knowledge, being the only work that handles multiple domains at test time with fewer parameters and lower computational complexity than the baseline model for a single domain. | 翻訳日:2023-09-21 15:33:18 公開日:2023-09-20 |
# AudioFool: 音声認識における高速, ユニバーサル, 同期不要なクロスドメイン攻撃 AudioFool: Fast, Universal and synchronization-free Cross-Domain Attack on Speech Recognition ( http://arxiv.org/abs/2309.11462v1 ) ライセンス: Link先を確認 | Mohamad Fakih, Rouwaida Kanj, Fadi Kurdahi, Mohammed E. Fouda | (参考訳) 自動音声認識システムは、デバイス上で実行されるコマンドを操作する敵攻撃に対して脆弱であることが示されている。
近年の研究では、このような攻撃を発生させる方法を模索しているが、OTA(Over-The-Air)攻撃に関するいくつかの問題が適切に対処されていない。
本研究では,OTAモデルと互換性のあるロバストアタックの必要な特性について検討し,任意の特性,すなわち同期の不変性,フィルタリングのロバスト性を用いてアタックを生成する手法を設計する。
これらの特性を逆フーリエ変換により修正周波数領域にアタックを構築することで達成する。
我々は,標準的なキーワード分類タスクについて評価し,OTAで解析し,ドメイン間攻撃の特性を分析し,その効率性を説明する。 Automatic Speech Recognition systems have been shown to be vulnerable to adversarial attacks that manipulate the command executed on the device. Recent research has focused on exploring methods to create such attacks, however, some issues relating to Over-The-Air (OTA) attacks have not been properly addressed. In our work, we examine the needed properties of robust attacks compatible with the OTA model, and we design a method of generating attacks with arbitrary such desired properties, namely the invariance to synchronization, and the robustness to filtering: this allows a Denial-of-Service (DoS) attack against ASR systems. We achieve these characteristics by constructing attacks in a modified frequency domain through an inverse Fourier transform. We evaluate our method on standard keyword classification tasks and analyze it in OTA, and we analyze the properties of the cross-domain attacks to explain the efficiency of the approach. | 翻訳日:2023-09-21 15:32:57 公開日:2023-09-20 |
# 非線形力学系のディジタル双対:一視点 Digital twins of nonlinear dynamical systems: A perspective ( http://arxiv.org/abs/2309.11461v1 ) ライセンス: Link先を確認 | Ying-Cheng Lai | (参考訳) デジタル双生児は、様々な分野から最近多くの注目を集めています。
非線形力学系のディジタル双対の基本的な要件は、システムの進化を発生させ、破滅的な緊急行動を予測する能力であり、早期警告を提供する。
デジタル双生児は、リアルタイムでシステム「健康」モニタリングや予測的問題解決に使用することができる。
特に、デジタル双生児が環境変化や摂動によるパラメータドリフトによる将来のシステム崩壊を予測すれば、崩壊を防止するための早期介入として最適な制御戦略を考案し実行することができる。
非線形力学系のディジタル双対を構築するには、スパース最適化と機械学習の2つのアプローチが存在する。
これら2つのアプローチの基本について述べ,その利点と留意点について論じる。 Digital twins have attracted a great deal of recent attention from a wide range of fields. A basic requirement for digital twins of nonlinear dynamical systems is the ability to generate the system evolution and predict potentially catastrophic emergent behaviors so as to providing early warnings. The digital twin can then be used for system "health" monitoring in real time and for predictive problem solving. In particular, if the digital twin forecasts a possible system collapse in the future due to parameter drifting as caused by environmental changes or perturbations, an optimal control strategy can be devised and executed as early intervention to prevent the collapse. Two approaches exist for constructing digital twins of nonlinear dynamical systems: sparse optimization and machine learning. The basics of these two approaches are described and their advantages and caveats are discussed. | 翻訳日:2023-09-21 15:32:42 公開日:2023-09-20 |
# 自動数学と証明と労働の再構成 Automated Mathematics and the Reconfiguration of Proof and Labor ( http://arxiv.org/abs/2309.11457v1 ) ライセンス: Link先を確認 | Rodrigo Ochigame | (参考訳) このエッセイでは、自動化が数学的証明と労力をどのように再構成したのか、将来何が起こるのかを考察する。
実証の実用的な基準、研究における顕著な自動化形態の区別、繰り返し仮定に対する批判、そして自動化が労働と信用の経済をどのように作り直すかを問う。 This essay examines how automation has reconfigured mathematical proof and labor, and what might happen in the future. It discusses practical standards of proof, distinguishes between prominent forms of automation in research, provides critiques of recurring assumptions, and asks how automation might reshape economies of labor and credit. | 翻訳日:2023-09-21 15:32:26 公開日:2023-09-20 |
# 生成エージェントに基づくモデリング: 機械モデルと生成型人工知能の結合による社会システムダイナミクスの披露 Generative Agent-Based Modeling: Unveiling Social System Dynamics through Coupling Mechanistic Models with Generative Artificial Intelligence ( http://arxiv.org/abs/2309.11456v1 ) ライセンス: Link先を確認 | Navid Ghaffarzadegan, Aritra Majumdar, Ross Williams, Niyousha Hosseinichimeh | (参考訳) 生成人工知能を用いた社会システムのフィードバックに富む計算モデルを構築する新たな機会について論じる。
GABM(Generative Agent-Based Models)と呼ばれる個々のレベルモデルは、ChatGPTのような大きな言語モデルを使用して、社会的環境における人間の意思決定を表現する。
人的相互作用の力学モデルと事前訓練された大規模言語モデルとを結合することにより,人間の行動がシミュレーションモデルに組み込むことができるGABMケースを提供する。
これは、組織に社会規範拡散の単純なGABMを導入することで達成される。
教育目的のために、モデルは意図的にシンプルに保たれている。
本研究は,様々なシナリオと結果の感度を,プロンプトの変化について検討する。
記事とモデルが、現実的な推論と意思決定を含む有用な拡散モデルを構築するためのガイドになることを願っている。 We discuss the emerging new opportunity for building feedback-rich computational models of social systems using generative artificial intelligence. Referred to as Generative Agent-Based Models (GABMs), such individual-level models utilize large language models such as ChatGPT to represent human decision-making in social settings. We provide a GABM case in which human behavior can be incorporated in simulation models by coupling a mechanistic model of human interactions with a pre-trained large language model. This is achieved by introducing a simple GABM of social norm diffusion in an organization. For educational purposes, the model is intentionally kept simple. We examine a wide range of scenarios and the sensitivity of the results to several changes in the prompt. We hope the article and the model serve as a guide for building useful diffusion models that include realistic human reasoning and decision-making. | 翻訳日:2023-09-21 15:32:19 公開日:2023-09-20 |
# マルチステップモデル予測安全フィルタ:予測水平増加によるチャタリング低減 Multi-Step Model Predictive Safety Filters: Reducing Chattering by Increasing the Prediction Horizon ( http://arxiv.org/abs/2309.11453v1 ) ライセンス: Link先を確認 | Federico Pizarro Bejarano, Lukas Brunke, and Angela P. Schoellig | (参考訳) 学習ベースのコントローラは、様々なタスクで古典的なコントローラよりも優れたパフォーマンスを示している。
しかし、安全性の保証は容易ではない。
安全フィルタを用いて学習制御ポリシを増強することにより、状態と入力制約の満足度を保証できる。
モデル予測安全フィルタ(MPSF)はモデル予測制御(MPC)に基づく一般的な安全フィルタリング手法である。
MPSFは、提案した入力と適用した入力の差を最小限に抑えつつ、安全性を保証する。
この制限された予見は、ビタリングとして知られる制約境界に近い不安定な動きと望ましくない振動に繋がる可能性がある。
本稿では,より長い地平線上での入力補正を考慮し,おしゃべりを減らす。
有界モデルの不確かさを仮定し、ロバストMPCの手法を用いて再帰的実現可能性を証明する。
提案手法を大規模シミュレーションと四重項実験の両方で検証した。
Crazyflie 2.0ドローンによる実験では、望ましい安全保証の保存に加えて、提案されたMPSFは、以前のMPSFの定式化と比較して、チャットを4倍以上削減する。 Learning-based controllers have demonstrated superior performance compared to classical controllers in various tasks. However, providing safety guarantees is not trivial. Safety, the satisfaction of state and input constraints, can be guaranteed by augmenting the learned control policy with a safety filter. Model predictive safety filters (MPSFs) are a common safety filtering approach based on model predictive control (MPC). MPSFs seek to guarantee safety while minimizing the difference between the proposed and applied inputs in the immediate next time step. This limited foresight can lead to jerky motions and undesired oscillations close to constraint boundaries, known as chattering. In this paper, we reduce chattering by considering input corrections over a longer horizon. Under the assumption of bounded model uncertainties, we prove recursive feasibility using techniques from robust MPC. We verified the proposed approach in both extensive simulation and quadrotor experiments. In experiments with a Crazyflie 2.0 drone, we show that, in addition to preserving the desired safety guarantees, the proposed MPSF reduces chattering by more than a factor of 4 compared to previous MPSF formulations. | 翻訳日:2023-09-21 15:32:05 公開日:2023-09-20 |
# 深層学習を用いた性能境界付き確率的局所探索SATソルバの構築 Using deep learning to construct stochastic local search SAT solvers with performance bounds ( http://arxiv.org/abs/2309.11452v1 ) ライセンス: Link先を確認 | Maximilian Kramer, Paul Boes | (参考訳) ブール満足度問題(SAT)は最も原始的なNP完全問題であり、非常に実践的な妥当性がある。
この問題に対する重要な解法の一つは、候補の割り当てを反復的かつランダムに更新する確率的局所探索(sls)アルゴリズムである。
理論計算機科学における最近の画期的な成果は、SLSソルバがSATインスタンスを効率的に解くことが保証される十分な条件を確立している。
これらの結果と、大規模なデータセットで共通構造を学習するニューラルネットワークの確立した能力により、我々はグラフニューラルネットワークを用いてオークルを訓練し、様々な難易度を持つランダムSATインスタンス上で2つのSLSソルバ上で評価する。
GNNベースのオラクルへのアクセスは、両者のパフォーマンスを大幅に向上させ、平均して17%の難解なインスタンス(節と変数の比率によって測定される)を解決し、35%のステップで解決できるようにし、最大8.5%までのステップの中央値の改善を実現した。
そこで本研究は, 理論計算機科学の正式な成果と, 制約満足度問題に対するディープラーニング研究の実践的動機を橋渡しし, 性能保証を伴う目的学習SATソルバの約束を確立する。 The Boolean Satisfiability problem (SAT) is the most prototypical NP-complete problem and of great practical relevance. One important class of solvers for this problem are stochastic local search (SLS) algorithms that iteratively and randomly update a candidate assignment. Recent breakthrough results in theoretical computer science have established sufficient conditions under which SLS solvers are guaranteed to efficiently solve a SAT instance, provided they have access to suitable "oracles" that provide samples from an instance-specific distribution, exploiting an instance's local structure. Motivated by these results and the well established ability of neural networks to learn common structure in large datasets, in this work, we train oracles using Graph Neural Networks and evaluate them on two SLS solvers on random SAT instances of varying difficulty. We find that access to GNN-based oracles significantly boosts the performance of both solvers, allowing them, on average, to solve 17% more difficult instances (as measured by the ratio between clauses and variables), and to do so in 35% fewer steps, with improvements in the median number of steps of up to a factor of 8. As such, this work bridges formal results from theoretical computer science and practically motivated research on deep learning for constraint satisfaction problems and establishes the promise of purpose-trained SAT solvers with performance guarantees. | 翻訳日:2023-09-21 15:31:49 公開日:2023-09-20 |
# バンド付き循環線形系を解くためのハイブリッド量子古典アルゴリズムと量子インスパイアされた古典アルゴリズム Hybrid quantum-classical and quantum-inspired classical algorithms for solving banded circulant linear systems ( http://arxiv.org/abs/2309.11451v1 ) ライセンス: Link先を確認 | Po-Wei Huang, Xiufan Li, Kelvin Koor, Patrick Rebentrost | (参考訳) 線形系を解くことは多くの分野において非常に重要である。
特に、循環系は物理学に関連した微分方程式の数値解を効率的に見つけるのに特に有用である。
hhlや変分法のような現在の量子アルゴリズムは資源集約的か、解を見つけるのに失敗するかもしれない。
本研究では,非零項が主対角線の距離$k$である有極循環線形系に対して,量子状態の組み合わせの凸最適化に基づく効率的なアルゴリズムを提案する。
バンド状循環行列を循環置換に分解することにより, 量子状態の組合せを$K$とすることで, 量子状態が$K$に指数関数的になるような従来の収束保証よりも大幅に改善される。
本稿では,アダマールテストと量子フーリエ変換をサブルーチンとして用いたハイブリッド量子古典アルゴリズムを提案する。
さらに,サンプルとクエリアクセスに類似した性能を持つ量子インスパイアアルゴリズムを提案する。
本手法を古典的シミュレーションと実際のibm量子コンピュータ実装を用いて検証し,熱伝達などの物理問題に対する適用性を示す。 Solving linear systems is of great importance in numerous fields. In particular, circulant systems are especially valuable for efficiently finding numerical solutions to physics-related differential equations. Current quantum algorithms like HHL or variational methods are either resource-intensive or may fail to find a solution. We present an efficient algorithm based on convex optimization of combinations of quantum states to solve for banded circulant linear systems whose non-zero terms are within distance $K$ of the main diagonal. By decomposing banded circulant matrices into cyclic permutations, our approach produces approximate solutions to such systems with a combination of quantum states linear to $K$, significantly improving over previous convergence guarantees, which require quantum states exponential to $K$. We propose a hybrid quantum-classical algorithm using the Hadamard test and the quantum Fourier transform as subroutines and show its PromiseBQP-hardness. Additionally, we introduce a quantum-inspired algorithm with similar performance given sample and query access. We validate our methods with classical simulations and actual IBM quantum computer implementation, showcasing their applicability for solving physical problems such as heat transfer. | 翻訳日:2023-09-21 15:31:25 公開日:2023-09-20 |
# ジョイントハードウェア-プロトコール最適化による絡み合い分布のハードウェア要件の低減 Reducing hardware requirements for entanglement distribution via joint hardware-protocol optimization ( http://arxiv.org/abs/2309.11448v1 ) ライセンス: Link先を確認 | Adri\`a Labay-Mora, Francisco Ferreira da Silva, Stephanie Wehner | (参考訳) 我々は,処理ノード量子リピータの連鎖を用いて,1600kmまでの距離における繊維ベースの絡み合い分布を数値的に検討する。
ハードウェア要件を最小限に抑えながら, 絡み込み生成と絡み合い浄化のためのプロトコルと, 絡み合い交換のための戦略を同時に最適化する。
特に,プロトコルの適切な選択により,ハードウェアの改良コストは,対象距離とともに線形にスケールすることがわかった。
本研究は,高忠実度ターゲットを満たすために精製を採用することや,より高速なレートでSWAP-ASAPポリシーを採用することなど,ハードウェア要件の大幅な削減において,優れたプロトコル選択が果たす重要な役割を強調した。
この分析には、NetSquid、離散イベントベースの量子ネットワークシミュレータ、および最小限のハードウェア要件を決定する遺伝的アルゴリズムに基づく最適化手法を応用した。 We conduct a numerical investigation of fiber-based entanglement distribution over distances of up to 1600km using a chain of processing-node quantum repeaters. We determine minimal hardware requirements while simultaneously optimizing over protocols for entanglement generation and entanglement purification, as well as over strategies for entanglement swapping. Notably, we discover that through an adequate choice of protocols the hardware improvement cost scales linearly with the distance covered. Our results highlight the crucial role of good protocol choices in significantly reducing hardware requirements, such as employing purification to meet high-fidelity targets and adopting a SWAP-ASAP policy for faster rates. To carry out this analysis, we employ an extensive simulation framework implemented with NetSquid, a discrete-event-based quantum-network simulator, and a genetic-algorithm-based optimization methodology to determine minimal hardware requirements. | 翻訳日:2023-09-21 15:31:07 公開日:2023-09-20 |
# skeletr: 野生動物における骨格に基づく行動認識 SkeleTR: Towrads Skeleton-based Action Recognition in the Wild ( http://arxiv.org/abs/2309.11445v1 ) ライセンス: Link先を確認 | Haodong Duan, Mingze Xu, Bing Shuai, Davide Modolo, Zhuowen Tu, Joseph Tighe, Alessandro Bergamo | (参考訳) 骨格に基づく行動認識のための新しいフレームワークであるSkeleTRを提案する。
主に制御された環境に焦点を当てた以前の作業とは対照的に、通常、人数の変動や人との相互作用のさまざまな形態を含む、より一般的なシナリオをターゲットにしています。
SkeleTRは2段階のパラダイムで動作する。
まず、グラフ畳み込みで各スケルトン列の人物内骨格ダイナミクスをモデル化し、次に積み重ねられたトランスフォーマーエンコーダを使用して、一般的なシナリオでアクション認識に重要な人物インタラクションをキャプチャする。
不正確な骨格結合の負の影響を軽減するため、SkeleTRは比較的短い骨格配列を入力として取り、配列の数を増やす。
統合ソリューションとしてskeletrは、ビデオレベルのアクション分類、インスタンスレベルのアクション検出、グループレベルのアクティビティ認識など、複数のスケルトンベースのアクションタスクに直接適用することができる。
また、異なるアクションタスクとデータセットをまたいだトランスファーラーニングと共同トレーニングが可能になり、パフォーマンスが向上する。
様々なスケルトンに基づく行動認識ベンチマークで評価すると、SkeleTRは最先端のパフォーマンスを達成する。 We present SkeleTR, a new framework for skeleton-based action recognition. In contrast to prior work, which focuses mainly on controlled environments, we target more general scenarios that typically involve a variable number of people and various forms of interaction between people. SkeleTR works with a two-stage paradigm. It first models the intra-person skeleton dynamics for each skeleton sequence with graph convolutions, and then uses stacked Transformer encoders to capture person interactions that are important for action recognition in general scenarios. To mitigate the negative impact of inaccurate skeleton associations, SkeleTR takes relative short skeleton sequences as input and increases the number of sequences. As a unified solution, SkeleTR can be directly applied to multiple skeleton-based action tasks, including video-level action classification, instance-level action detection, and group-level activity recognition. It also enables transfer learning and joint training across different action tasks and datasets, which result in performance improvement. When evaluated on various skeleton-based action recognition benchmarks, SkeleTR achieves the state-of-the-art performance. | 翻訳日:2023-09-21 15:30:52 公開日:2023-09-20 |
# 音声言語表現学習のための大規模データセット A Large-scale Dataset for Audio-Language Representation Learning ( http://arxiv.org/abs/2309.11500v1 ) ライセンス: Link先を確認 | Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie | (参考訳) AIコミュニティは、大規模なマルチモーダルデータセットによって駆動される強力な基盤モデルの開発に大きく貢献している。
しかし, 音声表現学習コミュニティでは, 現在の音声データセットは, 音量不足, 簡素な内容, 難解な収集手順などの制約に悩まされている。
これらの課題に対処するため,我々は,一連の公開ツールやapiに基づく革新的で自動的な音声キャプション生成パイプラインを提案し,19万以上の音声テキストペアからなる,auto-acdと呼ばれる大規模で高品質な音声言語データセットを構築する。
提案するデータセットの有効性を示すために,我々のデータセット上で人気のあるモデルをトレーニングし,音声言語検索,音声キャプション,環境分類といった下流タスクの性能向上を示す。
さらに,新しいテストセットを確立し,音声テキストタスクのベンチマークを提供する。
提案されたデータセットはhttps://auto-acd.github.io/でリリースされる。 The AI community has made significant strides in developing powerful foundation models, driven by large-scale multimodal datasets. However, in the audio representation learning community, the present audio-language datasets suffer from limitations such as insufficient volume, simplistic content, and arduous collection procedures. To tackle these challenges, we present an innovative and automatic audio caption generation pipeline based on a series of public tools or APIs, and construct a large-scale, high-quality, audio-language dataset, named as Auto-ACD, comprising over 1.9M audio-text pairs. To demonstrate the effectiveness of the proposed dataset, we train popular models on our dataset and show performance improvement on various downstream tasks, namely, audio-language retrieval, audio captioning, environment classification. In addition, we establish a novel test set and provide a benchmark for audio-text tasks. The proposed dataset will be released at https://auto-acd.github.io/. | 翻訳日:2023-09-21 15:23:21 公開日:2023-09-20 |
# freeu:distribution u-netのフリーランチ FreeU: Free Lunch in Diffusion U-Net ( http://arxiv.org/abs/2309.11497v1 ) ライセンス: Link先を確認 | Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu | (参考訳) 本稿では,フライ時の生成品質を大幅に向上させる「フリーランチ」として機能する拡散U-Netの未発達の可能性を明らかにする。
我々はまず,u-netアーキテクチャのデノージングプロセスへの重要な貢献を調査し,その主バックボーンが主にデノージングに寄与していることを確認し,そのスキップ接続が主にデコーダモジュールに高周波機能を導入し,ネットワークがバックボーンセマンティクスを見落としてしまう原因となった。
この発見に乗じて,追加のトレーニングや微調整を行わずに生成品質を向上させる,単純かつ効果的な手法であるfreeuを提案する。
私たちの重要な洞察は、U-Netのスキップ接続とバックボーン機能マップから得られるコントリビューションを戦略的に再重み付けし、U-Netアーキテクチャの両コンポーネントの強みを活用することです。
画像およびビデオ生成タスクにおける結果の証明は、FreeUが既存の拡散モデル(例えば、Stable Diffusion、DreamBooth、ModelScope、Rerender、ReVersion)と容易に統合でき、コード数行で生成品質を向上できることを示している。
必要なのは、推論中に2つのスケーリング要素を調整することです。
プロジェクトページ: https://chenyangsi.top/freeu/ In this paper, we uncover the untapped potential of diffusion U-Net, which serves as a "free lunch" that substantially improves the generation quality on the fly. We initially investigate the key contributions of the U-Net architecture to the denoising process and identify that its main backbone primarily contributes to denoising, whereas its skip connections mainly introduce high-frequency features into the decoder module, causing the network to overlook the backbone semantics. Capitalizing on this discovery, we propose a simple yet effective method-termed "FreeU" - that enhances generation quality without additional training or finetuning. Our key insight is to strategically re-weight the contributions sourced from the U-Net's skip connections and backbone feature maps, to leverage the strengths of both components of the U-Net architecture. Promising results on image and video generation tasks demonstrate that our FreeU can be readily integrated to existing diffusion models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion, to improve the generation quality with only a few lines of code. All you need is to adjust two scaling factors during inference. Project page: https://chenyangsi.top/FreeU/. | 翻訳日:2023-09-21 15:23:05 公開日:2023-09-20 |
# ベイズ逆問題における勾配自由推論のためのフローアニールカルマンインバージョン Flow Annealed Kalman Inversion for Gradient-Free Inference in Bayesian Inverse Problems ( http://arxiv.org/abs/2309.11490v1 ) ライセンス: Link先を確認 | Richard D.P. Grumitt, Minas Karamanis and Uro\v{s} Seljak | (参考訳) 多くの科学的逆問題に対して、我々は高価な前方モデルを評価する必要がある。
さらに、モデルはしばしば勾配にアクセスするのが非現実的であるような形で与えられる。
このようなシナリオでは、標準マルコフチェインモンテカルロアルゴリズムはすぐに非現実的になり、ターゲット分布に収束するために多数のシリアルモデル評価を必要とする。
本稿では,Flow Annealed Kalman Inversion (FAKI)を紹介する。
これはEnsemble Kalman Inversion (EKI)の一般化であり、カルマンフィルタの更新を温度アニールスキームに埋め込み、正規化フロー(NF)を用いて各温度レベルに対応する中間測度を標準ガウスにマッピングする。
これにより、標準EKIで使用される中間測度に対してガウスアンサッツを緩和し、非ガウス目標に対する高忠実度近似を達成することができる。
FAKIの性能を2つの数値ベンチマークで示し、精度において標準EKIよりも劇的に向上し、既に高速な収束特性(典型的には$\mathcal{O}(10)$のステップ)を加速することを示した。 For many scientific inverse problems we are required to evaluate an expensive forward model. Moreover, the model is often given in such a form that it is unrealistic to access its gradients. In such a scenario, standard Markov Chain Monte Carlo algorithms quickly become impractical, requiring a large number of serial model evaluations to converge on the target distribution. In this paper we introduce Flow Annealed Kalman Inversion (FAKI). This is a generalization of Ensemble Kalman Inversion (EKI), where we embed the Kalman filter updates in a temperature annealing scheme, and use normalizing flows (NF) to map the intermediate measures corresponding to each temperature level to the standard Gaussian. In doing so, we relax the Gaussian ansatz for the intermediate measures used in standard EKI, allowing us to achieve higher fidelity approximations to non-Gaussian targets. We demonstrate the performance of FAKI on two numerical benchmarks, showing dramatic improvements over standard EKI in terms of accuracy whilst accelerating its already rapid convergence properties (typically in $\mathcal{O}(10)$ steps). | 翻訳日:2023-09-21 15:22:39 公開日:2023-09-20 |
# 有限時間ロバスト量子オットーエンジンの温度および相互作用による効率向上 Temperature- and interaction-tweaked efficiency boost of finite-time robust quantum Otto engines ( http://arxiv.org/abs/2309.11483v1 ) ライセンス: Link先を確認 | Debarupa Saha, Ahana Ghoshal, and Ujjwal Sen | (参考訳) 特定の条件下では、スピン1/2粒子を作動物質とする有限時間量子オットーエンジンが不完全なオットーサイクルを経たにもかかわらず、理想の量子オットーエンジンよりも高い効率を達成できることを実証する。
有限時間量子オットーエンジン(英: finite-time quantum otto engine)とは、2つのイソコリックストロークが温水浴と冷水浴で熱平衡に達する前に早期に停止するオットーエンジンを指す。
本研究では, 有限時間量子オットーエンジンの温度範囲内における動作物質の初期温度を調整することにより, 理想のオットーエンジンよりも効率を向上できることを観察した。
また、補助量子ビットを組み込んで、単一量子ビットの作用物質と補助物質との特定の相互作用を活性化することにより、有限時間および理想量子オットーエンジンの効率を高めることも見出した。
さらに, 有限時間量子オットーエンジンの効率に及ぼす2回の等方的ストローク中のシステムバスカップリング内のガラス性障害の影響を解析した。
障害の強さが増すにつれて、有限時間量子オットーエンジンの効率は低下する傾向にあり、しかしながら、強い障害であっても相対的に減少する。
しかし、初期状態温度を調整して得られる理想の値よりも有限時間量子オットーエンジンの効率性が向上し、無条件のシナリオに補助を組み込むことで得られる効率向上は、実質的な障害の存在下においても持続する。
また,この障害は理想の効率には影響を与えないが,オットーエンジンが理想の効率に達するのに必要な等調的ストロークの持続時間に影響を与えることを示した。
この脳卒中期間は特定の障害強度までほぼ一定であり、それ以外は急速に増加する。 We demonstrate that under specific conditions, a finite-time quantum Otto engine, employing a spin-1/2 particle as the working substance, despite undergoing incomplete Otto cycles, can achieve higher efficiency than an ideal quantum Otto engine. A finite-time quantum Otto engine refers to an Otto engine where the two isochoric strokes are prematurely terminated before reaching thermal equilibrium with their respective hot and cold baths. We observe that the enhancement of efficiency of a finite-time quantum Otto engine over the ideal one can be realized by adjusting the initial temperature of the working substance within the temperature range of the hot and cold baths. We also find that incorporating an auxiliary qubit, and activating specific interactions between the single-qubit working substance and the auxiliary one, can enhance the efficiency of a finite-time as well as an ideal quantum Otto engine. Furthermore, we analyze the impact of glassy disorder within the system-bath coupling during the two isochoric strokes on the efficiency of a finite-time quantum Otto engine. We find that as strength of disorder increases, efficiency of a finite-time quantum Otto engine tends to decrease, albeit with relatively modest reduction even for strong disorder. However, the advantage in efficiency of the finite-time quantum Otto engine over the ideal one, obtained by tuning the initial state temperature, and the efficiency enhancement obtained by incorporating an auxiliary over the without-auxiliary scenario, persists even in presence of substantial disorder. Additionally, we show that while this disorder does not affect the ideal efficiency, it does influence the duration of isochoric strokes needed for an Otto engine to reach ideal efficiency. This stroke duration remains nearly constant until a specific disorder strength, beyond which it increases rapidly. | 翻訳日:2023-09-21 15:22:19 公開日:2023-09-20 |
# フィクションの世界とリアルコネクト:LLMによるコミュニティストーリーテリング型ソーシャルチャットボットの開発 Fictional Worlds, Real Connections: Developing Community Storytelling Social Chatbots through LLMs ( http://arxiv.org/abs/2309.11478v1 ) ライセンス: Link先を確認 | Yuqian Sun, Hanyi Wang, Pok Man Chan, Morteza Tabibi, Yan Zhang, Huan Lu, Yuheng Chen, Chang Hee Lee, Ali Asadipour | (参考訳) ストーリーテリングとLarge Language Models(LLMs)の統合により、コミュニティ環境におけるエンゲージメントと信頼性の高いソーシャルチャットボット(SCs)を開発する。
社会交流を高めるための架空のキャラクターの可能性に触発されて、ストーリーテリング社会チャットボット(SSC)とストーリーエンジニアリングの概念を導入し、架空のゲームキャラクターをプレイヤーコミュニティ内の「生きた」社会エンティティに変換する。
ストーリーエンジニアリングプロセスには,(1)キャラクターとストーリーの創造,(2)SCの性格と世界観,(2)コミュニティへのライブストーリーの提示,(3)SCが課題を振り返り,提案を求めること,(3)コミュニティメンバとのコミュニケーション,SCとユーザとの対話を可能にする3つのステップがある。
我々はLSM GPT-3を用いてSSCのプロトタイプ「David」と「Catherine」を駆動し、オンラインゲームコミュニティ「DE(Alias)」におけるパフォーマンスを評価した。
アンケート調査 (n=15) とインタビュー (n=8) に基づき, ストーリーテリングがコミュニティ設定におけるscsの関与度と信頼度を著しく高めていることが明らかとなった。 We address the integration of storytelling and Large Language Models (LLMs) to develop engaging and believable Social Chatbots (SCs) in community settings. Motivated by the potential of fictional characters to enhance social interactions, we introduce Storytelling Social Chatbots (SSCs) and the concept of story engineering to transform fictional game characters into "live" social entities within player communities. Our story engineering process includes three steps: (1) Character and story creation, defining the SC's personality and worldview, (2) Presenting Live Stories to the Community, allowing the SC to recount challenges and seek suggestions, and (3) Communication with community members, enabling interaction between the SC and users. We employed the LLM GPT-3 to drive our SSC prototypes, "David" and "Catherine," and evaluated their performance in an online gaming community, "DE (Alias)," on Discord. Our mixed-method analysis, based on questionnaires (N=15) and interviews (N=8) with community members, reveals that storytelling significantly enhances the engagement and believability of SCs in community settings. | 翻訳日:2023-09-21 15:21:47 公開日:2023-09-20 |
# ルート探索と最適化における不要点回避のための極の乗算 Multiplying poles to avoid unwanted points in root finding and optimization ( http://arxiv.org/abs/2309.11475v1 ) ライセンス: Link先を確認 | Tuyen Trung Truong | (参考訳) ルート探索と最適化では、閉じた集合 $a$ が存在して、自分の好きな方法で構築された列が a に収束しないケースが多数存在する(ここでは、凸または連結のような$a$ 上の追加のプロパティを仮定しない)。
例えば、もしルートを見つけたいとすると、1つのルート$x^*$(手元が知らないかもしれない事実)のアトラクションの流域の初期点を選ぶと、必ずそのルートに現れる。
この場合、アルゴリズムの次の実行において、このポイント$z^*$を避けるメカニズムを持つ必要がある。
本稿では,距離関数の適切なパワーによってコスト関数を$A$に分割する手法を提案する。
この考えは 1 変数の関数のすべての根を見つける方法に着想を得たものである。
まず、コスト関数の最小値がちょうど 0 である場合にこの方法のヒューリスティックを説明し、最小値が 0 でない場合(正値と負値の両方が許容できる)にどのように進むかを説明する。
この手法は降下特性を持つ反復アルゴリズムに非常に適している。
また, これに基づいて, 正次元成分のアトラクションを回避し, 別の成分に到達するためのアルゴリズムを提案する。
その過程で,現在の文献における既存手法との比較を行った。
新しいアプローチの有用性を説明するために、いくつかの例を挙げる。 In root finding and optimization, there are many cases where there is a closed set $A$ one does not the sequence constructed by one's favourite method will converge to A (here, we do not assume extra properties on $A$ such as being convex or connected). For example, if one wants to find roots, and one chooses initial points in the basin of attraction for 1 root $x^*$ (a fact which one may not know before hand), then one will always end up in that root. In this case, one would like to have a mechanism to avoid this point $z^*$ in the next runs of one's algorithm. In this paper, we propose a new method aiming to achieve this: we divide the cost function by an appropriate power of the distance function to $A$. This idea is inspired by how one would try to find all roots of a function in 1 variable. We first explain the heuristic for this method in the case where the minimum of the cost function is exactly 0, and then explain how to proceed if the minimum is non-zero (allowing both positive and negative values). The method is very suitable for iterative algorithms which have the descent property. We also propose, based on this, an algorithm to escape the basin of attraction of a component of positive dimension to reach another component. Along the way, we compare with main existing relevant methods in the current literature. We provide several examples to illustrate the usefulness of the new approach. | 翻訳日:2023-09-21 15:21:23 公開日:2023-09-20 |
# ルールモデルを用いた多視点ファジィ表現学習 Multi-view Fuzzy Representation Learning with Rules based Model ( http://arxiv.org/abs/2309.11473v1 ) ライセンス: Link先を確認 | Wei Zhang, Zhaohong Deng, Te Zhang, Kup-Sze Choi, Shitong Wang | (参考訳) 教師なしマルチビュー表現学習は、マルチビューデータをマイニングするために広く研究されている。
しかし、いくつかの重要な課題が残っている。
一方、従来の手法では、ビュー間の共通情報とビュー内の特定の情報の両方を含むため、ビュー間の共通表現を学習することが多いため、包括的にマルチビューデータを探索することはできない。
一方で、データ間の非線形関係をマイニングするために、カーネルやニューラルネットワークの手法が多視点表現学習に一般的に用いられる。
しかし、これらの手法は解釈性に乏しい。
そこで本稿では,高木sugeno-kang(tsk)ファジィシステム(mvrl_fs)を用いた多視点ファジィ表現学習手法を提案する。
この方法は2つの側面から多視点表現学習を実現する。
まず、マルチビューデータを高次元ファジィ特徴空間に変換し、ビュー間の共通情報と各ビューの特定情報とを同時に探索する。
次に,l_(2,1)-ノルム回帰に基づく新しい正規化法を提案し,ビュー間の一貫性情報をマイニングし,データの幾何学的構造をラプラシアングラフで保存する。
最後に,提案手法の優位性を検証するため,多数のベンチマークマルチビューデータセットについて広範な実験を行った。 Unsupervised multi-view representation learning has been extensively studied for mining multi-view data. However, some critical challenges remain. On the one hand, the existing methods cannot explore multi-view data comprehensively since they usually learn a common representation between views, given that multi-view data contains both the common information between views and the specific information within each view. On the other hand, to mine the nonlinear relationship between data, kernel or neural network methods are commonly used for multi-view representation learning. However, these methods are lacking in interpretability. To this end, this paper proposes a new multi-view fuzzy representation learning method based on the interpretable Takagi-Sugeno-Kang (TSK) fuzzy system (MVRL_FS). The method realizes multi-view representation learning from two aspects. First, multi-view data are transformed into a high-dimensional fuzzy feature space, while the common information between views and specific information of each view are explored simultaneously. Second, a new regularization method based on L_(2,1)-norm regression is proposed to mine the consistency information between views, while the geometric structure of the data is preserved through the Laplacian graph. Finally, extensive experiments on many benchmark multi-view datasets are conducted to validate the superiority of the proposed method. | 翻訳日:2023-09-21 15:20:56 公開日:2023-09-20 |
# 機械学習による複素力学軌道のモデルフリートラッキング制御 Model-free tracking control of complex dynamical trajectories with machine learning ( http://arxiv.org/abs/2309.11470v1 ) ライセンス: Link先を確認 | Zheng-Meng Zhai, Mohammadamin Moradi, Ling-Wei Kong, Bryan Glaz, Mulugeta Haile, and Ying-Cheng Lai | (参考訳) 非線形追尾制御 動的システムが所望の軌道を追跡することを可能にすることはロボティクスの基本であり、幅広い民間および防衛用途に役立っている。
制御工学では、トラッキング制御の設計にはシステムモデルと方程式の完全な知識が必要である。
本研究では,2腕ロボットマニピュレータを部分的に観測された状態のみを用いて制御するモデルレス機械学習フレームワークを開発した。
確率的入力は、観測された部分状態ベクトルを第一とし、その近未来を第二成分として、後者を前者の将来の状態とみなす訓練に利用される。
テスト(展開)フェーズでは、近未来のコンポーネントは、参照軌道から所望の観測ベクトルに置き換えられる。
様々な周期的およびカオス的信号を用いた制御フレームワークの有効性を実証し,測定ノイズ,外乱,不確実性に対するロバスト性を確立する。 Nonlinear tracking control enabling a dynamical system to track a desired trajectory is fundamental to robotics, serving a wide range of civil and defense applications. In control engineering, designing tracking control requires complete knowledge of the system model and equations. We develop a model-free, machine-learning framework to control a two-arm robotic manipulator using only partially observed states, where the controller is realized by reservoir computing. Stochastic input is exploited for training, which consists of the observed partial state vector as the first and its immediate future as the second component so that the neural machine regards the latter as the future state of the former. In the testing (deployment) phase, the immediate-future component is replaced by the desired observational vector from the reference trajectory. We demonstrate the effectiveness of the control framework using a variety of periodic and chaotic signals, and establish its robustness against measurement noise, disturbances, and uncertainties. | 翻訳日:2023-09-21 15:20:10 公開日:2023-09-20 |
# マルチラベル高木スゲノカンファジィシステム Multi-Label Takagi-Sugeno-Kang Fuzzy System ( http://arxiv.org/abs/2309.11469v1 ) ライセンス: Link先を確認 | Qiongdan Lou, Zhaohong Deng, Zhiyong Xiao, Kup-Sze Choi, Shitong Wang | (参考訳) マルチラベル分類は、与えられたラベルセットからインスタンスの関連ラベルを効果的に識別することができる。
しかし,特徴とラベルの関係のモデル化は分類性能にとって重要である。
そこで本稿では,ML-TSK FS (Multi-Label Takagi-Sugeno-Kang Fuzzy System) と呼ばれるマルチラベル分類手法を提案する。
ML-TSK FSの構造はファジィ規則を用いて特徴とラベルの関係をモデル化する。
ファジィシステムはファジィ推論に基づく多ラベル相関学習と多ラベル回帰損失を統合することで訓練される。
ML-TSK FSは、12のベンチマークマルチラベルデータセットで実験的に評価される。
その結果,ML-TSK FSの性能は,様々な評価指標を用いて既存の手法と競合し,ファジィ推論規則を用いて特徴ラベル関係を効果的にモデル化し,分類性能を向上させることができた。 Multi-label classification can effectively identify the relevant labels of an instance from a given set of labels. However,the modeling of the relationship between the features and the labels is critical to the classification performance. To this end, we propose a new multi-label classification method, called Multi-Label Takagi-Sugeno-Kang Fuzzy System (ML-TSK FS), to improve the classification performance. The structure of ML-TSK FS is designed using fuzzy rules to model the relationship between features and labels. The fuzzy system is trained by integrating fuzzy inference based multi-label correlation learning with multi-label regression loss. The proposed ML-TSK FS is evaluated experimentally on 12 benchmark multi-label datasets. 1 The results show that the performance of ML-TSK FS is competitive with existing methods in terms of various evaluation metrics, indicating that it is able to model the feature-label relationship effectively using fuzzy inference rules and enhances the classification performance. | 翻訳日:2023-09-21 15:19:27 公開日:2023-09-20 |
# 超伝導$LC$共振器における量子熱弁と絡み合い Quantum heat valve and entanglement in superconducting $LC$ resonators ( http://arxiv.org/abs/2309.11467v1 ) ライセンス: Link先を確認 | Yu-qiang Liu, Yi-jia Yang, Ting-ting Ma, and Chang-shui Yu | (参考訳) フレキシブルカプラを用いた量子超伝導回路は、量子熱機械を設計するための強力なプラットフォームである。
本稿では、超伝導量子干渉装置(squid)を用いて磁束を変調して熱弁を実現するため、2つの超伝導共振器の波長可変結合を用いる。
熱弁は広いパラメータ範囲で実現可能であることを示した。
熱電流と量子絡み合いとの間には一貫した関係が見られ、熱バルブにおける絡み合いの主要な役割を示す。
これは量子熱機械の量子特性についての洞察に富んだ理解を提供する。 Quantum superconducting circuit with flexible coupler has been a powerful platform for designing quantum thermal machines. In this letter, we employ the tunable coupling of two superconducting resonators to realize a heat valve by modulating magnetic flux using a superconducting quantum interference device (SQUID). It is shown that a heat valve can be realized in a wide parameter range. We find a consistent relation between the heat current and quantum entanglement, which indicates the dominant role of entanglement on the heat valve. It provides an insightful understanding of quantum features in quantum heat machines. | 翻訳日:2023-09-21 15:19:10 公開日:2023-09-20 |
# SEMPART: イメージセマンティクスの自己教師型マルチレゾリューション分割 SEMPART: Self-supervised Multi-resolution Partitioning of Image Semantics ( http://arxiv.org/abs/2309.10972v1 ) ライセンス: Link先を確認 | Sriram Ravindran, Debraj Basu | (参考訳) ラベル付きデータが不足する場合、画像の突出領域を正確に決定することは困難である。
DINOベースの自己組織化アプローチは、最近、フォアグラウンドオブジェクトの配置のためのパッチワイド機能によってキャプチャされた意味のあるイメージセマンティクスを活用している。
最近の手法では直感的な事前処理も取り入れられ、オブジェクト分割のための教師なしメソッドの価値が示されています。
本稿では,画像のDINOをベースとしたセマンティックグラフ上で,粗さと細かな二分割を共同で推論するSEMPARTを提案する。
さらに、sempartはグラフ駆動正規化を用いて細かな境界詳細を保持し、粗いマスクの意味をファインマスクにうまく蒸留する。
以上の結果から,SEMPARTは後処理を伴わずに高品質なマスクを高速に生成し,粗い枝と細い枝の共最適化による利点が示唆された。 Accurately determining salient regions of an image is challenging when labeled data is scarce. DINO-based self-supervised approaches have recently leveraged meaningful image semantics captured by patch-wise features for locating foreground objects. Recent methods have also incorporated intuitive priors and demonstrated value in unsupervised methods for object partitioning. In this paper, we propose SEMPART, which jointly infers coarse and fine bi-partitions over an image's DINO-based semantic graph. Furthermore, SEMPART preserves fine boundary details using graph-driven regularization and successfully distills the coarse mask semantics into the fine mask. Our salient object detection and single object localization findings suggest that SEMPART produces high-quality masks rapidly without additional post-processing and benefits from co-optimizing the coarse and fine branches. | 翻訳日:2023-09-21 13:28:41 公開日:2023-09-20 |
# fake news br:ブラジル・ポルトガル語の偽ニュース検出プラットフォーム Fake News BR: A Fake News Detection Platform for Brazilian Portuguese ( http://arxiv.org/abs/2309.11052v1 ) ライセンス: Link先を確認 | Luiz Giordani and Gilsiley Dar\'u and Rhenan Queiroz and Vitor Buzinaro and Davi Keglevich Neiva and Daniel Camilo Fuentes Guzm\'an and Marcos Jardel Henriques and Oilson Alberto Gonzatto Junior and Francisco Louzada | (参考訳) 偽ニュースの拡散は、誤情報の拡散や世論の操作の可能性から、近年では大きな関心事となっている。
本稿では,ブラジルポルトガル語における偽ニュースの検出に関する総合的研究を行い,ジャーナリスト型ニュースに着目した。
本稿では,TF-IDFやWord2Vecといった自然言語処理技術を活用し,テキストデータから特徴を抽出する機械学習アプローチを提案する。
本研究では,偽ニュース記事を含むデータセット上で,ロジスティック回帰,サポートベクターマシン,ランダムフォレスト,adaboost,lightgbmなどの分類アルゴリズムの性能を評価する。
提案手法は高い精度とF1スコアを実現し,フェイクニュースの識別の有効性を実証する。
さらに,ユーザフレンドリーなWebプラットフォームであるFAKENEWSBR.COMを開発し,ニュース記事の妥当性の検証を容易にする。
我々のプラットフォームは、ユーザーが偽ニュース記事の可能性を評価できるリアルタイム分析を提供する。
実証分析と比較研究を通じて,偽ニュースの拡散に対する戦いに寄与し,よりインフォームドメディアの消費を促進するためのアプローチの可能性を示す。 The proliferation of fake news has become a significant concern in recent times due to its potential to spread misinformation and manipulate public opinion. In this paper, we present a comprehensive study on the detection of fake news in Brazilian Portuguese, focusing on journalistic-type news. We propose a machine learning-based approach that leverages natural language processing techniques, including TF-IDF and Word2Vec, to extract features from textual data. We evaluate the performance of various classification algorithms, such as logistic regression, support vector machine, random forest, AdaBoost, and LightGBM, on a dataset containing both true and fake news articles. The proposed approach achieves a high level of accuracy and F1-Score, demonstrating its effectiveness in identifying fake news. Additionally, we develop a user-friendly web platform, FAKENEWSBR.COM, to facilitate the verification of news articles' veracity. Our platform provides real-time analysis, allowing users to assess the likelihood of news articles being fake. Through empirical analysis and comparative studies, we demonstrate the potential of our approach to contribute to the fight against the spread of fake news and promote more informed media consumption. | 翻訳日:2023-09-21 13:20:10 公開日:2023-09-20 |
# クラスタ化feedstack:ベイズ情報基準を用いた中間的グローバルモデル Clustered FedStack: Intermediate Global Models with Bayesian Information Criterion ( http://arxiv.org/abs/2309.11044v1 ) ライセンス: Link先を確認 | Thanveer Shaik, Xiaohui Tao, Lin Li, Niall Higgins, Raj Gururajan, Xujuan Zhou, Jianming Yong | (参考訳) フェデレーション学習(federated learning, fl)は、現在、人工知能(ai)の分野でもっともポピュラーなテクノロジの1つです。
しかし、非識別および非独立分散(非IID)や、ローカルクライアント間で不均衡なラベルを持つデータといった課題に直面している。
これらの制限に対処するため、研究コミュニティは、ローカルモデルパラメータ、フェデレーション生成逆学習、フェデレーション表現学習など、さまざまなアプローチを検討してきた。
本研究では、以前に公開されたStacked Federated Learning(FedStack)フレームワークに基づいた、新しいClustered FedStackフレームワークを提案する。
ローカルクライアントはモデル予測と出力層重みをサーバに送信し、堅牢なグローバルモデルを構築します。
このグローバルモデルは、クラスタリングメカニズムを使用して、出力層重みに基づいてローカルクライアントをクラスタ化する。
我々は,K-Means,Agglomerative,Gaussian Mixture Modelsという3つのクラスタリング機構をフレームワークに導入し,その性能を評価する。
クラスタ数を最大化するためにベイズ情報基準(BIC)を用いる。
Clustered FedStackモデルは、クラスタリングメカニズムでベースラインモデルを上回っます。
提案フレームワークの収束度を推定するために,循環学習率を用いる。 Federated Learning (FL) is currently one of the most popular technologies in the field of Artificial Intelligence (AI) due to its collaborative learning and ability to preserve client privacy. However, it faces challenges such as non-identically and non-independently distributed (non-IID) and data with imbalanced labels among local clients. To address these limitations, the research community has explored various approaches such as using local model parameters, federated generative adversarial learning, and federated representation learning. In our study, we propose a novel Clustered FedStack framework based on the previously published Stacked Federated Learning (FedStack) framework. The local clients send their model predictions and output layer weights to a server, which then builds a robust global model. This global model clusters the local clients based on their output layer weights using a clustering mechanism. We adopt three clustering mechanisms, namely K-Means, Agglomerative, and Gaussian Mixture Models, into the framework and evaluate their performance. We use Bayesian Information Criterion (BIC) with the maximum likelihood function to determine the number of clusters. The Clustered FedStack models outperform baseline models with clustering mechanisms. To estimate the convergence of our proposed framework, we use Cyclical learning rates. | 翻訳日:2023-09-21 13:19:50 公開日:2023-09-20 |
# mix-of-task-adapterを用いたマルチタスク学習者のための小型言語モデルの構築 Making Small Language Models Better Multi-task Learners with Mixture-of-Task-Adapters ( http://arxiv.org/abs/2309.11042v1 ) ライセンス: Link先を確認 | Yukang Xie, Chengyu Wang, Junbing Yan, Jiyong Zhou, Feiqi Deng, Jun Huang | (参考訳) 近年,多種多様な自然言語処理(NLP)タスク,特にテキスト生成タスクにおいて,LLM(Large Language Models)は驚くべきゼロショット学習性能を達成している。
しかし、LLMの規模が大きいと、モデルトレーニングとオンラインデプロイメントの計算コストが高くなることが多い。
本稿では,複数のnlpタスクを同時に処理する小型言語モデル(<1bパラメータ)上で,タスクの混合適応型マルチタスク学習器を効果的に構築し,タスク間の共通性と差異を捉え,ドメイン固有アプリケーションをサポートするシステムであるalterを提案する。
具体的には,タスク内知識とタスク間知識を捉えるためのトランスフォーマーアーキテクチャの拡張として,mta(mixed-of-task-adapters)モジュールを提案する。
少ない計算コストでアダプタ間の協調を最適化する二段階学習法が提案されている。
nlpタスクの混合による実験結果から,提案するmtaアーキテクチャと2段階トレーニング手法が良好な性能を得られた。
ALTERに基づいて,様々なドメインを対象としたMTA対応言語モデルも作成している。 Recently, Large Language Models (LLMs) have achieved amazing zero-shot learning performance over a variety of Natural Language Processing (NLP) tasks, especially for text generative tasks. Yet, the large size of LLMs often leads to the high computational cost of model training and online deployment. In our work, we present ALTER, a system that effectively builds the multi-tAsk Learners with mixTure-of-task-adaptERs upon small language models (with <1B parameters) to address multiple NLP tasks simultaneously, capturing the commonalities and differences between tasks, in order to support domain-specific applications. Specifically, in ALTER, we propose the Mixture-of-Task-Adapters (MTA) module as an extension to the transformer architecture for the underlying model to capture the intra-task and inter-task knowledge. A two-stage training method is further proposed to optimize the collaboration between adapters at a small computational cost. Experimental results over a mixture of NLP tasks show that our proposed MTA architecture and the two-stage training method achieve good performance. Based on ALTER, we have also produced MTA-equipped language models for various domains. | 翻訳日:2023-09-21 13:19:27 公開日:2023-09-20 |
# 知的輸送システムにおける連合学習:最近の応用と課題 Federated Learning in Intelligent Transportation Systems: Recent Applications and Open Problems ( http://arxiv.org/abs/2309.11039v1 ) ライセンス: Link先を確認 | Shiying Zhang, Jun Li, Long Shi, Ming Ding, Dinh C. Nguyen, Wuzheng Tan, Jian Weng, Zhu Han | (参考訳) インテリジェントトランスポートシステム(ITS)は、通信技術、センサー技術、IoT(Internet of Things)の急速な発展によって実現されている。
それにもかかわらず、車両ネットワークの動的な特性から、車両の挙動をタイムリーかつ正確に決定することはかなり困難である。
さらに、モバイル無線通信の存在下では、車両情報のプライバシーとセキュリティが常に危険にさらされている。
この文脈では、動的車両環境における様々なアプリケーションに対して、新しいパラダイムが緊急に必要となる。
分散機械学習技術として、フェデレーション・ラーニング(FL)はその優れたプライバシー保護特性と容易なスケーラビリティのために広く注目を集めている。
FL for ITSの最近の展開を包括的に調査する。
具体的には,まずITSにおける課題について検討し,様々な観点からFLの適用動機を明らかにする。
その後、さまざまなシナリオにわたる既存のFLのデプロイメントをレビューし、オブジェクト認識、トラフィック管理、サービス提供シナリオにおける潜在的な問題について議論する。
さらに、flの展開によってもたらされる新たな課題と、不均一なデータ分散、限られたストレージとコンピューティング能力、潜在的なプライバシとセキュリティに関する懸念など、flだけでは対処できない固有の制限について、さらなる分析を行う。
そして、これらの課題を軽減するのに役立つ既存のコラボレーション技術を調べます。
最後に,ITSにおけるFL適用の課題について考察し,今後の研究方向性について述べる。 Intelligent transportation systems (ITSs) have been fueled by the rapid development of communication technologies, sensor technologies, and the Internet of Things (IoT). Nonetheless, due to the dynamic characteristics of the vehicle networks, it is rather challenging to make timely and accurate decisions of vehicle behaviors. Moreover, in the presence of mobile wireless communications, the privacy and security of vehicle information are at constant risk. In this context, a new paradigm is urgently needed for various applications in dynamic vehicle environments. As a distributed machine learning technology, federated learning (FL) has received extensive attention due to its outstanding privacy protection properties and easy scalability. We conduct a comprehensive survey of the latest developments in FL for ITS. Specifically, we initially research the prevalent challenges in ITS and elucidate the motivations for applying FL from various perspectives. Subsequently, we review existing deployments of FL in ITS across various scenarios, and discuss specific potential issues in object recognition, traffic management, and service providing scenarios. Furthermore, we conduct a further analysis of the new challenges introduced by FL deployment and the inherent limitations that FL alone cannot fully address, including uneven data distribution, limited storage and computing power, and potential privacy and security concerns. We then examine the existing collaborative technologies that can help mitigate these challenges. Lastly, we discuss the open challenges that remain to be addressed in applying FL in ITS and propose several future research directions. | 翻訳日:2023-09-21 13:19:05 公開日:2023-09-20 |
# modelgif: モデル機能距離のための勾配場 ModelGiF: Gradient Fields for Model Functional Distance ( http://arxiv.org/abs/2309.11013v1 ) ライセンス: Link先を確認 | Jie Song, Zhengqi Xu, Sai Wu, Gang Chen, Mingli Song | (参考訳) 過去10年間、ディープラーニングの成功と、さまざまな目的のためにモデル機能距離の定量化を必要とする、公開されたトレーニングモデルの増加を目の当たりにしてきた。
しかしながら、モデル関数距離の定量化は、内部作業の不透明さと、アーキテクチャやタスクの多様性のため、常に困難である。
物理学における「場」の概念に着想を得て,不均質な事前学習モデルから均質表現を抽出するために,モデル勾配場(モデルgif)を導入した。
ModelGiFの主な前提は、各事前訓練されたディープモデルが入力空間上のModelGiFを一意に決定することである。
したがって、モデル間の距離はモデルGiF間の類似性によって測定できる。
提案するモデルgifの有効性を,タスク関連度推定,知的財産保護,モデルアンラーニング検証など,一連のテストベッドを用いて検証する。
実験の結果, 提案するモデルgifの汎用性が実証され, 最先端のコンペティタに対して優れた性能が得られた。
コードはhttps://github.com/zju-vipa/modelgifで入手できる。 The last decade has witnessed the success of deep learning and the surge of publicly released trained models, which necessitates the quantification of the model functional distance for various purposes. However, quantifying the model functional distance is always challenging due to the opacity in inner workings and the heterogeneity in architectures or tasks. Inspired by the concept of "field" in physics, in this work we introduce Model Gradient Field (abbr. ModelGiF) to extract homogeneous representations from the heterogeneous pre-trained models. Our main assumption underlying ModelGiF is that each pre-trained deep model uniquely determines a ModelGiF over the input space. The distance between models can thus be measured by the similarity between their ModelGiFs. We validate the effectiveness of the proposed ModelGiF with a suite of testbeds, including task relatedness estimation, intellectual property protection, and model unlearning verification. Experimental results demonstrate the versatility of the proposed ModelGiF on these tasks, with significantly superiority performance to state-of-the-art competitors. Codes are available at https://github.com/zju-vipa/modelgif. | 翻訳日:2023-09-21 13:18:44 公開日:2023-09-20 |
# バイオインスパイアされたニューラルネットワークを現実世界で見る「Spking NeRF」 Spiking NeRF: Making Bio-inspired Neural Networks See through the Real World ( http://arxiv.org/abs/2309.10987v1 ) ライセンス: Link先を確認 | Xingting Yao, Qinghao Hu, Tielong Liu, Zitao Mo, Zeyu Zhu, Zhengyang Zhuge, Jian Cheng | (参考訳) スパイキングニューロンネットワーク(snn)は、その有望なエネルギー効率を活用し、その潜在能力を生物学的に有望な知性として活用するために、多くのタスクに取り組んできた。
一方、neural radiance fields(nerf)は、大量のエネルギー消費を伴う高品質の3dシーンをレンダリングし、バイオインスパイアされたアプローチで省エネソリューションに取り組んだ作品はほとんどない。
本稿では,SNNの時間次元と放射光を一致させるスパイキングNeRF(SpikingNeRF)を提案する。
したがって、計算はスパイクベースで乗算のない方法に変わり、エネルギー消費を減少させる。
SpikingNeRFでは、光線上の各サンプリング点が特定の時間ステップに一致し、ボクセルグリッドも維持されるハイブリッドな方法で表現される。
ボクセルグリッドに基づいて、よりよいトレーニングと推論のためにマスキングするかどうかのサンプルポイントが決定される。
しかし、この操作には不規則な時間的長さも伴う。
ハードウェアフレンドリーな計算のために,マスクされたサンプルを用いて時間的長さ,すなわち正時テンソルを維持するためのTCP戦略を提案する。
様々なデータセットに対する大規模な実験により、我々の手法は平均で76.74 %のエネルギー消費を削減し、ANNベースラインと同等の合成品質を得ることを示した。 Spiking neuron networks (SNNs) have been thriving on numerous tasks to leverage their promising energy efficiency and exploit their potentialities as biologically plausible intelligence. Meanwhile, the Neural Radiance Fields (NeRF) render high-quality 3D scenes with massive energy consumption, and few works delve into the energy-saving solution with a bio-inspired approach. In this paper, we propose spiking NeRF (SpikingNeRF), which aligns the radiance ray with the temporal dimension of SNN, to naturally accommodate the SNN to the reconstruction of Radiance Fields. Thus, the computation turns into a spike-based, multiplication-free manner, reducing the energy consumption. In SpikingNeRF, each sampled point on the ray is matched onto a particular time step, and represented in a hybrid manner where the voxel grids are maintained as well. Based on the voxel grids, sampled points are determined whether to be masked for better training and inference. However, this operation also incurs irregular temporal length. We propose the temporal condensing-and-padding (TCP) strategy to tackle the masked samples to maintain regular temporal length, i.e., regular tensors, for hardware-friendly computation. Extensive experiments on a variety of datasets demonstrate that our method reduces the $76.74\%$ energy consumption on average and obtains comparable synthesis quality with the ANN baseline. | 翻訳日:2023-09-21 13:18:24 公開日:2023-09-20 |
# マルチエージェント深層強化学習によるAI駆動型患者モニタリング AI-Driven Patient Monitoring with Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2309.10980v1 ) ライセンス: Link先を確認 | Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Jianming Yong, and Hong-Ning Dai | (参考訳) 効果的な患者モニタリングは、タイムリーな介入と医療結果の改善に不可欠である。
従来の監視システムは複雑でダイナミックな環境を扱うのに苦労し、バイタルサインが変動し、重要な状況を特定するのが遅れる。
この課題に対処するために,多エージェント深部強化学習(DRL)を用いた新しいAI駆動型患者監視フレームワークを提案する。
アプローチでは複数の学習エージェントをデプロイし,心拍数,呼吸量,温度などの生理的特徴をモニタする。
これらのエージェントは、一般的な医療監視環境と相互作用し、患者の行動パターンを学習し、緊急度に基づいて対応する救急チーム(met)に警告するインフォームド判断を行う。
本研究では, PPG-DaLiA と WESAD の2つのデータセットを用いた実世界の生理・運動データを用いたマルチエージェント DRL フレームワークの性能評価を行った。
結果を、Q-Learning、PPO、Actor-Critic、Double DQN、DDPG、WISEMLやCA-MAQLといった監視フレームワークなど、いくつかのベースラインモデルと比較する。
実験の結果,DRL法は他のベースラインモデルよりも優れており,患者のバイタルサインのより正確なモニタリングが可能であることがわかった。
さらに,各エージェントの学習プロセスを微調整するためにハイパーパラメータ最適化を行う。
ハイパーパラメータを最適化することで、学習率と割引率を高め、患者の健康状態を監視するエージェント全体のパフォーマンスを向上させる。
当社のAI駆動型患者監視システムは、複雑で不確実な環境を処理し、さまざまな患者の状況に適応し、外部の監視なしにリアルタイムな意思決定を行う能力など、従来の方法よりもいくつかの利点を提供している。 Effective patient monitoring is vital for timely interventions and improved healthcare outcomes. Traditional monitoring systems often struggle to handle complex, dynamic environments with fluctuating vital signs, leading to delays in identifying critical conditions. To address this challenge, we propose a novel AI-driven patient monitoring framework using multi-agent deep reinforcement learning (DRL). Our approach deploys multiple learning agents, each dedicated to monitoring a specific physiological feature, such as heart rate, respiration, and temperature. These agents interact with a generic healthcare monitoring environment, learn the patients' behavior patterns, and make informed decisions to alert the corresponding Medical Emergency Teams (METs) based on the level of emergency estimated. In this study, we evaluate the performance of the proposed multi-agent DRL framework using real-world physiological and motion data from two datasets: PPG-DaLiA and WESAD. We compare the results with several baseline models, including Q-Learning, PPO, Actor-Critic, Double DQN, and DDPG, as well as monitoring frameworks like WISEML and CA-MAQL. Our experiments demonstrate that the proposed DRL approach outperforms all other baseline models, achieving more accurate monitoring of patient's vital signs. Furthermore, we conduct hyperparameter optimization to fine-tune the learning process of each agent. By optimizing hyperparameters, we enhance the learning rate and discount factor, thereby improving the agents' overall performance in monitoring patient health status. Our AI-driven patient monitoring system offers several advantages over traditional methods, including the ability to handle complex and uncertain environments, adapt to varying patient conditions, and make real-time decisions without external supervision. | 翻訳日:2023-09-21 13:17:58 公開日:2023-09-20 |
# PAGER: 深部回帰モデルの故障解析のためのフレームワーク PAGER: A Framework for Failure Analysis of Deep Regression Models ( http://arxiv.org/abs/2309.10977v1 ) ライセンス: Link先を確認 | Jayaraman J. Thiagarajan, Vivek Narayanaswamy, Puja Trivedi, Rushil Anirudh | (参考訳) aiモデルの安全なデプロイには、コストのかかるエラーを防ぐために、潜在的な予測失敗を積極的に検出する必要がある。
分類問題における障害検出は注目されているが、回帰タスクにおける障害モードの特徴付けはより複雑であり、調査は少ない。
既存のアプローチでは、モデルリスクを特徴付けるトレーニング分布と認識的不確実性や特徴的不整合に依存する。
しかし, 様々な誤りの原因から, 不確実性は必要であるが, 失敗を正確に特徴づけるには不十分であることを示す。
本稿では,深い回帰モデルにおける故障を体系的に検出し特徴付けるフレームワークであるpager(principed analysis of generalization error in regressor)を提案する。
最近提案された深層モデルへのアンカーというアイデアに基づいて、pagerは認識の不確実性と、異なるリスクレジームにサンプルを整理するための新しい補完的非コンフォーマルスコアの両方を統一し、モデルエラーの包括的な分析を提供する。
さらに,回帰タスクにおける故障検知器を評価するための新しい指標を提案する。
合成および実世界のベンチマークにおけるPAGERの有効性を示す。
この結果から,PAGERが正確な一般化領域を特定し,配布外およびサポート外シナリオにおける障害事例を検出する能力を強調した。 Safe deployment of AI models requires proactive detection of potential prediction failures to prevent costly errors. While failure detection in classification problems has received significant attention, characterizing failure modes in regression tasks is more complicated and less explored. Existing approaches rely on epistemic uncertainties or feature inconsistency with the training distribution to characterize model risk. However, we show that uncertainties are necessary but insufficient to accurately characterize failure, owing to the various sources of error. In this paper, we propose PAGER (Principled Analysis of Generalization Errors in Regressors), a framework to systematically detect and characterize failures in deep regression models. Built upon the recently proposed idea of anchoring in deep models, PAGER unifies both epistemic uncertainties and novel, complementary non-conformity scores to organize samples into different risk regimes, thereby providing a comprehensive analysis of model errors. Additionally, we introduce novel metrics for evaluating failure detectors in regression tasks. We demonstrate the effectiveness of PAGER on synthetic and real-world benchmarks. Our results highlight the capability of PAGER to identify regions of accurate generalization and detect failure cases in out-of-distribution and out-of-support scenarios. | 翻訳日:2023-09-21 13:17:29 公開日:2023-09-20 |
# spfq:確率的アルゴリズムとニューラルネットワーク量子化のための誤差解析 SPFQ: A Stochastic Algorithm and Its Error Analysis for Neural Network Quantization ( http://arxiv.org/abs/2309.10975v1 ) ライセンス: Link先を確認 | Jinjie Zhang, Rayan Saab | (参考訳) 量子化(quantization)は、過パラメータニューラルネットワークの冗長性を効果的に低減する、広く使用される圧縮手法である。
しかしながら、ディープニューラルネットワークの既存の量子化技術は、非凸損失関数と非線形活性化が存在するため、包括的な誤り解析を欠くことが多い。
本稿では,完全に訓練されたニューラルネットワークの重みを定量化する高速確率アルゴリズムを提案する。
提案手法は,確率的量子化器と組み合わせて,欲求経路追従機構を利用する。
その計算複雑性は、ネットワーク内の重み数と線形にしかスケールしないため、大規模ネットワークの効率的な量子化が可能となる。
重要なことに、我々は初めて、重みと入力データに対する最小の仮定と無限のアルファベット条件の下で、フルネットワークのエラー境界を確立する。
この結果の応用として,ガウス重みを持つ多層ネットワークを量子化すると,その相対平方量子化誤差が過剰パラメータ化の度合いが増加するにつれて線形減衰を示すことを証明した。
さらに、単位重量あたりのわずか$\log\log n$ bit の順序を用いて、無限アルファベットの場合と同等の誤差境界を達成できることを証明し、ここでは$n$ が層内のニューロンの最大数を表す。 Quantization is a widely used compression method that effectively reduces redundancies in over-parameterized neural networks. However, existing quantization techniques for deep neural networks often lack a comprehensive error analysis due to the presence of non-convex loss functions and nonlinear activations. In this paper, we propose a fast stochastic algorithm for quantizing the weights of fully trained neural networks. Our approach leverages a greedy path-following mechanism in combination with a stochastic quantizer. Its computational complexity scales only linearly with the number of weights in the network, thereby enabling the efficient quantization of large networks. Importantly, we establish, for the first time, full-network error bounds, under an infinite alphabet condition and minimal assumptions on the weights and input data. As an application of this result, we prove that when quantizing a multi-layer network having Gaussian weights, the relative square quantization error exhibits a linear decay as the degree of over-parametrization increases. Furthermore, we demonstrate that it is possible to achieve error bounds equivalent to those obtained in the infinite alphabet case, using on the order of a mere $\log\log N$ bits per weight, where $N$ represents the largest number of neurons in a layer. | 翻訳日:2023-09-21 13:17:04 公開日:2023-09-20 |
# コミュニティアセンブリグラフによる語彙選択の到達可能性解析 Reachability Analysis for Lexicase Selection via Community Assembly Graphs ( http://arxiv.org/abs/2309.10973v1 ) ライセンス: Link先を確認 | Emily Dolson and Alexander Lalejini | (参考訳) フィトネスランドスケープは歴史的に進化的アルゴリズムによって探索された探索空間を分析する強力なツールである。
特にそれらは、与えられた出発点から最適解がどの程度容易に到達できるかを理解するのに役立ちます。
しかし、単純なフィットネスランドスケープは、選択結果が人口の現在の内容(複雑な生態力学を持つ選択スキーム)に大きく依存する語彙選択のような選択スキームによって見られる検索空間を分析するのに不適切である。
本稿では,この問題を解決するために,エコロジーからツールを借りることを提案する。
完全な情報を持つNKランドスケープ上で,このアプローチの簡単な概念実証を行う。
そして、このアプローチが複雑な遺伝的プログラミング問題にうまく適用できることを実証する。
このツールの最良の使用方法を理解するには、さらなる研究が必要ですが、ツールキットに価値ある追加であり、これまで不可能だった分析が容易になると考えています。 Fitness landscapes have historically been a powerful tool for analyzing the search space explored by evolutionary algorithms. In particular, they facilitate understanding how easily reachable an optimal solution is from a given starting point. However, simple fitness landscapes are inappropriate for analyzing the search space seen by selection schemes like lexicase selection in which the outcome of selection depends heavily on the current contents of the population (i.e. selection schemes with complex ecological dynamics). Here, we propose borrowing a tool from ecology to solve this problem: community assembly graphs. We demonstrate a simple proof-of-concept for this approach on an NK Landscape where we have perfect information. We then demonstrate that this approach can be successfully applied to a complex genetic programming problem. While further research is necessary to understand how to best use this tool, we believe it will be a valuable addition to our toolkit and facilitate analyses that were previously impossible. | 翻訳日:2023-09-21 13:16:44 公開日:2023-09-20 |
# ano-sups: 疑似パッチ同定による製造製品の多サイズ異常検出 Ano-SuPs: Multi-size anomaly detection for manufactured products by identifying suspected patches ( http://arxiv.org/abs/2309.11120v1 ) ライセンス: Link先を確認 | Hao Xu, Juan Du and Andi Wang | (参考訳) 画像ベースのシステムは、製造状況の豊富な情報提供能力、実装コストの低減、高い取得率によって人気を博している。
しかし、画像背景と様々な異常パターンの複雑さは、モデリング要件に不適切な既存の行列分解法に新たな課題をもたらす。
さらに、異常の不確実性は異常汚染の原因となり、設計されたモデルと方法が外乱の影響を受けやすい。
そこで本研究では, 疑似パッチ(ano-sups)を同定して異常を検出する2段階戦略異常検出法を提案する。
具体的には、入力画像を2回再構成して異常パッチを検出することを提案する。第1ステップは、疑わしいパッチを除去して正常パッチの集合を取得することであり、第2ステップは、それらの正常パッチを使用して異常パッチの識別を洗練することである。
本手法の有効性を示すため,シミュレーション実験および事例研究を通じて提案手法を体系的に評価した。
モデルの性能と効率に影響を及ぼす重要なパラメータと設計ステップをさらに特定した。 Image-based systems have gained popularity owing to their capacity to provide rich manufacturing status information, low implementation costs and high acquisition rates. However, the complexity of the image background and various anomaly patterns pose new challenges to existing matrix decomposition methods, which are inadequate for modeling requirements. Moreover, the uncertainty of the anomaly can cause anomaly contamination problems, making the designed model and method highly susceptible to external disturbances. To address these challenges, we propose a two-stage strategy anomaly detection method that detects anomalies by identifying suspected patches (Ano-SuPs). Specifically, we propose to detect the patches with anomalies by reconstructing the input image twice: the first step is to obtain a set of normal patches by removing those suspected patches, and the second step is to use those normal patches to refine the identification of the patches with anomalies. To demonstrate its effectiveness, we evaluate the proposed method systematically through simulation experiments and case studies. We further identified the key parameters and designed steps that impact the model's performance and efficiency. | 翻訳日:2023-09-21 13:09:04 公開日:2023-09-20 |
# AttentionMix:BERTアテンション機構に依存するデータ拡張手法 AttentionMix: Data augmentation method that relies on BERT attention mechanism ( http://arxiv.org/abs/2309.11104v1 ) ライセンス: Link先を確認 | Dominik Lewy, Jacek Ma\'ndziuk | (参考訳) mixup法はコンピュータビジョンにおいて強力なデータ拡張技術であることが証明されており、多くの後継者が画像混合を誘導的に行う。
興味深い研究の方向性の1つは、Mixupのアイデアを他のドメイン、例えば自然言語処理(NLP)に転送することである。
Mixupをテキストデータに適用するメソッドはいくつか存在するが、新しい改善されたアプローチの余地はまだ残っている。
本研究では,注意に基づく情報に基づく新しい混合手法である attentionmix を紹介する。
この論文はバート注意機構に焦点を当てているが、提案手法は一般にどの注意に基づくモデルにも適用できる。
AttentionMixは3つの標準感情分類データセットで評価され、3つのケースでMixupメカニズムとvanilla BERTメソッドを使用する2つのベンチマークアプローチより優れている。
その結果,NLP領域におけるデータ拡張に注目に基づく情報を有効に活用できることが確認された。 The Mixup method has proven to be a powerful data augmentation technique in Computer Vision, with many successors that perform image mixing in a guided manner. One of the interesting research directions is transferring the underlying Mixup idea to other domains, e.g. Natural Language Processing (NLP). Even though there already exist several methods that apply Mixup to textual data, there is still room for new, improved approaches. In this work, we introduce AttentionMix, a novel mixing method that relies on attention-based information. While the paper focuses on the BERT attention mechanism, the proposed approach can be applied to generally any attention-based model. AttentionMix is evaluated on 3 standard sentiment classification datasets and in all three cases outperforms two benchmark approaches that utilize Mixup mechanism, as well as the vanilla BERT method. The results confirm that the attention-based information can be effectively used for data augmentation in the NLP domain. | 翻訳日:2023-09-21 13:08:45 公開日:2023-09-20 |
# 医療意思決定のためのニューラルネットワークに基づく新しい解釈型ルールモデル A New Interpretable Neural Network-Based Rule Model for Healthcare Decision Making ( http://arxiv.org/abs/2309.11101v1 ) ライセンス: Link先を確認 | Adrien Benamira, Tristan Guerand, Thomas Peyrin | (参考訳) 医療アプリケーションでは、機械学習やディープラーニングモデルの意思決定方法を理解することが重要です。
本研究では,ルールベースモデルのグローバルかつ正確な解釈可能性特性と,ディープニューラルネットワークの性能を組み合わせたニューラルネットワークフレームワークである$\textit{Truth Table Rule}$(TT-rules)を導入する。
TT-rulesは、当初は正式な検証のために開発されたディープニューラルネットワークのファミリである$\textit{Truth Table nets}$ (TTnet)上に構築されている。
訓練されたttnetモデル(グローバル解釈可能性)から必要かつ十分なルール$\mathcal{r}$を抽出し、ttnet (exact interpretability) と同じ出力を得ることにより、tt-rulesはニューラルネットワークをルールベースのモデルに効果的に変換する。
このルールベースのモデルは、小規模から大規模の表型データセットのバイナリ分類、マルチラベル分類、回帰タスクをサポートする。
フレームワークの概要を説明した後、医療アプリケーションにおけるtt-rulesのパフォーマンスを評価し、最先端のルールベースの手法と比較する。
その結果,TT-rules は他の解釈可能な手法と比較して同等か高い性能を達成できた。
特にTT-rulesは、20K以上の特徴を持つ2つの実際のDNAデータセットを含む、大きな表形式のデータセットを適合させることのできる、最初の正確なルールベースのモデルを示している。 In healthcare applications, understanding how machine/deep learning models make decisions is crucial. In this study, we introduce a neural network framework, $\textit{Truth Table rules}$ (TT-rules), that combines the global and exact interpretability properties of rule-based models with the high performance of deep neural networks. TT-rules is built upon $\textit{Truth Table nets}$ (TTnet), a family of deep neural networks initially developed for formal verification. By extracting the necessary and sufficient rules $\mathcal{R}$ from the trained TTnet model (global interpretability) to yield the same output as the TTnet (exact interpretability), TT-rules effectively transforms the neural network into a rule-based model. This rule-based model supports binary classification, multi-label classification, and regression tasks for small to large tabular datasets. After outlining the framework, we evaluate TT-rules' performance on healthcare applications and compare it to state-of-the-art rule-based methods. Our results demonstrate that TT-rules achieves equal or higher performance compared to other interpretable methods. Notably, TT-rules presents the first accurate rule-based model capable of fitting large tabular datasets, including two real-life DNA datasets with over 20K features. | 翻訳日:2023-09-21 13:08:28 公開日:2023-09-20 |
# K-pop Lyric Translation:データセット,解析,ニューラルモデリング K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling ( http://arxiv.org/abs/2309.11093v1 ) ライセンス: Link先を確認 | Haven Kim, Jongmin Jung, Dasaem Jeong, and Juhan Nam | (参考訳) 1世紀以上にわたって研究されてきたライリック翻訳は、現在計算言語学の研究者を惹きつけている。
我々は以前の研究で2つの限界を特定した。
第一に、歌詞翻訳の研究は西洋のジャンルや言語に重点を置いており、その人気にもかかわらずK-popを中心にした以前の研究は行われていない。
第二に、歌詞翻訳の分野は、公開データセットの欠如に悩まされており、私たちの知る限り、そのようなデータセットは存在しない。
歌詞翻訳研究において、ジャンルや言語の範囲を広げるために、歌唱可能な歌詞翻訳データセットを導入し、その約89\%がk-popの歌詞で構成されている。
このデータセットは韓国語と英語の歌詞をラインバイラインとセクションバイセクションに合わせる。
我々はこのデータセットを利用して、K-pop歌詞翻訳の特徴を明らかにし、他の広く研究されているジャンルと区別し、ニューラル・歌詞翻訳モデルを構築した。 Lyric translation, a field studied for over a century, is now attracting computational linguistics researchers. We identified two limitations in previous studies. Firstly, lyric translation studies have predominantly focused on Western genres and languages, with no previous study centering on K-pop despite its popularity. Second, the field of lyric translation suffers from a lack of publicly available datasets; to the best of our knowledge, no such dataset exists. To broaden the scope of genres and languages in lyric translation studies, we introduce a novel singable lyric translation dataset, approximately 89\% of which consists of K-pop song lyrics. This dataset aligns Korean and English lyrics line-by-line and section-by-section. We leveraged this dataset to unveil unique characteristics of K-pop lyric translation, distinguishing it from other extensively studied genres, and to construct a neural lyric translation model, thereby underscoring the importance of a dedicated dataset for singable lyric translations. | 翻訳日:2023-09-21 13:08:01 公開日:2023-09-20 |
# ドロップアウト不確かさと軌道サンプリングの統合による実用確率モデルに基づく深層強化学習 Practical Probabilistic Model-based Deep Reinforcement Learning by Integrating Dropout Uncertainty and Trajectory Sampling ( http://arxiv.org/abs/2309.11089v1 ) ライセンス: Link先を確認 | Wenjun Huang, Yunduan Cui, Huiyun Li, Xinyu Wu | (参考訳) 本稿では,ニューラルネットワークを用いた現在の確率モデルベース強化学習(mbrl)の予測安定性,予測精度,制御能力について述べる。
モンテカルロ・ドロップアウトと軌道サンプリングを組み合わせたシステム不確実性を安定的に予測する手法として,DPETSを用いた新しい手法を提案する。
その損失関数は、確率モデルのより正確な予測のためにニューラルネットワークの適合誤差を補正するように設計されている。
その政策における状態伝播は、優れた制御能力のためにアレタリック不確実性をフィルタリングするために拡張される。
複数のmujocoベンチマーク制御タスクと1つの実用的なロボットアーム操作タスクによって評価され、dpetは平均リターンと収束速度の両方で関連するmbrlアプローチを上回り、サンプル効率の高い有名なモデルフリーベースラインよりも優れたパフォーマンスを達成している。
DPETSのオープンソースコードはhttps://github.com/mrjun123/DPETSで公開されている。 This paper addresses the prediction stability, prediction accuracy and control capability of the current probabilistic model-based reinforcement learning (MBRL) built on neural networks. A novel approach dropout-based probabilistic ensembles with trajectory sampling (DPETS) is proposed where the system uncertainty is stably predicted by combining the Monte-Carlo dropout and trajectory sampling in one framework. Its loss function is designed to correct the fitting error of neural networks for more accurate prediction of probabilistic models. The state propagation in its policy is extended to filter the aleatoric uncertainty for superior control capability. Evaluated by several Mujoco benchmark control tasks under additional disturbances and one practical robot arm manipulation task, DPETS outperforms related MBRL approaches in both average return and convergence velocity while achieving superior performance than well-known model-free baselines with significant sample efficiency. The open source code of DPETS is available at https://github.com/mrjun123/DPETS. | 翻訳日:2023-09-21 13:07:44 公開日:2023-09-20 |
# 3重部分マージンコントラスト学習を用いた2重モーダル注意強調テキストビデオ検索 Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning ( http://arxiv.org/abs/2309.11082v1 ) ライセンス: Link先を確認 | Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi | (参考訳) 近年、ウェブビデオの爆発により、ビデオフィルタリング、レコメンデーション、検索にテキストビデオ検索が不可欠になり、人気が高まっている。
テキストビデオ検索は、関係のないものよりも関連のあるテキストやビデオをランク付けすることを目的としている。
このタスクの中核は、テキストとビデオの相互類似性を正確に測定することである。
近年,コントラスト学習はテキスト・ビデオ検索に有望な結果をもたらしており,そのほとんどがテキスト・ビデオ表現を学習するためのポジティブペアとネガティブペアの構築に焦点が当てられている。
それでも彼らは強負対に十分な注意を払わず、異なるレベルの意味的類似性をモデル化する能力に欠ける。
この2つの問題に対処するため,本論文では2つの新しい手法を用いてコントラスト学習を改善する。
まず、頑健な識別力のためのハードサンプルを利用するために、テキストと視覚の手がかりからハードネガティブペアをマイニングするための新しいデュアルモーダルアテンション拡張モジュール(DMAE)を提案する。
さらにNegative-Aware InfoNCE(NegNCE)の損失を導入することで、これらのハードネガティブをすべて適応的に識別し、トレーニング損失に対する彼らの影響を明確にすることが可能になる。
第二に、三重項サンプルは、ペアのサンプルに比べてきめ細かいセマンティックな類似性をモデル化できると主張している。
これにより、マッチングされたテキスト-ビデオ対に対して、微細な硬さの負を自動的に生成することにより、部分順序三重項サンプルを構築するための新しい三重項部分整合性学習(TPM-CL)モジュールを提案する。
提案するtpm-clは,微妙な意味差をモデル化するために,クロスモーダルインタラクションを用いた適応トークンマスキング戦略を設計する。
大規模な実験により,提案手法は,MSR-VTT,MSVD,DiDeMo,ActivityNetなど,広く使用されている4つのテキストビデオ検索データセットにおいて,既存の手法よりも優れていることが示された。 In recent years, the explosion of web videos makes text-video retrieval increasingly essential and popular for video filtering, recommendation, and search. Text-video retrieval aims to rank relevant text/video higher than irrelevant ones. The core of this task is to precisely measure the cross-modal similarity between texts and videos. Recently, contrastive learning methods have shown promising results for text-video retrieval, most of which focus on the construction of positive and negative pairs to learn text and video representations. Nevertheless, they do not pay enough attention to hard negative pairs and lack the ability to model different levels of semantic similarity. To address these two issues, this paper improves contrastive learning using two novel techniques. First, to exploit hard examples for robust discriminative power, we propose a novel Dual-Modal Attention-Enhanced Module (DMAE) to mine hard negative pairs from textual and visual clues. By further introducing a Negative-aware InfoNCE (NegNCE) loss, we are able to adaptively identify all these hard negatives and explicitly highlight their impacts in the training loss. Second, our work argues that triplet samples can better model fine-grained semantic similarity compared to pairwise samples. We thereby present a new Triplet Partial Margin Contrastive Learning (TPM-CL) module to construct partial order triplet samples by automatically generating fine-grained hard negatives for matched text-video pairs. The proposed TPM-CL designs an adaptive token masking strategy with cross-modal interaction to model subtle semantic differences. Extensive experiments demonstrate that the proposed approach outperforms existing methods on four widely-used text-video retrieval datasets, including MSR-VTT, MSVD, DiDeMo and ActivityNet. | 翻訳日:2023-09-21 13:07:27 公開日:2023-09-20 |
# ラベル効率の良い視覚バグ検出のための弱視 Weak Supervision for Label Efficient Visual Bug Detection ( http://arxiv.org/abs/2309.11077v1 ) ライセンス: Link先を確認 | Farrukh Rahman | (参考訳) ビデオゲームが拡張的で詳細な世界へと進化するにつれ、視覚的品質は不可欠だがますます困難になっている。
リソースによって制限される従来のテスト方法は、潜在的なバグの多さに対処するのに困難に直面します。
機械学習はスケーラブルなソリューションを提供するが、大きなラベル付きデータセットに依存することは制約である。
そこで本研究では,未ラベルゲームプレイとドメイン特化拡張を利用して,事前トレーニングやマルチタスク設定で使用するデータセットと自己教師付き目標を生成し,下流の視覚バグ検出を行う新しい手法を提案する。
提案手法では,テキストと幾何学的プロンプトに基づく非教師なしクラスタリングおよび/または対話的アプローチを取り入れて,作業対象のデータセットを縮小し,自律的および対話的両方の弱スーパービジョンを促進する。
広義のジャイアントマップゲーム世界におけるfppc(first-person player clipping/collision bugs)について,我々のアプローチは極めて効果的であり,実用的かつ極めて低評価な低データレジーム(0.336$\rightarrow$ 0.550 f1スコア)において,強力な教師付きベースラインよりも改善されていることを実証した。
5つのラベルの付いた「良い」例(つまり0のバグ)だけで、我々の自己監督目的だけで、低ラベルの教師付き設定を上回る十分なシグナルを捉えます。
大きな事前訓練された視覚モデルに基づいて、我々のアプローチは様々な視覚的バグに適応できる。
その結果,視覚的なバグ以外にも,ビデオゲーム内のより広い画像やビデオタスクのためのデータセットのキュレーションに応用できる可能性が示唆された。 As video games evolve into expansive, detailed worlds, visual quality becomes essential, yet increasingly challenging. Traditional testing methods, limited by resources, face difficulties in addressing the plethora of potential bugs. Machine learning offers scalable solutions; however, heavy reliance on large labeled datasets remains a constraint. Addressing this challenge, we propose a novel method, utilizing unlabeled gameplay and domain-specific augmentations to generate datasets & self-supervised objectives used during pre-training or multi-task settings for downstream visual bug detection. Our methodology uses weak-supervision to scale datasets for the crafted objectives and facilitates both autonomous and interactive weak-supervision, incorporating unsupervised clustering and/or an interactive approach based on text and geometric prompts. We demonstrate on first-person player clipping/collision bugs (FPPC) within the expansive Giantmap game world, that our approach is very effective, improving over a strong supervised baseline in a practical, very low-prevalence, low data regime (0.336 $\rightarrow$ 0.550 F1 score). With just 5 labeled "good" exemplars (i.e., 0 bugs), our self-supervised objective alone captures enough signal to outperform the low-labeled supervised settings. Building on large-pretrained vision models, our approach is adaptable across various visual bugs. Our results suggest applicability in curating datasets for broader image and video tasks within video games beyond visual bugs. | 翻訳日:2023-09-21 13:06:53 公開日:2023-09-20 |
# dynamic tiling: 効率的で正確な小物体検出のためのモデル非依存、適応、スケーラブル、推論データ中心のアプローチ Dynamic Tiling: A Model-Agnostic, Adaptive, Scalable, and Inference-Data-Centric Approach for Efficient and Accurate Small Object Detection ( http://arxiv.org/abs/2309.11069v1 ) ライセンス: Link先を確認 | Son The Nguyen, Theja Tulabandhula, Duy Nguyen | (参考訳) モデルに依存しない、適応的でスケーラブルな、小さなオブジェクト検出アプローチであるDynamic Tilingを導入し、推論データ中心の哲学を定着させます。
動的タイリングは、初期検出のための非オーバーラップタイルから始まり、動的オーバーラップレートとタイル最小化器を利用する。
この2重アプローチは、フラグメントされたオブジェクトを効果的に解決し、検出精度を向上させ、オブジェクト検出モデルを通過するフォワードパスの数を減らすことによって計算オーバーヘッドを最小化する。
様々な運用環境に適応し, 精力的な再校正の必要性を否定する手法を提案する。
さらに,大小のフィルタリング機構により,様々な物体サイズにわたる検出品質が向上する。
全体的に、動的タイリングは、既存のモデルに依存しない一様クロッピングメソッドよりも優れており、効率と正確性のために新しいベンチマークを設定する。 We introduce Dynamic Tiling, a model-agnostic, adaptive, and scalable approach for small object detection, anchored in our inference-data-centric philosophy. Dynamic Tiling starts with non-overlapping tiles for initial detections and utilizes dynamic overlapping rates along with a tile minimizer. This dual approach effectively resolves fragmented objects, improves detection accuracy, and minimizes computational overhead by reducing the number of forward passes through the object detection model. Adaptable to a variety of operational environments, our method negates the need for laborious recalibration. Additionally, our large-small filtering mechanism boosts the detection quality across a range of object sizes. Overall, Dynamic Tiling outperforms existing model-agnostic uniform cropping methods, setting new benchmarks for efficiency and accuracy. | 翻訳日:2023-09-21 13:06:23 公開日:2023-09-20 |
# 日頭電力グリッド運用計画における極端シナリオ選択 Extreme Scenario Selection in Day-Ahead Power Grid Operational Planning ( http://arxiv.org/abs/2309.11067v1 ) ライセンス: Link先を確認 | Guillermo Terr\'en-Serrano and Michael Ludkovski | (参考訳) 本研究では,日頭グリッド計画における極端なシナリオ選択のための統計機能深度測定手法の提案と解析を行う。
我々の主な動機は、運用リスク軽減に最も関係のあるシナリオを特定するために、実効負荷と再生可能生成のための確率的シナリオのスクリーニングである。
資産クラスと日内期間にまたがるシナリオの高次元性を扱うために,我々は,グリッド操作において最もリスクの高いシナリオをサブ選択するために,奥行きの関数的尺度を用いる。
本研究は, 機能的深層対策や, 負荷削減, 運用コスト, 備蓄不足, 可変再生可能エネルギー削減など, 様々な運用リスクについて検討した。
提案手法の有効性は,テキサス7kグリッドを事例として検証した。 We propose and analyze the application of statistical functional depth metrics for the selection of extreme scenarios in day-ahead grid planning. Our primary motivation is screening of probabilistic scenarios for realized load and renewable generation, in order to identify scenarios most relevant for operational risk mitigation. To handle the high-dimensionality of the scenarios across asset classes and intra-day periods, we employ functional measures of depth to sub-select outlying scenarios that are most likely to be the riskiest for the grid operation. We investigate a range of functional depth measures, as well as a range of operational risks, including load shedding, operational costs, reserves shortfall and variable renewable energy curtailment. The effectiveness of the proposed screening approach is demonstrated through a case study on the realistic Texas-7k grid. | 翻訳日:2023-09-21 13:06:06 公開日:2023-09-20 |
# 数学問題解決における思考連鎖の設計 Design of Chain-of-Thought in Math Problem Solving ( http://arxiv.org/abs/2309.11054v1 ) ライセンス: Link先を確認 | Zhanming Jie, Trung Quoc Luong, Xinbo Zhang, Xiaoran Jin, Hang Li | (参考訳) CoT (Chain-of-Thought) は数学の問題解決において重要な役割を担っている。
我々はCoT設計手法の総合的な検討を行い、従来の自然言語CoTと自己記述プログラム、コメント記述プログラム、非記述プログラムを含む様々なプログラムCoTを比較した。
さらに,プログラミング言語がプログラムCoTに与える影響について検討し,PythonとWolfram言語との比較を行った。
GSM8K, MATHQA, SVAMPの広範な実験により, プログラムCoTsは数学問題の解法において優れていることが判明した。
特に、30Bパラメータと最高のパフォーマンスの組み合わせは、GPT-3.5-turboをかなり上回っている。
その結果, 自己記述プログラムはより多様性をもたらし, 一般に高い性能を達成できることがわかった。
また、pythonはプログラムcotsのwolframよりも優れた言語選択であることも分かりました。
実験結果は、さらなる進歩のためにプログラミング言語とコーディングスタイルの両方を考慮した将来のCoT設計のための貴重なガイドラインを提供する。
データセットとコードは公開されています。 Chain-of-Thought (CoT) plays a crucial role in reasoning for math problem solving. We conduct a comprehensive examination of methods for designing CoT, comparing conventional natural language CoT with various program CoTs, including the self-describing program, the comment-describing program, and the non-describing program. Furthermore, we investigate the impact of programming language on program CoTs, comparing Python and Wolfram Language. Through extensive experiments on GSM8K, MATHQA, and SVAMP, we find that program CoTs often have superior effectiveness in math problem solving. Notably, the best performing combination with 30B parameters beats GPT-3.5-turbo by a significant margin. The results show that self-describing program offers greater diversity and thus can generally achieve higher performance. We also find that Python is a better choice of language than Wolfram for program CoTs. The experimental results provide a valuable guideline for future CoT designs that take into account both programming language and coding style for further advancements. Our datasets and code are publicly available. | 翻訳日:2023-09-21 13:05:44 公開日:2023-09-20 |
# スペイン語事前学習言語モデル Sequence-to-Sequence Spanish Pre-trained Language Models ( http://arxiv.org/abs/2309.11259v1 ) ライセンス: Link先を確認 | Vladimir Araujo, Maria Mihaela Trusca, Rodrigo Tufi\~no, Marie-Francine Moens | (参考訳) 近年、事前学習された言語モデルの大幅な進歩は、エンコーダのみとデコーダのみのアーキテクチャに焦点を当てた多数の非英語言語バージョンの開発への道を開いた。
ベルタ、ロベルタ、gptを包含するスペイン語モデルは自然言語理解と生成に長けているが、入力-出力ペアを含むシーケンス-シーケンスタスクのために設計されたエンコーダ-デコーダモデルが少ない。
本稿では,スペインのコーポラでのみトレーニングされたエンコーダ・デコーダアーキテクチャの実装と評価を紹介する。
具体的には, BART, T5, BERT2BERTスタイルのスペイン語版を提示し, 要約, 言い換え, 生成的質問応答など, 多様なシーケンス対シーケンスタスクの包括的評価を行う。
評価したすべてのタスクにおいて,bartとt5がトップパフォーマーとして登場しています。
さらなる貢献として、すべてのモデルを研究コミュニティに公開し、スペイン語処理における将来の探索と開発を奨励しました。 In recent years, substantial advancements in pre-trained language models have paved the way for the development of numerous non-English language versions, with a particular focus on encoder-only and decoder-only architectures. While Spanish language models encompassing BERT, RoBERTa, and GPT have exhibited prowess in natural language understanding and generation, there remains a scarcity of encoder-decoder models designed for sequence-to-sequence tasks involving input-output pairs. This paper breaks new ground by introducing the implementation and evaluation of renowned encoder-decoder architectures, exclusively pre-trained on Spanish corpora. Specifically, we present Spanish versions of BART, T5, and BERT2BERT-style models and subject them to a comprehensive assessment across a diverse range of sequence-to-sequence tasks, spanning summarization, rephrasing, and generative question answering. Our findings underscore the competitive performance of all models, with BART and T5 emerging as top performers across all evaluated tasks. As an additional contribution, we have made all models publicly available to the research community, fostering future exploration and development in Spanish language processing. | 翻訳日:2023-09-21 12:59:37 公開日:2023-09-20 |
# hotjar再訪によるデータ抽出 Data Exfiltration by Hotjar Revisited ( http://arxiv.org/abs/2309.11253v1 ) ライセンス: Link先を確認 | Libor Pol\v{c}\'ak and Alexandra Slez\'akov\'a | (参考訳) セッションのリプレイスクリプトにより、ウェブサイトのオーナーは各ウェブサイトの訪問者のインタラクションを記録し、インタラクションを集約して訪問者の興味や問題を明らかにすることができる。
しかし、以前の研究ではプライバシー侵害などの技術が特定されている。
このポジションペーパーはHotjarのデータ収集に関する情報を更新する。
以前の結果を再検討し、変更を検出して記述する。
入力を収集するデフォルトのポリシーは変更され、記録スクリプトは明示的に許可された入力要素からのみ情報を収集する。
それでもHotjarは、入力HTML要素の外のユーザの振る舞いを反映したコンテンツを記録する。
反射されたコンテンツの漏洩を防止するための変更を提案するが、そのような変更は実際には現れない可能性が高い。
本稿ではTLS処理の改善について論じる。
webページオペレータが暗号化接続を介してhotjarと対話するだけでなく、hotjarスクリプトはtlsで保護されていないサイトでは動作しない。
HotjarはDo Not Trackの信号を尊重するが、Do Not Trackの設定がある場合でもHotjarに接続する必要がある。
さらに悪いことに、悪質なWebオペレーターは、HotjarをアクティブなDo Not Track設定でユーザーの記録セッションに騙すことができる。
最後に、プロセッサに対するGDPRアート25の義務の拡張を提案し、動機づける。 Session replay scripts allow website owners to record the interaction of each web site visitor and aggregate the interaction to reveal the interests and problems of the visitors. However, previous research identified such techniques as privacy intrusive. This position paper updates the information on data collection by Hotjar. It revisits the previous findings to detect and describe the changes. The default policy to gather inputs changed; the recording script gathers only information from explicitly allowed input elements. Nevertheless, Hotjar does record content reflecting users' behaviour outside input HTML elements. Even though we propose changes that would prevent the leakage of the reflected content, we argue that such changes will most likely not appear in practice. The paper discusses improvements in handling TLS. Not only do web page operators interact with Hotjar through encrypted connections, but Hotjar scripts do not work on sites not protected by TLS. Hotjar respects the Do Not Track signal; however, users need to connect to Hotjar even in the presence of the Do Not Track setting. Worse, malicious web operators can trick Hotjar into recording sessions of users with the active Do Not Track setting. Finally, we propose and motivate the extension of GDPR Art. 25 obligations to processors. | 翻訳日:2023-09-21 12:59:14 公開日:2023-09-20 |
# シナリオ・リファイナ:形態レベルでの画像中のグラウンドグラウンド The Scenario Refiner: Grounding subjects in images at the morphological level ( http://arxiv.org/abs/2309.11252v1 ) ライセンス: Link先を確認 | Claudia Tagliaferri, Sofia Axioti, Albert Gatt and Denis Paperno | (参考訳) 実行」や「実行」といった派生的関連語は、異なる視覚的シナリオを導き出す意味的差異を示す。
本稿では、新しい手法とデータセットを用いて、視覚と言語(V\&L)モデルが形態学レベルでこれらの区別を捉えているかどうかを問う。
v\&lモデルの結果を人間の判断と比較し、モデルの予測が、特に文法バイアスを示す人間の予測と異なることを発見した。
さらに,人間モデルとモデルアーキテクチャの関係について考察する。
提案手法は,特定の形態的コントラストに基づいて開発され,他のニュアンス言語の特徴を捉えるための実験モデルをさらに拡張することができる。 Derivationally related words, such as "runner" and "running", exhibit semantic differences which also elicit different visual scenarios. In this paper, we ask whether Vision and Language (V\&L) models capture such distinctions at the morphological level, using a a new methodology and dataset. We compare the results from V\&L models to human judgements and find that models' predictions differ from those of human participants, in particular displaying a grammatical bias. We further investigate whether the human-model misalignment is related to model architecture. Our methodology, developed on one specific morphological contrast, can be further extended for testing models on capturing other nuanced language features. | 翻訳日:2023-09-21 12:58:56 公開日:2023-09-20 |
# モデルエッジ適応のための草の根演算子探索 Grassroots Operator Search for Model Edge Adaptation ( http://arxiv.org/abs/2309.11246v1 ) ライセンス: Link先を確認 | Hadjer Benmeziane, Kaoutar El Maghraoui, Hamza Ouarnoughi, Smail Niar | (参考訳) ハードウェアアウェアニューラルアーキテクチャ検索(hw-nas)は、効率的なディープラーニングアーキテクチャを設計するためにますます使われている。
HW-NASの成功には、効率的で柔軟な検索空間が不可欠である。
現在のアプローチでは、マクロアーキテクチャの設計と、可能な一連の値に基づいてアーキテクチャのハイパーパラメータの探索に焦点を当てている。
このアプローチは、ディープラーニング(DL)エンジニアと標準モデリングアプローチの専門知識に偏っている。
本稿では,Grassroots Operator Search(GOS)手法を提案する。
我々のhw-nasは、効率的なオペレーター置換を探索することで、エッジデバイスに所定のモデルを適用する。
それぞれの演算子を,その振る舞いを捉える数学的命令の集合として表現する。
数学的命令は、計算の複雑さを低減しつつ元のモデルの精度を維持する効率的な置換演算子の探索と選択の基盤として使用される。
私たちのアプローチは草の根であり、dlアーキテクチャの新しい効率的な演算子を構築するための数学的基礎に依存しています。
様々なDLモデルについて,我々の手法が2つのエッジデバイス,すなわちRedmi Note 7SとRaspberry Pi3において,高い精度を維持しつつ,最低2.2倍のスピードアップを実現していることを示す。
さらに,バンドデバイス上でのパルスレート推定におけるGOSアプローチのユースケースとして,計算複雑性の低減を図り,実用的応用におけるアプローチの有効性を示すとともに,最先端の性能を実現する。 Hardware-aware Neural Architecture Search (HW-NAS) is increasingly being used to design efficient deep learning architectures. An efficient and flexible search space is crucial to the success of HW-NAS. Current approaches focus on designing a macro-architecture and searching for the architecture's hyperparameters based on a set of possible values. This approach is biased by the expertise of deep learning (DL) engineers and standard modeling approaches. In this paper, we present a Grassroots Operator Search (GOS) methodology. Our HW-NAS adapts a given model for edge devices by searching for efficient operator replacement. We express each operator as a set of mathematical instructions that capture its behavior. The mathematical instructions are then used as the basis for searching and selecting efficient replacement operators that maintain the accuracy of the original model while reducing computational complexity. Our approach is grassroots since it relies on the mathematical foundations to construct new and efficient operators for DL architectures. We demonstrate on various DL models, that our method consistently outperforms the original models on two edge devices, namely Redmi Note 7S and Raspberry Pi3, with a minimum of 2.2x speedup while maintaining high accuracy. Additionally, we showcase a use case of our GOS approach in pulse rate estimation on wristband devices, where we achieve state-of-the-art performance, while maintaining reduced computational complexity, demonstrating the effectiveness of our approach in practical applications. | 翻訳日:2023-09-21 12:58:44 公開日:2023-09-20 |
# ソフトウェア工学のランドスケープにおけるジェンダーフェアネスのデータ駆動分析 Data-Driven Analysis of Gender Fairness in the Software Engineering Academic Landscape ( http://arxiv.org/abs/2309.11239v1 ) ライセンス: Link先を確認 | Giordano d'Aloisio, Andrea D'Angelo, Francesca Marzi, Diana Di Marco, Giovanni Stilo, and Antinisca Di Marco | (参考訳) 教育におけるジェンダーバイアスは、長年にわたって文学に大きく関係した。
しかし、教育におけるジェンダーバイアスの問題は、学生の視点からは広く取り上げられているが、学術的な観点からは完全には分析されていない。
本研究では,情報化(INF)とソフトウェア工学(SE)イタリアのコミュニティにおいて,学術的昇進におけるジェンダーバイアスの問題(研究者からAssociated Professor,Associated Professor)について検討する。
特に,学界におけるジェンダーバイアスの問題がこれまでどのように対処されてきたかを評価するため,文献レビューを行った。
次に,イタリア学術振興におけるジェンダーバイアスの分析に必要なinfおよびseデータを収集・処理するプロセスについて述べる。
次に,これらのデータに形式的バイアスメトリックを適用し,バイアスの量を評価し,その経時変化を考察する。
実施した分析から,SEコミュニティが助教授への昇進のバイアスが高いこと,全教授への昇進のバイアスがINFコミュニティ全体と比較して小さいことを観察した。 Gender bias in education gained considerable relevance in the literature over the years. However, while the problem of gender bias in education has been widely addressed from a student perspective, it is still not fully analysed from an academic point of view. In this work, we study the problem of gender bias in academic promotions (i.e., from Researcher to Associated Professor and from Associated to Full Professor) in the informatics (INF) and software engineering (SE) Italian communities. In particular, we first conduct a literature review to assess how the problem of gender bias in academia has been addressed so far. Next, we describe a process to collect and preprocess the INF and SE data needed to analyse gender bias in Italian academic promotions. Subsequently, we apply a formal bias metric to these data to assess the amount of bias and look at its variation over time. From the conducted analysis, we observe how the SE community presents a higher bias in promotions to Associate Professors and a smaller bias in promotions to Full Professors compared to the overall INF community. | 翻訳日:2023-09-21 12:58:22 公開日:2023-09-20 |
# Retrieve-Rewrite-Answer:知識グラフ質問応答のためのKG-to-Text拡張LLMフレームワーク Retrieve-Rewrite-Answer: A KG-to-Text Enhanced LLMs Framework for Knowledge Graph Question Answering ( http://arxiv.org/abs/2309.11206v1 ) ライセンス: Link先を確認 | Yike Wu, Nan Hu, Guilin Qi, Sheng Bi, Jie Ren, Anhuan Xie, Wei Song | (参考訳) 知識集約的なタスクでは競争力があるにもかかわらず、大きな言語モデル(LLM)は世界の知識、特に長い尾の知識を記憶するのに限界がある。
本稿では,豊かな世界知識を必要とする知識グラフ質問応答(KGQA)課題を解決するために,KG拡張言語モデルアプローチについて検討する。
既存の研究によると、KG知識を抽出してLLMを強化することで、KGQAにおけるLLMの性能を大幅に向上させることができる。
しかし、それらのアプローチはKG知識の言語化が十分に整っていないため、KG表現とテキスト表現のギャップを無視する。
そこで本研究では,KGの知識を,KGQAに最も有用な文章化文に変換する,応答に敏感なKG-to-Textアプローチを提案する。
提案手法は,KGQAタスクを解くためのKG-to-Text拡張LLMフレームワークを提案する。
いくつかのKGQAベンチマーク実験により,提案したKG-to-Text拡張LLMアプローチは,知識文の解答精度と有用性に関して,従来のKG-augmented LLMよりも優れていることが示された。 Despite their competitive performance on knowledge-intensive tasks, large language models (LLMs) still have limitations in memorizing all world knowledge especially long tail knowledge. In this paper, we study the KG-augmented language model approach for solving the knowledge graph question answering (KGQA) task that requires rich world knowledge. Existing work has shown that retrieving KG knowledge to enhance LLMs prompting can significantly improve LLMs performance in KGQA. However, their approaches lack a well-formed verbalization of KG knowledge, i.e., they ignore the gap between KG representations and textual representations. To this end, we propose an answer-sensitive KG-to-Text approach that can transform KG knowledge into well-textualized statements most informative for KGQA. Based on this approach, we propose a KG-to-Text enhanced LLMs framework for solving the KGQA task. Experiments on several KGQA benchmarks show that the proposed KG-to-Text augmented LLMs approach outperforms previous KG-augmented LLMs approaches regarding answer accuracy and usefulness of knowledge statements. | 翻訳日:2023-09-21 12:58:03 公開日:2023-09-20 |
# languini kitchen: さまざまな規模の計算で言語モデリング研究を可能にする The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute ( http://arxiv.org/abs/2309.11197v1 ) ライセンス: Link先を確認 | Aleksandar Stani\'c, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, J\"urgen Schmidhuber, Thomas Hofmann, Imanol Schlag | (参考訳) ラングイニ・キッチンは、限られた計算資源で研究者が言語モデリングの分野に有意義に貢献できるように設計された研究集団とコードベースの両方を担っている。
本稿では,アクセラレーション時間で測定した等価計算に基づくモデル比較を可能にする実験プロトコルを提案する。
モデルがトレーニングされるトークンの数は、モデルのスループットと選択した計算クラスによって定義されます。
特にこのアプローチは、総パラメータや浮動小数点演算に影響を与える臨界ハイパーパラメータの制約を回避する。
評価のために、我々は、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さの大規模で多様で高品質な書籍データセットを前処理する。
そこで本研究では,様々なレベルの計算実験から推定される経験的スケーリング傾向に基づく手法を比較する。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
GPTベースラインは計算のあらゆるレベルにおいてより良いパープレキシティを実現するが、LSTMベースラインは予測可能でより好ましいスケーリング法則を示す。
これはスループットの向上と、同じテストパープレキシティの低下を達成するために、トレーニングトークンを少なくする必要があるためである。
両方のモデルのスケーリング法則を外挿すると、約5万の加速時間で交差する。
この研究が意味があり再現可能な言語モデリング研究の基礎となることを願っている。 The Languini Kitchen serves as both a research collective and codebase designed to empower researchers with limited computational resources to contribute meaningfully to the field of language modelling. We introduce an experimental protocol that enables model comparisons based on equivalent compute, measured in accelerator hours. The number of tokens on which a model is trained is defined by the model's throughput and the chosen compute class. Notably, this approach avoids constraints on critical hyperparameters which affect total parameters or floating-point operations. For evaluation, we pre-process an existing large, diverse, and high-quality dataset of books that surpasses existing academic benchmarks in quality, diversity, and document length. On it, we compare methods based on their empirical scaling trends which are estimated through experiments at various levels of compute. This work also provides two baseline models: a feed-forward model derived from the GPT-2 architecture and a recurrent model in the form of a novel LSTM with ten-fold throughput. While the GPT baseline achieves better perplexity throughout all our levels of compute, our LSTM baseline exhibits a predictable and more favourable scaling law. This is due to the improved throughput and the need for fewer training tokens to achieve the same decrease in test perplexity. Extrapolating the scaling laws leads of both models results in an intersection at roughly 50,000 accelerator hours. We hope this work can serve as the foundation for meaningful and reproducible language modelling research. | 翻訳日:2023-09-21 12:57:43 公開日:2023-09-20 |
# 大規模言語モデルはワードレベル摂動に本当にロバストか? Are Large Language Models Really Robust to Word-Level Perturbations? ( http://arxiv.org/abs/2309.11166v1 ) ライセンス: Link先を確認 | Haoyu Wang, Guozheng Ma, Cong Yu, Ning Gui, Linrui Zhang, Zhiqi Huang, Suwei Ma, Yongzhe Chang, Sen Zhang, Li Shen, Xueqian Wang, Peilin Zhao, Dacheng Tao | (参考訳) 大規模言語モデル(llms)の規模と能力の迅速な向上は、それらをさまざまなダウンストリームタスクの有望なツールとして位置付けている。
より優れたパフォーマンスの追求と一定のプロンプトに対する暴力的フィードバックの回避に加えて、LLMの責任を確実にするため、LLMの堅牢性に多くの注意が払われる。
しかし,既存の評価手法は,従来の質問応答データセットと事前定義された教師付きラベルに大きく依存しており,現代のLLMの優れた生成能力と一致しない。
そこで本研究では,LLMのロバスト性を評価するために,事前学習した報酬モデルを診断ツールとして活用する新たな合理的評価手法を提案し,これをReward Model for Reasonable Robustness Evaluation (TREvaL)と呼ぶ。
我々の広範な実証実験により、TREvalはLLMのロバスト性を評価するための正確な方法を提供することを示した。
さらに,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
特に,ファインチューニング (SFT, RLHF) の実施によりロバストネスが低下する傾向がみられた。
TREvalのコードはhttps://github.com/Harry-mic/TREvalで公開されている。 The swift advancement in the scale and capabilities of Large Language Models (LLMs) positions them as promising tools for a variety of downstream tasks. In addition to the pursuit of better performance and the avoidance of violent feedback on a certain prompt, to ensure the responsibility of the LLM, much attention is drawn to the robustness of LLMs. However, existing evaluation methods mostly rely on traditional question answering datasets with predefined supervised labels, which do not align with the superior generation capabilities of contemporary LLMs. To address this issue, we propose a novel rational evaluation approach that leverages pre-trained reward models as diagnostic tools to evaluate the robustness of LLMs, which we refer to as the Reward Model for Reasonable Robustness Evaluation (TREvaL). Our extensive empirical experiments have demonstrated that TREval provides an accurate method for evaluating the robustness of an LLM, especially when faced with more challenging open questions. Furthermore, our results demonstrate that LLMs frequently exhibit vulnerability to word-level perturbations, which are commonplace in daily language usage. Notably, we were surprised to discover that robustness tends to decrease as fine-tuning (SFT and RLHF) is conducted. The code of TREval is available in https://github.com/Harry-mic/TREval. | 翻訳日:2023-09-21 12:57:19 公開日:2023-09-20 |
# CoT-BERT:Chain-of-Thoughtによる教師なし文表現の強化 CoT-BERT: Enhancing Unsupervised Sentence Representation through Chain-of-Thought ( http://arxiv.org/abs/2309.11143v1 ) ライセンス: Link先を確認 | Bowen Zhang, Kehua Chang, Chunping Li | (参考訳) 教師なし文表現学習は、ラベル付きデータへの依存を回避しつつ、複雑な意味情報に富んだ入力文を固定長ベクトルに変換することを目的としている。
コントラスト学習とプロンプトエンジニアリングによって推進されたこの分野の最近の進歩は、教師なし戦略と教師なし戦略のギャップを大幅に埋めている。
それでも、この軌道にはチェイン・オブ・サートの利用の可能性はほとんど残っていない。
BERTのような事前学習モデルにおける潜在能力を解き明かすために,文表現のための2段階のアプローチを提案する。
その後、後者の位相の出力を入力文のベクトル化表現として利用する。
さらなる性能向上のために,コントラスト学習損失関数とテンプレート記述手法の両方を細心の注意を払って改良した。
厳密な実験は、我々の方法であるCoT-BERTを、他のテキスト表現モデルや外部データベースを必要とせずに、頑健なベースラインを超越する。 Unsupervised sentence representation learning aims to transform input sentences into fixed-length vectors enriched with intricate semantic information while obviating the reliance on labeled data. Recent progress within this field, propelled by contrastive learning and prompt engineering, has significantly bridged the gap between unsupervised and supervised strategies. Nonetheless, the potential utilization of Chain-of-Thought, remains largely untapped within this trajectory. To unlock latent capabilities within pre-trained models, such as BERT, we propose a two-stage approach for sentence representation: comprehension and summarization. Subsequently, the output of the latter phase is harnessed as the vectorized representation of the input sentence. For further performance enhancement, we meticulously refine both the contrastive learning loss function and the template denoising technique for prompt engineering. Rigorous experimentation substantiates our method, CoT-BERT, transcending a suite of robust baselines without necessitating other text representation models or external databases. | 翻訳日:2023-09-21 12:56:55 公開日:2023-09-20 |
# テキスト・画像生成のための意味的符号化と知識蒸留による言語指向コミュニケーション Language-Oriented Communication with Semantic Coding and Knowledge Distillation for Text-to-Image Generation ( http://arxiv.org/abs/2309.11127v1 ) ライセンス: Link先を確認 | Hyelin Nam, Jihong Park, Jinho Choi, Mehdi Bennis, and Seong-Lyun Kim | (参考訳) 大規模言語モデル(LLM)と生成モデルにおける最近の進歩を新たな意味コミュニケーション(SC)パラダイムに統合することにより,言語指向意味コミュニケーション(LSC)の新たな枠組みを推し進める。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
LSCの可能性を示すために,3つの革新的なアルゴリズムを紹介する。
1) テキストプロンプトをキーヘッドワードに圧縮する意味的ソースコーディング(ssc)は,プロンプトのコンテキストを維持するために,その外観を維持しつつ,プロンプトの構文本質をキャプチャする。
2) 意味チャネル符号化 (SCC) は, 単語の頭字語を同義語に置き換えることで, 誤りに対する堅牢性を向上させる。
3)リスナーの言語スタイルを学習することで,リスナーにカスタマイズされたプロンプトを生成する意味知識蒸留(SKD)。
プログレッシブテキスト・画像生成のための通信タスクにおいて,提案手法はノイズの多い通信チャネルにおいて堅牢性を高めつつ,より少ない伝送で知覚的類似性を向上する。 By integrating recent advances in large language models (LLMs) and generative models into the emerging semantic communication (SC) paradigm, in this article we put forward to a novel framework of language-oriented semantic communication (LSC). In LSC, machines communicate using human language messages that can be interpreted and manipulated via natural language processing (NLP) techniques for SC efficiency. To demonstrate LSC's potential, we introduce three innovative algorithms: 1) semantic source coding (SSC) which compresses a text prompt into its key head words capturing the prompt's syntactic essence while maintaining their appearance order to keep the prompt's context; 2) semantic channel coding (SCC) that improves robustness against errors by substituting head words with their lenghthier synonyms; and 3) semantic knowledge distillation (SKD) that produces listener-customized prompts via in-context learning the listener's language style. In a communication task for progressive text-to-image generation, the proposed methods achieve higher perceptual similarities with fewer transmissions while enhancing robustness in noisy communication channels. | 翻訳日:2023-09-21 12:56:38 公開日:2023-09-20 |
# フェアネス制約の影響の理解にプロパティ・エミュレーションを用いる Using Property Elicitation to Understand the Impacts of Fairness Constraints ( http://arxiv.org/abs/2309.11343v1 ) ライセンス: Link先を確認 | Jessie Finocchiaro | (参考訳) 予測アルゴリズムは損失関数を最適化することでしばしば訓練され、規則化関数を追加して制約違反のペナルティを課す。
予想通り、そのような正規化関数の追加は目的の最小化を変更できる。
どのレギュレータが損失の最小値を変更するのか、そして、最小値が変化した場合、その変化の仕方はよく理解されていない。
我々は,損失関数と正規化関数の結合関係と与えられた問題インスタンスの最適決定を理解するための第一歩として,特性の導出を用いる。
特に,正則化器の追加に伴う特性変化に対して,損失と正則化器のペアについて必要十分条件を与え,この条件を満たす正則化器について,公正な機械学習文献で検討する。
我々は,データ分布変化と制約の硬度の両方の関数として,アルゴリズムによる意思決定がいかに変化するかを実証的に示す。 Predictive algorithms are often trained by optimizing some loss function, to which regularization functions are added to impose a penalty for violating constraints. As expected, the addition of such regularization functions can change the minimizer of the objective. It is not well-understood which regularizers change the minimizer of the loss, and, when the minimizer does change, how it changes. We use property elicitation to take first steps towards understanding the joint relationship between the loss and regularization functions and the optimal decision for a given problem instance. In particular, we give a necessary and sufficient condition on loss and regularizer pairs for when a property changes with the addition of the regularizer, and examine some regularizers satisfying this condition standard in the fair machine learning literature. We empirically demonstrate how algorithmic decision-making changes as a function of both data distribution changes and hardness of the constraints. | 翻訳日:2023-09-21 12:48:25 公開日:2023-09-20 |
# エッジ不均一グラフニューラルネットワークによる記事分類の改善 Improving Article Classification with Edge-Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2309.11341v1 ) ライセンス: Link先を確認 | Khang Ly, Yury Kashnitsky, Savvas Chamezopoulos, Valeria Krzhizhanovskaya | (参考訳) 研究成果を文脈固有のラベル分類に分類することは、既存の記事や新しく公開された記事の量を考えると、困難で関連性の高い下流課題である。
エッジヘテロジニアスグラフ表現を用いた単純なグラフニューラルネットワーク(GNN)パイプラインにより,記事分類の性能を向上させる手法を提案する。
SciBERTは、記事のテキストメタデータ内で上位のセマンティクスをキャプチャするためにノード機能生成に使用される。
完全な教師付きトランスダクティブノード分類実験は、Open Graph Benchmark (OGB) ogbn-arxivデータセットとPubMed糖尿病データセットで行われ、それぞれMicrosoft Academic Graph (MAG) とPubMed Centralのメタデータを付加した。
その結果、エッジヘテロジェンスグラフは、エッジ均質グラフと比較して、すべてのgnnモデルの性能を一貫して向上させることが示された。
変換されたデータにより、単純で浅いGNNパイプラインは、より複雑なアーキテクチャと同等の結果を得ることができる。
ogbn-arxiv では,2層 gcn (精度74.61%) との ogb 競合をトップ-15で達成した。
PubMedでは、グラフに追加の共著者エッジ(精度89.88%)を含めることで、2層グラフSAGEを用いてSOTA GNNアーキテクチャを綿密に追跡する。
実装は以下の通りである。 $\href{https://github.com/lyvykhang/edgehetero-nodeproppred}{\text{https://github.com/lyvykhang/edgehetero-nodeproppred}}$ Classifying research output into context-specific label taxonomies is a challenging and relevant downstream task, given the volume of existing and newly published articles. We propose a method to enhance the performance of article classification by enriching simple Graph Neural Networks (GNN) pipelines with edge-heterogeneous graph representations. SciBERT is used for node feature generation to capture higher-order semantics within the articles' textual metadata. Fully supervised transductive node classification experiments are conducted on the Open Graph Benchmark (OGB) ogbn-arxiv dataset and the PubMed diabetes dataset, augmented with additional metadata from Microsoft Academic Graph (MAG) and PubMed Central, respectively. The results demonstrate that edge-heterogeneous graphs consistently improve the performance of all GNN models compared to the edge-homogeneous graphs. The transformed data enable simple and shallow GNN pipelines to achieve results on par with more complex architectures. On ogbn-arxiv, we achieve a top-15 result in the OGB competition with a 2-layer GCN (accuracy 74.61%), being the highest-scoring solution with sub-1 million parameters. On PubMed, we closely trail SOTA GNN architectures using a 2-layer GraphSAGE by including additional co-authorship edges in the graph (accuracy 89.88%). The implementation is available at: $\href{https://github.com/lyvykhang/edgehetero-nodeproppred}{\text{https://github.com/lyvykhang/edgehetero-nodeproppred}}$. | 翻訳日:2023-09-21 12:48:09 公開日:2023-09-20 |
# TRAVID: エンドツーエンドのビデオ翻訳フレームワーク TRAVID: An End-to-End Video Translation Framework ( http://arxiv.org/abs/2309.11338v1 ) ライセンス: Link先を確認 | Prottay Kumar Adhikary, Bandaru Sugandhi, Subhojit Ghimire, Santanu Pal and Partha Pakray | (参考訳) 今日のグローバル化の世界では、多様な言語背景を持つ人々との効果的なコミュニケーションがますます重要になっている。
文章や音声のみの翻訳のような伝統的な言語翻訳の方法は、そのタスクを達成できるが、顔の表情や唇の動きのような非言語的な手がかりを通じて伝達される完全な文脈やニュアンス情報を捕捉できないことが多い。
本稿では,音声言語を翻訳するだけでなく,翻訳音声と話者の唇の動きを同期させるエンド・ツー・エンドのビデオ翻訳システムを提案する。
本システムは,インド諸言語における教育講義の翻訳に重点を置いており,低リソースのシステム設定においても有効であるように設計されている。
対象言語に合わせた唇の動きを取り入れ,音声クローニング技術を用いて話者の音声と一致させることで,学生やユーザに対してさらなる体験を提供する。
この追加機能は、より没入的で現実的な学習環境を生み出し、最終的には学習プロセスをより効果的かつ活発にします。 In today's globalized world, effective communication with people from diverse linguistic backgrounds has become increasingly crucial. While traditional methods of language translation, such as written text or voice-only translations, can accomplish the task, they often fail to capture the complete context and nuanced information conveyed through nonverbal cues like facial expressions and lip movements. In this paper, we present an end-to-end video translation system that not only translates spoken language but also synchronizes the translated speech with the lip movements of the speaker. Our system focuses on translating educational lectures in various Indian languages, and it is designed to be effective even in low-resource system settings. By incorporating lip movements that align with the target language and matching them with the speaker's voice using voice cloning techniques, our application offers an enhanced experience for students and users. This additional feature creates a more immersive and realistic learning environment, ultimately making the learning process more effective and engaging. | 翻訳日:2023-09-21 12:47:38 公開日:2023-09-20 |
# 金ヨーロ:ゲザ・アンド・ディストビュート機構による効率的な物体検出装置 Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism ( http://arxiv.org/abs/2309.11331v1 ) ライセンス: Link先を確認 | Chengcheng Wang, Wei He, Ying Nie, Jianyuan Guo, Chuanjian Liu, Kai Han, Yunhe Wang | (参考訳) 近年, リアルタイム物体検出の分野における主要なアプローチとして, YOLOシリーズモデルが登場している。
多くの研究が、アーキテクチャを変更し、データを増やし、新しい損失を設計することで、ベースラインをより高いレベルに押し上げた。
しかし,従来モデルでは,機能ピラミッドネットワーク (fpn) とパスアグリゲーションネットワーク (panet) がこれを緩和しているが,情報融合問題に苦しんでいる。
そこで本研究では,畳み込みと自己アテンション操作によって実現される高度な集合分散機構(gd)機構を提案する。
この新しい設計モデルはGold-YOLOと呼ばれ、マルチスケールの機能融合能力を高め、すべてのモデルスケールでレイテンシと精度の理想的なバランスを実現する。
さらに, YOLOシリーズにMAEスタイルの事前トレーニングを初めて実装し, YOLOシリーズモデルが教師なし事前トレーニングの恩恵を受けられるようにした。
Gold-YOLO-Nは、COCO val2017データセットで39.9%のAP、T4 GPUで1030 FPSを達成した。
PyTorchコードはhttps://github.com/huaweinoah/Efficient-Computing/Detection/Gold-YOLOで、MindSporeコードはhttps://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLOで入手できる。 In the past years, YOLO-series models have emerged as the leading approaches in the area of real-time object detection. Many studies pushed up the baseline to a higher level by modifying the architecture, augmenting data and designing new losses. However, we find previous models still suffer from information fusion problem, although Feature Pyramid Network (FPN) and Path Aggregation Network (PANet) have alleviated this. Therefore, this study provides an advanced Gatherand-Distribute mechanism (GD) mechanism, which is realized with convolution and self-attention operations. This new designed model named as Gold-YOLO, which boosts the multi-scale feature fusion capabilities and achieves an ideal balance between latency and accuracy across all model scales. Additionally, we implement MAE-style pretraining in the YOLO-series for the first time, allowing YOLOseries models could be to benefit from unsupervised pretraining. Gold-YOLO-N attains an outstanding 39.9% AP on the COCO val2017 datasets and 1030 FPS on a T4 GPU, which outperforms the previous SOTA model YOLOv6-3.0-N with similar FPS by +2.4%. The PyTorch code is available at https://github.com/huaweinoah/Efficient-Computing/Detection/Gold-YOLO, and the MindSpore code is available at https://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLO. | 翻訳日:2023-09-21 12:47:21 公開日:2023-09-20 |
# コード切替チュニジアアラビア語自動音声認識におけるデータ収集と教師なし学習の活用 Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition ( http://arxiv.org/abs/2309.11327v1 ) ライセンス: Link先を確認 | Ahmed Amine Ben Abdallah and Ata Kabboudi and Amir Kanoun and Salah Zaiem | (参考訳) 方言に対する効果的な自動音声認識(ASR)ソリューションを構築するには、データ不足の問題に対処するだけでなく、言語多様性の複雑さをナビゲートする革新的なアプローチが必要である。
本稿では、チュニジア方言に焦点をあてて、前述のASR課題に対処する。
まず、テキストデータと音声データを収集し、時には注釈をつける。
第2に,自己スーパービジョン,半スーパービジョン,少数ショットのコード切り換えによる,チュニジアの異なるテストセットに対する最先端のプッシュ,音響的,言語的,韻律的条件の相違について検討する。
最後に,従来の綴りの欠如を考慮し,テスト参照中の綴りの誤りから発生する雑音を回避するために,書き起こしの人間的評価を行う。
我々のモデルは、チュニジア語、英語、フランス語を含む言語混合で音声サンプルを転写することができ、トレーニングやテストで使用されるすべてのデータを公開し、さらなる改善を図っている。 Crafting an effective Automatic Speech Recognition (ASR) solution for dialects demands innovative approaches that not only address the data scarcity issue but also navigate the intricacies of linguistic diversity. In this paper, we address the aforementioned ASR challenge, focusing on the Tunisian dialect. First, textual and audio data is collected and in some cases annotated. Second, we explore self-supervision, semi-supervision and few-shot code-switching approaches to push the state-of-the-art on different Tunisian test sets; covering different acoustic, linguistic and prosodic conditions. Finally, and given the absence of conventional spelling, we produce a human evaluation of our transcripts to avoid the noise coming from spelling inadequacies in our testing references. Our models, allowing to transcribe audio samples in a linguistic mix involving Tunisian Arabic, English and French, and all the data used during training and testing are released for public use and further improvements. | 翻訳日:2023-09-21 12:46:48 公開日:2023-09-20 |
# 行動・会話フロー特徴を有する会話型タスクアシスタントのレーティング予測 Rating Prediction in Conversational Task Assistants with Behavioral and Conversational-Flow Features ( http://arxiv.org/abs/2309.11307v1 ) ライセンス: Link先を確認 | Rafael Ferreira, David Semedo and Jo\~ao Magalh\~aes | (参考訳) 会話型タスクアシスタント(CTA)の成功を予測することは、ユーザの振る舞いを理解し、それに従って行動するために重要である。
本稿では,CTAシナリオにおけるユーザレーティングを予測するために,会話フロー機能とユーザ行動機能を組み合わせたTransformerモデルTB-Raterを提案する。
特に、Alexa TaskBotチャレンジで収集された実際のヒューマンエージェントの会話とレーティングは、新しいマルチモーダルおよびマルチターンの会話コンテキストである。
本結果は,オフライン評価予測のための1つのモデルにおいて,会話の対話フローと行動的側面の両方をモデル化する利点を示す。
さらに、CTA固有の行動特徴の分析は、この設定に洞察をもたらし、将来のシステムのブートストラップに使用できる。 Predicting the success of Conversational Task Assistants (CTA) can be critical to understand user behavior and act accordingly. In this paper, we propose TB-Rater, a Transformer model which combines conversational-flow features with user behavior features for predicting user ratings in a CTA scenario. In particular, we use real human-agent conversations and ratings collected in the Alexa TaskBot challenge, a novel multimodal and multi-turn conversational context. Our results show the advantages of modeling both the conversational-flow and behavioral aspects of the conversation in a single model for offline rating prediction. Additionally, an analysis of the CTA-specific behavioral features brings insights into this setting and can be used to bootstrap future systems. | 翻訳日:2023-09-21 12:46:32 公開日:2023-09-20 |
# facediffuser:拡散を利用した音声駆動3次元顔アニメーション合成 FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using Diffusion ( http://arxiv.org/abs/2309.11306v1 ) ライセンス: Link先を確認 | Stefan Stan and Kazi Injamamul Haque and Zerrin Yumak | (参考訳) 音声による顔のアニメーション合成は、産業と研究の両方において難しい課題となっている。
近年の方法は、音声入力が与えられた場合、出力は常に同じである決定論的深層学習法に重点を置いている。
しかし、実際には、顔全体に存在する非言語的な顔の手がかりは、本質的に非決定論的である。
さらに、アプローチの大半は、既存の顔アニメーションパイプラインと互換性のある3D頂点ベースのデータセットとメソッドに焦点を当てている。
これらの問題を解消するために,3d頂点とblendshapeベースのデータセットでトレーニングされた音声駆動顔アニメーションを生成する,非決定論的ディープラーニングモデルであるfacediffuserを提案する。
提案手法は拡散法に基づいて,事前学習した大規模音声表現モデル HuBERT を用いて音声入力を符号化する。
我々の知る限りでは、音声駆動型3次元顔アニメーション合成の課題に拡散法を最初に用いた人物である。
対象的および主観的分析を行い,本手法が最先端の手法と比較して,より良い,あるいは同等の結果が得られることを示す。
また、ブレンドシェープに基づくリップキャラクタに基づく、新たな社内データセットも導入する。
付随する補足ビデオを見ることをお勧めします。
コードとデータセットは公開される予定だ。 Speech-driven 3D facial animation synthesis has been a challenging task both in industry and research. Recent methods mostly focus on deterministic deep learning methods meaning that given a speech input, the output is always the same. However, in reality, the non-verbal facial cues that reside throughout the face are non-deterministic in nature. In addition, majority of the approaches focus on 3D vertex based datasets and methods that are compatible with existing facial animation pipelines with rigged characters is scarce. To eliminate these issues, we present FaceDiffuser, a non-deterministic deep learning model to generate speech-driven facial animations that is trained with both 3D vertex and blendshape based datasets. Our method is based on the diffusion technique and uses the pre-trained large speech representation model HuBERT to encode the audio input. To the best of our knowledge, we are the first to employ the diffusion method for the task of speech-driven 3D facial animation synthesis. We have run extensive objective and subjective analyses and show that our approach achieves better or comparable results in comparison to the state-of-the-art methods. We also introduce a new in-house dataset that is based on a blendshape based rigged character. We recommend watching the accompanying supplementary video. The code and the dataset will be publicly available. | 翻訳日:2023-09-21 12:46:19 公開日:2023-09-20 |
# CPLLM:大規模言語モデルによる臨床予測 CPLLM: Clinical Prediction with Large Language Models ( http://arxiv.org/abs/2309.11295v1 ) ライセンス: Link先を確認 | Ofir Ben Shoham, Nadav Rappoport | (参考訳) 臨床疾患予測のための訓練済みのLarge Language Model (LLM) を微調整する手法であるLarge Language Models (CPLLM) を用いて臨床予測を行う。
本研究は,患者が来訪中に対象疾患と診断されるかどうかを予測し,過去の診断記録を活用することを目的として,定量化とLPMの微調整を行った。
我々は,ehrの構造化データを用いて,疾患予測の最先端モデルであるロジスティック回帰,保留,およびmed-bertなど,さまざまなベースラインとの比較を行った。
実験の結果,CPLLMはPR-AUCとROC-AUCの両方の指標で試験対象モデルを上回っており,ベースラインモデルと比較して顕著な拡張が見られた。 We present Clinical Prediction with Large Language Models (CPLLM), a method that involves fine-tuning a pre-trained Large Language Model (LLM) for clinical disease prediction. We utilized quantization and fine-tuned the LLM using prompts, with the task of predicting whether patients will be diagnosed with a target disease during their next visit or in the subsequent diagnosis, leveraging their historical diagnosis records. We compared our results versus various baselines, including Logistic Regression, RETAIN, and Med-BERT, which is the current state-of-the-art model for disease prediction using structured EHR data. Our experiments have shown that CPLLM surpasses all the tested models in terms of both PR-AUC and ROC-AUC metrics, displaying noteworthy enhancements compared to the baseline models. | 翻訳日:2023-09-21 12:45:59 公開日:2023-09-20 |
# IberLEF 2023におけるAuTexTificationの概要: 複数領域における機械生成テキストの検出と属性 Overview of AuTexTification at IberLEF 2023: Detection and Attribution of Machine-Generated Text in Multiple Domains ( http://arxiv.org/abs/2309.11285v1 ) ライセンス: Link先を確認 | Areg Mikael Sarvazyan, Jos\'e \'Angel Gonz\'alez, Marc Franco-Salvador, Francisco Rangel, Berta Chulvi, Paolo Rosso | (参考訳) 本稿では,sepln 2023カンファレンスの枠組みの中で,イベリア言語評価フォーラムの iberlef 2023 ワークショップ の一環として,オーテシフィケーション共有タスクの概要について述べる。
AuTexTificationは2つのサブタスクで構成されている: Subtask 1では、参加者はテキストが人間によって書かれたか、あるいは大きな言語モデルによって生成されたかを決定する必要があった。
Subtask 2では、参加者は機械生成テキストを6つの異なるテキスト生成モデルのうちの1つとみなさなければならなかった。
AuTexTification 2023データセットには、2つの言語(英語とスペイン語)と5つのドメイン(ツイート、レビュー、ニュース、法律、ハウツー記事)にわたる160,000以上のテキストが含まれています。
参加には合計114チームが参加し、うち36チームが175ラン、うち20チームがワークノートを送った。
本稿では,AuTexTificationデータセットとタスク,提出された参加システム,その結果について述べる。 This paper presents the overview of the AuTexTification shared task as part of the IberLEF 2023 Workshop in Iberian Languages Evaluation Forum, within the framework of the SEPLN 2023 conference. AuTexTification consists of two subtasks: for Subtask 1, participants had to determine whether a text is human-authored or has been generated by a large language model. For Subtask 2, participants had to attribute a machine-generated text to one of six different text generation models. Our AuTexTification 2023 dataset contains more than 160.000 texts across two languages (English and Spanish) and five domains (tweets, reviews, news, legal, and how-to articles). A total of 114 teams signed up to participate, of which 36 sent 175 runs, and 20 of them sent their working notes. In this overview, we present the AuTexTification dataset and task, the submitted participating systems, and the results. | 翻訳日:2023-09-21 12:45:43 公開日:2023-09-20 |
# 会話アシスタントのための接地型複雑なタスクセグメンテーション Grounded Complex Task Segmentation for Conversational Assistants ( http://arxiv.org/abs/2309.11271v1 ) ライセンス: Link先を確認 | Rafael Ferreira, David Semedo and Jo\~ao Magalh\~aes | (参考訳) 会話アシスタントにおける複雑な命令に従うことは、同じ命令を読む場合に比べて注意と記憶が短いため、かなり厄介である。
したがって、会話型アシスタントが複雑なタスクのステップをユーザーを歩き回るとき、タスクを適切な長さと複雑さの情報を管理可能な部分に構成する必要がある。
本稿では,レシピ領域に取り組み,構造化命令の読み方を会話型構造に変換する。
対話的シナリオに従って指示の構造をアノテートし,この設定で何が期待できるかを考察した。
対話ステップの特徴を計算的にモデル化するために,トークンベースのアプローチが最良の結果をもたらすことを示す,様々なTransformerベースのアーキテクチャをテストした。
さらにユーザ調査の結果,ユーザが管理可能な複雑さと長さのステップを好む傾向があり,提案手法が web ベースのインストラクショナルテキストを改良できることが示された。
具体的には,評価したタスクの86%を,会話的適合性の観点から改善した。 Following complex instructions in conversational assistants can be quite daunting due to the shorter attention and memory spans when compared to reading the same instructions. Hence, when conversational assistants walk users through the steps of complex tasks, there is a need to structure the task into manageable pieces of information of the right length and complexity. In this paper, we tackle the recipes domain and convert reading structured instructions into conversational structured ones. We annotated the structure of instructions according to a conversational scenario, which provided insights into what is expected in this setting. To computationally model the conversational step's characteristics, we tested various Transformer-based architectures, showing that a token-based approach delivers the best results. A further user study showed that users tend to favor steps of manageable complexity and length, and that the proposed methodology can improve the original web-based instructional text. Specifically, 86% of the evaluated tasks were improved from a conversational suitability point of view. | 翻訳日:2023-09-21 12:45:22 公開日:2023-09-20 |
# kosmos-2.5:マルチモーダル文字モデル Kosmos-2.5: A Multimodal Literate Model ( http://arxiv.org/abs/2309.11419v1 ) ライセンス: Link先を確認 | Tengchao Lv, Yupan Huang, Jingye Chen, Lei Cui, Shuming Ma, Yaoyao Chang, Shaohan Huang, Wenhui Wang, Li Dong, Weiyao Luo, Shaoxiang Wu, Guoxin Wang, Cha Zhang, Furu Wei | (参考訳) テキスト集約画像の機械読取のためのマルチモーダルリテラルモデルKosmos-2.5を提案する。
大規模なテキスト集約画像に基づいて事前訓練されたKosmos-2.5は、(1) テキストの各ブロックが画像内の空間座標に割り当てられる空間的に認識可能なテキストブロックを生成し、(2) スタイルや構造をマークダウンフォーマットにキャプチャする構造化されたテキスト出力を生成する。
この統合されたマルチモーダルリテラト機能は、共有トランスフォーマーアーキテクチャ、タスク固有のプロンプト、柔軟なテキスト表現によって実現される。
Kosmos-2.5 は文書レベルのエンドツーエンドテキスト認識と画像からマークダウンテキスト生成で評価される。
さらに、教師付き微調整により、異なるプロンプトを持つ任意のテキスト集約画像理解タスクに容易に適応することができ、テキストリッチ画像を含む実世界のアプリケーションのための汎用ツールとなる。
この作業はまた、マルチモーダルな大規模言語モデルの将来のスケーリングの道を開く。 We present Kosmos-2.5, a multimodal literate model for machine reading of text-intensive images. Pre-trained on large-scale text-intensive images, Kosmos-2.5 excels in two distinct yet cooperative transcription tasks: (1) generating spatially-aware text blocks, where each block of text is assigned its spatial coordinates within the image, and (2) producing structured text output that captures styles and structures into the markdown format. This unified multimodal literate capability is achieved through a shared Transformer architecture, task-specific prompts, and flexible text representations. We evaluate Kosmos-2.5 on end-to-end document-level text recognition and image-to-markdown text generation. Furthermore, the model can be readily adapted for any text-intensive image understanding task with different prompts through supervised fine-tuning, making it a general-purpose tool for real-world applications involving text-rich images. This work also paves the way for the future scaling of multimodal large language models. | 翻訳日:2023-09-21 12:38:43 公開日:2023-09-20 |
# 潜在アライメントセグメンテーションを用いた長距離音声翻訳 Long-Form End-to-End Speech Translation via Latent Alignment Segmentation ( http://arxiv.org/abs/2309.11384v1 ) ライセンス: Link先を確認 | Peter Pol\'ak, Ond\v{r}ej Bojar | (参考訳) 現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
現代のデータセットは、人間の注釈と翻訳に基づく文へのオラクルのセグメンテーションを提供する。
しかし、文へのセグメンテーションは現実世界では利用できない。
現在の音声セグメンテーションアプローチは、セグメンテーションの品質が低いか、品質のレイテンシを交換しなければならない。
本稿では,低遅延エンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
既存の音声翻訳エンコーダ・デコーダアーキテクチャをST CTCで活用し,教師や追加パラメータを使わずにセグメンテーションタスクを実行できることを示す。
我々の知る限り、本手法は、翻訳とセグメント化を同時に行うのと同じモデルである、実際のエンドツーエンド同時音声翻訳を可能にする最初の方法である。
多様な言語ペアとドメイン内およびドメイン外データについて,提案手法が計算コストを増すことなく最先端品質を達成することを示す。 Current simultaneous speech translation models can process audio only up to a few seconds long. Contemporary datasets provide an oracle segmentation into sentences based on human-annotated transcripts and translations. However, the segmentation into sentences is not available in the real world. Current speech segmentation approaches either offer poor segmentation quality or have to trade latency for quality. In this paper, we propose a novel segmentation approach for a low-latency end-to-end speech translation. We leverage the existing speech translation encoder-decoder architecture with ST CTC and show that it can perform the segmentation task without supervision or additional parameters. To the best of our knowledge, our method is the first that allows an actual end-to-end simultaneous speech translation, as the same model is used for translation and segmentation at the same time. On a diverse set of language pairs and in- and out-of-domain data, we show that the proposed approach achieves state-of-the-art quality at no additional computational cost. | 翻訳日:2023-09-21 12:38:24 公開日:2023-09-20 |
# 移行前の議論:マルチエキスパートによるビジュアル言語ナビゲーション Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions ( http://arxiv.org/abs/2309.11382v1 ) ライセンス: Link先を確認 | Yuxing Long, Xiaoqi Li, Wenzhe Cai, Hao Dong | (参考訳) 視覚言語ナビゲーション(VLN)は、理解、知覚、計画を含む幅広いスキルを必要とする具体的タスクである。
このような多面的課題に対して、従来のVLN手法は1ラウンド以内に予測を行うというモデル独自の考え方に完全に依存している。
しかし、既存のモデルは、最も先進的な大規模言語モデルであるGPT4でさえ、シングルラウンドの自己思考によって複数のタスクを扱うことに苦戦している。
本稿では,専門家協議会からインスピレーションを得て,新たなゼロショットVLNフレームワークを提案する。
このフレームワークでは、異なる能力を持つ大きなモデルはドメインエキスパートとして機能します。
提案するナビゲーションエージェントである discussnav は,各ステップに進む前に,これらの専門家と積極的に議論し,必要な情報を収集することができる。
これらの議論は、指示理解、環境認識、完了推定などの重要なナビゲーションサブタスクをカバーしている。
包括的実験を通じて,命令関連情報を認識し,不注意な誤りを訂正し,一貫性のない動作決定をすすめることで,ドメインエキスパートとの対話を効果的に促進できることを実証する。
代表的VLNタスクR2Rの性能は,本手法が先行するゼロショットVLNモデルを上回っていることを示す。
さらに,実ロボット実験では,単回自己思考よりも明らかな利点を示す。 Visual language navigation (VLN) is an embodied task demanding a wide range of skills encompassing understanding, perception, and planning. For such a multifaceted challenge, previous VLN methods totally rely on one model's own thinking to make predictions within one round. However, existing models, even the most advanced large language model GPT4, still struggle with dealing with multiple tasks by single-round self-thinking. In this work, drawing inspiration from the expert consultation meeting, we introduce a novel zero-shot VLN framework. Within this framework, large models possessing distinct abilities are served as domain experts. Our proposed navigation agent, namely DiscussNav, can actively discuss with these experts to collect essential information before moving at every step. These discussions cover critical navigation subtasks like instruction understanding, environment perception, and completion estimation. Through comprehensive experiments, we demonstrate that discussions with domain experts can effectively facilitate navigation by perceiving instruction-relevant information, correcting inadvertent errors, and sifting through in-consistent movement decisions. The performances on the representative VLN task R2R show that our method surpasses the leading zero-shot VLN model by a large margin on all metrics. Additionally, real-robot experiments display the obvious advantages of our method over single-round self-thinking. | 翻訳日:2023-09-21 12:38:08 公開日:2023-09-20 |
# 欧州議会におけるロビーの影響に関する研究 Studying Lobby Influence in the European Parliament ( http://arxiv.org/abs/2309.11381v1 ) ライセンス: Link先を確認 | Aswin Suresh, Lazar Radojevic, Francesco Salvi, Antoine Magron, Victor Kristof, Matthias Grossglauser | (参考訳) 本研究では,欧州議会(EP)における法律制定過程における利害グループ(趣味)の影響を研究するための自然言語処理(NLP)に基づく手法を提案する。
我々は,EP(MEPs)のメンバーによるロビーの位置紙とスピーチの新しいデータセットを収集し,分析する。
これらのテキストを意味的類似性と包摂性に基づいて比較することにより、MEPとロビー間の解釈可能なリンクを発見することができる。
このようなリンクの基幹データがない場合には、発見したリンクと、収集したデータセットを比較し、MEPとロビー間のリツイートリンクと、公開されたMEPのミーティングを比較して間接的検証を行う。
最適解法はAUCスコア0.77を達成し,いくつかの基準値よりも大幅に向上した。
さらに、関連するロビーのグループとMEPの政治グループとの間のリンクの集約分析は、グループのイデオロギーからの期待に対応している(例えば、中央左派グループは社会的原因と関連している)。
この研究は、方法論、データセット、結果を含むもので、民主的な組織における複雑な意思決定プロセスの透明性を高めるためのステップであると考えています。 We present a method based on natural language processing (NLP), for studying the influence of interest groups (lobbies) in the law-making process in the European Parliament (EP). We collect and analyze novel datasets of lobbies' position papers and speeches made by members of the EP (MEPs). By comparing these texts on the basis of semantic similarity and entailment, we are able to discover interpretable links between MEPs and lobbies. In the absence of a ground-truth dataset of such links, we perform an indirect validation by comparing the discovered links with a dataset, which we curate, of retweet links between MEPs and lobbies, and with the publicly disclosed meetings of MEPs. Our best method achieves an AUC score of 0.77 and performs significantly better than several baselines. Moreover, an aggregate analysis of the discovered links, between groups of related lobbies and political groups of MEPs, correspond to the expectations from the ideology of the groups (e.g., center-left groups are associated with social causes). We believe that this work, which encompasses the methodology, datasets, and results, is a step towards enhancing the transparency of the intricate decision-making processes within democratic institutions. | 翻訳日:2023-09-21 12:37:46 公開日:2023-09-20 |
# 制御可能な品質-レイテンシトレードオフを持つ同時音声翻訳のためのインクリメンタルブロックワイズビーム探索 Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff ( http://arxiv.org/abs/2309.11379v1 ) ライセンス: Link先を確認 | Peter Pol\'ak, Brian Yan, Shinji Watanabe, Alex Waibel, Ond\v{r}ej Bojar | (参考訳) ブロックワイズ自己対応エンコーダモデルが最近,同時音声翻訳へのエンドツーエンドアプローチとして注目されている。
これらのモデルは、さらに翻訳する前に、より入力された音声を待つタイミングを決定するために、仮説信頼度スコアを持つブロックワイズビーム探索を用いる。
しかし、この方法は、音声入力全体が消費されるまで複数の仮説を維持する -- このスキームは、ユーザに1つの \textit{incremental} 翻訳を直接示すことはできない。
さらに、このメソッドには、品質とレイテンシのトレードオフに関する \textit{controlling} のメカニズムが欠けている。
本稿では,局所的合意や hold-n$ ポリシーを組み込んだブロックワイズビーム探索法を提案する。
オンラインまたはオフラインの翻訳用にトレーニングされたモデルに適用し、両方のタイプがオンラインモードで効果的に使用できることを示す。
must-cの実験結果では、0.6-3.6 bleu がレイテンシーを変えずに改善し、0.8-1.4 s のレイテンシーが品質を変えずに改善した。 Blockwise self-attentional encoder models have recently emerged as one promising end-to-end approach to simultaneous speech translation. These models employ a blockwise beam search with hypothesis reliability scoring to determine when to wait for more input speech before translating further. However, this method maintains multiple hypotheses until the entire speech input is consumed -- this scheme cannot directly show a single \textit{incremental} translation to users. Further, this method lacks mechanisms for \textit{controlling} the quality vs. latency tradeoff. We propose a modified incremental blockwise beam search incorporating local agreement or hold-$n$ policies for quality-latency control. We apply our framework to models trained for online or offline translation and demonstrate that both types can be effectively used in online mode. Experimental results on MuST-C show 0.6-3.6 BLEU improvement without changing latency or 0.8-1.4 s latency improvement without changing quality. | 翻訳日:2023-09-21 12:37:26 公開日:2023-09-20 |
# 事前条件付き連合学習 Preconditioned Federated Learning ( http://arxiv.org/abs/2309.11378v1 ) ライセンス: Link先を確認 | Zeyi Tao, Jindi Wu, Qun Li | (参考訳) Federated Learning(FL)は、コミュニケーションの効率的かつプライバシ保護の方法でモデルトレーニングを可能にする分散機械学習アプローチである。
FLの標準的な最適化手法はFedAvg(Federated Averaging)であり、通信ラウンド間で複数のローカルSGDステップを実行する。
FedAvgは、現代の一階適応最適化と比較してアルゴリズム適応性を欠いていると考えられている。
本稿では,ローカル適応性(PreFed)とサーバサイド適応性(PreFedOp)の2つのフレームワークに基づいた,通信効率のよい新しいFLアルゴリズムを提案する。
提案手法は,新しい共分散行列プリコンディショナーを用いて適応性を導入する。
理論的には、アルゴリズムに収束保証を提供する。
実験により,本手法はi.i.d.と非i.d.の両方で最先端の性能を達成することを示す。 Federated Learning (FL) is a distributed machine learning approach that enables model training in communication efficient and privacy-preserving manner. The standard optimization method in FL is Federated Averaging (FedAvg), which performs multiple local SGD steps between communication rounds. FedAvg has been considered to lack algorithm adaptivity compared to modern first-order adaptive optimizations. In this paper, we propose new communication-efficient FL algortithms based on two adaptive frameworks: local adaptivity (PreFed) and server-side adaptivity (PreFedOp). Proposed methods adopt adaptivity by using a novel covariance matrix preconditioner. Theoretically, we provide convergence guarantees for our algorithms. The empirical experiments show our methods achieve state-of-the-art performances on both i.i.d. and non-i.i.d. settings. | 翻訳日:2023-09-21 12:37:09 公開日:2023-09-20 |
# 時系列EHRから患者の静的情報を学ぶと、プライバシと公正を守るためのアプローチ Learning Patient Static Information from Time-series EHR and an Approach for Safeguarding Privacy and Fairness ( http://arxiv.org/abs/2309.11373v1 ) ライセンス: Link先を確認 | Wei Liao, Joel Voldman | (参考訳) 医療のための機械学習の最近の研究は、患者のプライバシーとアルゴリズムの公正性に関する懸念を提起している。
例えば、以前の研究では、人種情報を明示的に含まない医療データから患者自己申告人種を予測できることが示されている。
しかし、データ識別の程度は不明であり、そのような情報に最小限の影響を受けているモデルを開発する方法がない。
そこで我々は,患者の静的情報を予測するための時系列電子健康記録データの有用性を体系的に検討した。
その結果, 生の時系列データだけでなく, 機械学習モデルから学習した表現から, 生体性に0.851, 二項化に0.869, 自己報告に0.810の領域で, 様々な静的情報を予測できることがわかった。
このような高い予測性能は、幅広い複合性要因に拡張することができ、モデルが異なるタスクのためにトレーニングされた場合でも、異なるコホートを使用して、異なるモデルアーキテクチャとデータベースを使用して存在します。
これらの知見が生み出すプライバシーと公平性を考えると、私たちは時系列データから患者に敏感な属性を分離する構造化潜在空間を学ぶ変分オートエンコーダベースのアプローチを開発します。
本研究は,患者の静的情報を時系列電子健康記録から符号化する機械学習モデルの能力を徹底的に検討し,下流業務における患者に敏感な属性情報を保護するための一般的なアプローチを提案する。 Recent work in machine learning for healthcare has raised concerns about patient privacy and algorithmic fairness. For example, previous work has shown that patient self-reported race can be predicted from medical data that does not explicitly contain racial information. However, the extent of data identification is unknown, and we lack ways to develop models whose outcomes are minimally affected by such information. Here we systematically investigated the ability of time-series electronic health record data to predict patient static information. We found that not only the raw time-series data, but also learned representations from machine learning models, can be trained to predict a variety of static information with area under the receiver operating characteristic curve as high as 0.851 for biological sex, 0.869 for binarized age and 0.810 for self-reported race. Such high predictive performance can be extended to a wide range of comorbidity factors and exists even when the model was trained for different tasks, using different cohorts, using different model architectures and databases. Given the privacy and fairness concerns these findings pose, we develop a variational autoencoder-based approach that learns a structured latent space to disentangle patient-sensitive attributes from time-series data. Our work thoroughly investigates the ability of machine learning models to encode patient static information from time-series electronic health records and introduces a general approach to protect patient-sensitive attribute information for downstream tasks. | 翻訳日:2023-09-21 12:36:56 公開日:2023-09-20 |
# 3d顔再建:法医学への道 3D Face Reconstruction: the Road to Forensics ( http://arxiv.org/abs/2309.11357v1 ) ライセンス: Link先を確認 | Simone Maurizio La Cava, Giulia Orr\`u, Martin Drahansky, Gian Luca Marcialis, Fabio Roli | (参考訳) 画像やビデオからの3D顔の再構成アルゴリズムは、プラスチック手術からエンターテイメント部門に至るまで、多くの分野に適用されている。
しかし、法医学的な応用を見てみると、3Dの顔の復元は、証拠を不明瞭にするためにも引き続きその役割を果たすような厳格な要件を観察しなければならない。
法医学におけるその応用の制約、可能性、限界に関する広範囲な調査はまだ欠落している。
本調査の目的は, 法医学的応用とバイオメトリックスとの関係を明らかにすることであり, 顔認証に焦点をあてることである。
そのため、監視ビデオやマグショット画像から3次元顔再構成アルゴリズムの達成点を分析し、法医学的応用におけるアクティブな役割から3次元顔再構成を分離する現在の障害について論じる。
最後に、基盤となるデータセットを利点と制限とともに検証し、代替あるいは補完する代替案を提案している。 3D face reconstruction algorithms from images and videos are applied to many fields, from plastic surgery to the entertainment sector, thanks to their advantageous features. However, when looking at forensic applications, 3D face reconstruction must observe strict requirements that still make its possible role in bringing evidence to a lawsuit unclear. An extensive investigation of the constraints, potential, and limits of its application in forensics is still missing. Shedding some light on this matter is the goal of the present survey, which starts by clarifying the relation between forensic applications and biometrics, with a focus on face recognition. Therefore, it provides an analysis of the achievements of 3D face reconstruction algorithms from surveillance videos and mugshot images and discusses the current obstacles that separate 3D face reconstruction from an active role in forensic applications. Finally, it examines the underlying data sets, with their advantages and limitations, while proposing alternatives that could substitute or complement them. | 翻訳日:2023-09-21 12:36:29 公開日:2023-09-20 |
# ストリートレベルの画像から都市住宅の自己教師型学習 Self-supervised learning unveils change in urban housing from street-level images ( http://arxiv.org/abs/2309.11354v1 ) ライセンス: Link先を確認 | Steven Stalder, Michele Volpi, Nicolas B\"uttner, Stephen Law, Kenneth Harttgen, Esra Suel | (参考訳) 世界中の都市は、手頃でまともな住宅が不足している。
政策の重要さにもかかわらず、都市の住宅の進捗を効果的に監視・追跡する能力は限られている。
街路レベルの画像に適用した深層学習に基づくコンピュータビジョン手法は、社会経済的・環境的不平等の測定に成功しているが、時間変動ラベルがしばしば利用できないため、時間変化の追跡には時間的イメージを十分に利用しなかった。
2008年から2021年の間に撮影された1500万の街路画像を用いて、ロンドンにおける変化を測定するために自己監督手法を用いた。
バーロウ双生児の新たな適応であるstreet2vecは,手動アノテーションを使わずに季節変化や日々の変化に不変ながら都市構造を埋め込む。
一般的な埋め込みよりも優れ、ストリートレベルの画像からロンドンの住宅供給のポイントレベルの変化を識別し、主要とマイナーな変更を区別した。
この機能は、より生き生きと公平で持続可能な都市に向けた都市計画と政策決定のためのタイムリーな情報を提供することができる。 Cities around the world face a critical shortage of affordable and decent housing. Despite its critical importance for policy, our ability to effectively monitor and track progress in urban housing is limited. Deep learning-based computer vision methods applied to street-level images have been successful in the measurement of socioeconomic and environmental inequalities but did not fully utilize temporal images to track urban change as time-varying labels are often unavailable. We used self-supervised methods to measure change in London using 15 million street images taken between 2008 and 2021. Our novel adaptation of Barlow Twins, Street2Vec, embeds urban structure while being invariant to seasonal and daily changes without manual annotations. It outperformed generic embeddings, successfully identified point-level change in London's housing supply from street-level images, and distinguished between major and minor change. This capability can provide timely information for urban planning and policy decisions toward more liveable, equitable, and sustainable cities. | 翻訳日:2023-09-21 12:36:13 公開日:2023-09-20 |
# GECTurk:トルコの文法的誤り訂正と検出データセット GECTurk: Grammatical Error Correction and Detection Dataset for Turkish ( http://arxiv.org/abs/2309.11346v1 ) ライセンス: Link先を確認 | Atakan Kara, Farrin Marouf Sofian, Andrew Bond and G\"ozde G\"ul \c{S}ahin | (参考訳) 文法的誤り検出・訂正(GEC)ツールは、ネイティブスピーカーや第二言語学習者にとって有用であることが証明されている。
このようなツールの開発には、多くの言語では利用できない大量の並列アノテーションデータが必要である。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
しかし、音韻学的、形態的、統語論的な情報を必要とする複雑な記述規則のため、トルコ語のような形態学的に豊かな言語は単純ではない。
本稿では,トルコ語のための柔軟な拡張可能な合成データ生成パイプラインを提案し,複雑な変換関数によって実装された20以上の専門家による文法と綴り規則(つまり,ルール記述)をカバーする。
このパイプラインを用いて,専門家が編集した記事から,13万文の高品質並列文を導出する。
さらに,映画レビューを手動で注釈付けすることで,より現実的なテストセットを作成する。
タスクを定式化する3つのベースラインを実装します。
一 ニューラルマシンの翻訳、
二 配列のタグ付け及び
三 プリトレーニングされたデコーダのみのモデルによるプレフィックスチューニングにより、強い結果を得る。
さらに,提案手法の伝達性とロバスト性に関する知見を得るために,領域外データセットの徹底的な実験を行う。
以上の結果から,我々のコーパスであるGECTurkは高品質であり,ドメイン外設定の知識伝達を可能にすることが示唆された。
トルコのGECに関するさらなる研究を促進するため、データセット、ベースラインモデル、および合成データ生成パイプラインをhttps://github.com/GGLAB-KU/gecturk.comでリリースします。 Grammatical Error Detection and Correction (GEC) tools have proven useful for native speakers and second language learners. Developing such tools requires a large amount of parallel, annotated data, which is unavailable for most languages. Synthetic data generation is a common practice to overcome the scarcity of such data. However, it is not straightforward for morphologically rich languages like Turkish due to complex writing rules that require phonological, morphological, and syntactic information. In this work, we present a flexible and extensible synthetic data generation pipeline for Turkish covering more than 20 expert-curated grammar and spelling rules (a.k.a., writing rules) implemented through complex transformation functions. Using this pipeline, we derive 130,000 high-quality parallel sentences from professionally edited articles. Additionally, we create a more realistic test set by manually annotating a set of movie reviews. We implement three baselines formulating the task as i) neural machine translation, ii) sequence tagging, and iii) prefix tuning with a pretrained decoder-only model, achieving strong results. Furthermore, we perform exhaustive experiments on out-of-domain datasets to gain insights on the transferability and robustness of the proposed approaches. Our results suggest that our corpus, GECTurk, is high-quality and allows knowledge transfer for the out-of-domain setting. To encourage further research on Turkish GEC, we release our datasets, baseline models, and the synthetic data generation pipeline at https://github.com/GGLAB-KU/gecturk. | 翻訳日:2023-09-21 12:35:53 公開日:2023-09-20 |
# DreamLLM: シンジスティックなマルチモーダル理解と創造 DreamLLM: Synergistic Multimodal Comprehension and Creation ( http://arxiv.org/abs/2309.11499v1 ) ライセンス: Link先を確認 | Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi | (参考訳) 本稿では,マルチモーダル理解と創造の相乗効果が頻繁に見過ごされる多モーダル大規模言語モデル(MLLM)の学習フレームワークであるDreamLLMを提案する。
DreamLLM には2つの基本原理がある。
1つ目は、生のマルチモーダル空間における直接サンプリングによる言語と画像の後方生成モデルである。
このアプローチは、CLIPのような外部特徴抽出器固有の制限と情報損失を回避し、より詳細なマルチモーダル理解を得る。
第二に、DreamLLMは生のインターリーブドドキュメントの生成を促進し、テキストと画像の両方のコンテンツと非構造化レイアウトをモデル化する。
これにより、DreamLLMは条件、限界、共同のマルチモーダル分布を効果的に学習することができる。
その結果、DreamLLMはフリーフォームインターリーブコンテンツを生成する最初のMLLMとなった。
総合的な実験では、学習のシナジーが強化され、ゼロショットのマルチモーダルジェネラリストとしてのドリームの優れたパフォーマンスが強調される。 This paper presents DreamLLM, a learning framework that first achieves versatile Multimodal Large Language Models (MLLMs) empowered with frequently overlooked synergy between multimodal comprehension and creation. DreamLLM operates on two fundamental principles. The first focuses on the generative modeling of both language and image posteriors by direct sampling in the raw multimodal space. This approach circumvents the limitations and information loss inherent to external feature extractors like CLIP, and a more thorough multimodal understanding is obtained. Second, DreamLLM fosters the generation of raw, interleaved documents, modeling both text and image contents, along with unstructured layouts. This allows DreamLLM to learn all conditional, marginal, and joint multimodal distributions effectively. As a result, DreamLLM is the first MLLM capable of generating free-form interleaved content. Comprehensive experiments highlight DreamLLM's superior performance as a zero-shot multimodal generalist, reaping from the enhanced learning synergy. | 翻訳日:2023-09-21 12:27:26 公開日:2023-09-20 |
# 検証の連鎖は大規模言語モデルにおける幻覚を減少させる Chain-of-Verification Reduces Hallucination in Large Language Models ( http://arxiv.org/abs/2309.11495v1 ) ライセンス: Link先を確認 | Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston | (参考訳) 幻覚と呼ばれる、確実で誤った事実情報の生成は、大きな言語モデルでは未解決の問題である。
言語モデルが、その誤りを正すために与えた応答を熟考する能力について検討する。
モデルはまず,チェイン・オブ・バリデーション(CoVe)法を開発する。
(i)初期応答を起草し、次に
(ii) 原案を事実確認するために検証質問を計画する
(iii) 回答が他の回答に偏らないよう、それぞれ独立して回答する。
(iv)最終確認応答を生成する。
実験では、wikidataからリストベースの質問、クローズドブックのmultispanqa、longformテキスト生成など、さまざまなタスクにわたる幻覚の減少を示す。 Generation of plausible yet incorrect factual information, termed hallucination, is an unsolved issue in large language models. We study the ability of language models to deliberate on the responses they give in order to correct their mistakes. We develop the Chain-of-Verification (CoVe) method whereby the model first (i) drafts an initial response; then (ii) plans verification questions to fact-check its draft; (iii) answers those questions independently so the answers are not biased by other responses; and (iv) generates its final verified response. In experiments, we show CoVe decreases hallucinations across a variety of tasks, from list-based questions from Wikidata, closed book MultiSpanQA and longform text generation. | 翻訳日:2023-09-21 12:27:09 公開日:2023-09-20 |
# Text2Reward:強化学習のためのDense Reward関数の自動生成 Text2Reward: Automated Dense Reward Function Generation for Reinforcement Learning ( http://arxiv.org/abs/2309.11489v1 ) ライセンス: Link先を確認 | Tianbao Xie and Siheng Zhao and Chen Henry Wu and Yitao Liu and Qian Luo and Victor Zhong and Yanchao Yang and Tao Yu | (参考訳) 報酬関数の設計は強化学習(RL)における長年にわたる課題であり、専門知識やドメインデータを必要とするため、開発に高いコストがかかる。
そこで本稿では,大規模言語モデル(LLM)に基づく高密度報酬関数の自動生成を行うデータフリーフレームワークであるText2Rewardを紹介する。
自然言語で記述されたゴールを前提として、Text2Rewardは環境のコンパクトな表現に基づく実行可能プログラムとして高密度の報酬関数を生成する。
逆 RL や LLM を使ってスパース報酬コードを記述する最近の作業とは異なり、Text2Reward は解釈可能で、多岐にわたるタスクをカバーし、既存のパッケージを活用し、人間のフィードバックで反復的な改善を可能にする。
ManiSkill2, MetaWorld) と MuJoCo の2つの移動環境において, Text2Reward の評価を行った。
17の操作タスクのうち13で、生成された報酬コードで訓練されたポリシーは、専門家が書いた報酬コードと同等かそれ以上のタスク成功率と収束速度を達成する。
移動課題では, 成功率94%を超える6つの新しい移動動作を学習する。
さらに,本手法を用いてシミュレータでトレーニングしたポリシーを実世界に展開可能であることを示す。
最後に、Text2Rewardは、報酬関数を人間のフィードバックで洗練することでポリシーをさらに改善する。
ビデオはhttps://text-to-reward.github.ioで入手できる。 Designing reward functions is a longstanding challenge in reinforcement learning (RL); it requires specialized knowledge or domain data, leading to high costs for development. To address this, we introduce Text2Reward, a data-free framework that automates the generation of dense reward functions based on large language models (LLMs). Given a goal described in natural language, Text2Reward generates dense reward functions as an executable program grounded in a compact representation of the environment. Unlike inverse RL and recent work that uses LLMs to write sparse reward codes, Text2Reward produces interpretable, free-form dense reward codes that cover a wide range of tasks, utilize existing packages, and allow iterative refinement with human feedback. We evaluate Text2Reward on two robotic manipulation benchmarks (ManiSkill2, MetaWorld) and two locomotion environments of MuJoCo. On 13 of the 17 manipulation tasks, policies trained with generated reward codes achieve similar or better task success rates and convergence speed than expert-written reward codes. For locomotion tasks, our method learns six novel locomotion behaviors with a success rate exceeding 94%. Furthermore, we show that the policies trained in the simulator with our method can be deployed in the real world. Finally, Text2Reward further improves the policies by refining their reward functions with human feedback. Video results are available at https://text-to-reward.github.io | 翻訳日:2023-09-21 12:26:58 公開日:2023-09-20 |
# 孤立林における分布とボリュームベース採点 Distribution and volume based scoring for Isolation Forests ( http://arxiv.org/abs/2309.11450v1 ) ライセンス: Link先を確認 | Hichem Dhouib, Alissa Wilms, Paul Boes | (参考訳) 我々は, 孤立林法における異常検出と異常検出に2つの貢献をした。
最初の貢献は、ランダムツリー推定器間でスコアを集約するために使用されるスコア関数の情報理論的に動機付けられた一般化である。
この一般化により、木全体のアンサンブル平均だけでなく、全体の分布も考慮できる。
第2の寄与は、個々の樹木推定器のレベルでの代替スコアリング機能であり、孤立林の深度に基づくスコアリングを、孤立木の葉ノードに関連付けられたハイパーボリュームに置き換えるものである。
我々は、これらの2つのメソッドを生成データに使用する動機付けを行い、最近かつ徹底した `ADBench' ベンチマークから 34 個のデータセットで評価し、いくつかのデータセットにおける両方の変種に対する標準隔離林の改善と、2つの変種のうちの1つのデータセットにおける平均的な改善を見出した。
結果を再現するためのコードは、提出の一部として利用可能です。 We make two contributions to the Isolation Forest method for anomaly and outlier detection. The first contribution is an information-theoretically motivated generalisation of the score function that is used to aggregate the scores across random tree estimators. This generalisation allows one to take into account not just the ensemble average across trees but instead the whole distribution. The second contribution is an alternative scoring function at the level of the individual tree estimator, in which we replace the depth-based scoring of the Isolation Forest with one based on hyper-volumes associated to an isolation tree's leaf nodes. We motivate the use of both of these methods on generated data and also evaluate them on 34 datasets from the recent and exhaustive ``ADBench'' benchmark, finding significant improvement over the standard isolation forest for both variants on some datasets and improvement on average across all datasets for one of the two variants. The code to reproduce our results is made available as part of the submission. | 翻訳日:2023-09-21 12:26:35 公開日:2023-09-20 |
# 重み平均化はドメインシフト下での知識蒸留を改善する Weight Averaging Improves Knowledge Distillation under Domain Shift ( http://arxiv.org/abs/2309.11446v1 ) ライセンス: Link先を確認 | Valeriy Berezovskiy, Nikita Morozov | (参考訳) 知識蒸留(KD)は、実用的なディープラーニングアプリケーションで広く使われている強力なモデル圧縮技術である。
小さな学生ネットワークを訓練し、より大きな教師ネットワークを模倣することに注力している。
kdは、i.i.d設定において学生の一般化を改善できることは広く知られているが、ドメインシフト下でのパフォーマンス、すなわち、訓練中に見えないドメインのデータによる学生ネットワークのパフォーマンスは、文学においてあまり注目されていない。
本稿では,知識蒸留とドメイン一般化の研究分野を橋渡しするための一歩を踏み出す。
本研究では,SWAD や SMA などの領域一般化文学において提案される平均化技術により,ドメインシフトによる知識蒸留の性能が向上することを示す。
また,KDに適用した場合のSWADおよびSMAと同等の性能を示すため,トレーニング中の検証データの評価を必要としない簡易なウェイト平均化戦略を提案する。
我々は,最終蒸留法であるWeight-Averaged Knowledge Distillation (WAKD) を命名した。 Knowledge distillation (KD) is a powerful model compression technique broadly used in practical deep learning applications. It is focused on training a small student network to mimic a larger teacher network. While it is widely known that KD can offer an improvement to student generalization in i.i.d setting, its performance under domain shift, i.e. the performance of student networks on data from domains unseen during training, has received little attention in the literature. In this paper we make a step towards bridging the research fields of knowledge distillation and domain generalization. We show that weight averaging techniques proposed in domain generalization literature, such as SWAD and SMA, also improve the performance of knowledge distillation under domain shift. In addition, we propose a simplistic weight averaging strategy that does not require evaluation on validation data during training and show that it performs on par with SWAD and SMA when applied to KD. We name our final distillation approach Weight-Averaged Knowledge Distillation (WAKD). | 翻訳日:2023-09-21 12:26:18 公開日:2023-09-20 |
# Signature Activation: ホリスティック・サリエンシのためのスパース信号ビュー Signature Activation: A Sparse Signal View for Holistic Saliency ( http://arxiv.org/abs/2309.11443v1 ) ライセンス: Link先を確認 | Jose Roberto Tello Ayala, Akl C. Fahed, Weiwei Pan, Eugene V. Pomerantsev, Patrick T. Ellinor, Anthony Philippakis, Finale Doshi-Velez | (参考訳) 医療における機械学習の採用は、モデルの透明性と説明可能性を求めている。
本研究では,畳み込みニューラルネットワーク(cnn)出力に対して,総合的かつクラス非依存な説明を生成するサリエンシー手法であるシグネチャアクティベーションを導入する。
本手法は,血管造影などの特定の医療画像が,前景や背景の鮮明な物体を持っているという事実を生かしている。
我々は方法の正当性を理論的に説明する。
冠状血管造影検査における病変検出への有効性を評価することにより,臨床現場での本法の有用性を示す。 The adoption of machine learning in healthcare calls for model transparency and explainability. In this work, we introduce Signature Activation, a saliency method that generates holistic and class-agnostic explanations for Convolutional Neural Network (CNN) outputs. Our method exploits the fact that certain kinds of medical images, such as angiograms, have clear foreground and background objects. We give theoretical explanation to justify our methods. We show the potential use of our method in clinical settings through evaluating its efficacy for aiding the detection of lesions in coronary angiograms. | 翻訳日:2023-09-21 12:26:01 公開日:2023-09-20 |
# スクリーンだけ見る:マルチモーダル・チェーン・オブ・アクション・エージェント You Only Look at Screens: Multimodal Chain-of-Action Agents ( http://arxiv.org/abs/2309.11436v1 ) ライセンス: Link先を確認 | Zhuosheng Zhan, Aston Zhang | (参考訳) 自律ユーザインターフェース(UI)エージェントは、手作業による介入なしにユーザインターフェースと対話することで、タスクの自動化を促進する。
近年,多様な環境において,大規模言語モデル(LLM)を効果的に活用する能力について検討している。
LLMの入出力要件に合わせて、既存のアプローチはサンドボックス環境下で開発され、外部ツールやアプリケーション固有のAPIを使って環境をテキスト要素に解析し、予測されたアクションを解釈する。
したがって、これらのアプローチは推論の非効率性やエラー伝播のリスクに苦しむことが多い。
課題を軽減するため、私たちはAuto-UIという、インターフェースと直接対話するマルチモーダルソリューションを導入し、環境解析やアプリケーション依存APIへの依存を回避します。
さらに、エージェントが実行すべきアクションを決定するのを助けるために、一連の前回のアクション履歴と将来のアクションプランを推定するチェーン・オブ・アクション手法を提案する。
我々は,アプリケーション操作,web検索,webショッピングなどのマルチステップタスクにまたがる,30kのユニークな命令を持つ新しいデバイス制御ベンチマークaitwのアプローチを評価した。
実験の結果,auto-uiは90%の動作タイプ予測精度と74%の動作成功率で最先端の性能を達成できた。
コードはhttps://github.com/cooelf/Auto-UIで公開されている。 Autonomous user interface (UI) agents aim to facilitate task automation by interacting with the user interface without manual intervention. Recent studies have investigated eliciting the capabilities of large language models (LLMs) for effective engagement in diverse environments. To align with the input-output requirement of LLMs, existing approaches are developed under a sandbox setting where they rely on external tools and application-specific APIs to parse the environment into textual elements and interpret the predicted actions. Consequently, those approaches often grapple with inference inefficiency and error propagation risks. To mitigate the challenges, we introduce Auto-UI, a multimodal solution that directly interacts with the interface, bypassing the need for environment parsing or reliance on application-dependent APIs. Moreover, we propose a chain-of-action technique -- leveraging a series of intermediate previous action histories and future action plans -- to help the agent decide what action to execute. We evaluate our approach on a new device-control benchmark AITW with 30K unique instructions, spanning multi-step tasks such as application operation, web searching, and web shopping. Experimental results show that Auto-UI achieves state-of-the-art performance with an action type prediction accuracy of 90% and an overall action success rate of 74%. Code is publicly available at https://github.com/cooelf/Auto-UI. | 翻訳日:2023-09-21 12:25:51 公開日:2023-09-20 |
# 医用画像におけるマイトショット学習の体系的考察 A Systematic Review of Few-Shot Learning in Medical Imaging ( http://arxiv.org/abs/2309.11433v1 ) ライセンス: Link先を確認 | Eva Pachetti, Sara Colantonio | (参考訳) 注釈付き医療画像がないため、大規模なラベル付きデータセットを必要とするディープラーニングモデルのパフォーマンスが制限される。
データ不足の問題を減らし、特にメタラーニングで医療画像分析を強化することができる。
この体系的なレビューは、医療画像学におけるマイナショット学習の包括的概要を提供する。
文献を体系的に検索し,2018年から2023年までの80の関連論文を選定した。
対象は,腫瘍の分類,疾患分類,画像登録,解剖学的構造(心臓,肺など),メタラーニング法などである。
各クラスタについて,論文の分布と現状から得られた結果について検討した。
さらに,すべての研究で共有される一般的なパイプラインを同定した。
レビューでは、ほとんどの結果でデータ不足を克服できる数少ない学習と、ラベル付きのサンプルが少ない新しいタスクに適応できるため、少数の学習を行うためのメタ学習が一般的な選択であることを示している。
加えて、メタラーニング、教師付き学習、半教師付き学習は、医用イメージングにおけるわずかな学習課題や最高のパフォーマンスに取り組むために使われる主要な技術として際立っている。
最後に, 主に心臓領域, 肺領域, 腹部領域を対象としていた。
この体系的なレビューは、医療画像分析と患者医療を改善するためにさらなる研究を促すことを目的としている。 The lack of annotated medical images limits the performance of deep learning models, which usually need large-scale labelled datasets. Few-shot learning techniques can reduce data scarcity issues and enhance medical image analysis, especially with meta-learning. This systematic review gives a comprehensive overview of few-shot learning in medical imaging. We searched the literature systematically and selected 80 relevant articles published from 2018 to 2023. We clustered the articles based on medical outcomes, such as tumour segmentation, disease classification, and image registration; anatomical structure investigated (i.e. heart, lung, etc.); and the meta-learning method used. For each cluster, we examined the papers' distributions and the results provided by the state-of-the-art. In addition, we identified a generic pipeline shared among all the studies. The review shows that few-shot learning can overcome data scarcity in most outcomes and that meta-learning is a popular choice to perform few-shot learning because it can adapt to new tasks with few labelled samples. In addition, following meta-learning, supervised learning and semi-supervised learning stand out as the predominant techniques employed to tackle few-shot learning challenges in medical imaging and also best performing. Lastly, we observed that the primary application areas predominantly encompass cardiac, pulmonary, and abdominal domains. This systematic review aims to inspire further research to improve medical image analysis and patient care. | 翻訳日:2023-09-21 12:25:28 公開日:2023-09-20 |
# 半導体製造における非教師付き故障検出のための時系列データの生成前訓練 Generative Pre-Training of Time-Series Data for Unsupervised Fault Detection in Semiconductor Manufacturing ( http://arxiv.org/abs/2309.11427v1 ) ライセンス: Link先を確認 | Sewoong Lee, JinKyou Choi and Min Su Kim | (参考訳) 本稿では,畳み込みによる時系列異常検出と生成予行変圧器を表すtrace-gptを提案する。
TRACE-GPTは、単変量時系列センサデータを事前訓練し、半導体製造におけるラベルなしデータセット上の障害を検出するように設計されている。
半導体産業では、ウエハ欠陥に直接関係しているため、正常データから異常時系列センサデータを分類することが重要である。
しかし、小さな、ラベルなし、そして混合トレーニングデータでさえ、十分な異常がないため、分類作業は困難である。
本研究では,時間的畳み込みと生成事前学習トランス(gpt)を用いた時系列データの特徴を捉え,交叉エントロピー損失を用いた正規列からの異常シーケンスを分類する。
我々は,オープンデータセット,カリフォルニア大学リバーサイド校(UCR)時系列分類アーカイブ,CVD機器のプロセスログの両方を用いて,従来の教師なしモデルよりも優れた性能を示すことを示す。
私たちのモデルは、すべてのデータセットでEER(Equal Error Rate)が最も高いF1スコアを持ち、オープンデータセットの監督された最先端ベースラインよりわずか0.026低い。 This paper introduces TRACE-GPT, which stands for Time-seRies Anomaly-detection with Convolutional Embedding and Generative Pre-trained Transformers. TRACE-GPT is designed to pre-train univariate time-series sensor data and detect faults on unlabeled datasets in semiconductor manufacturing. In semiconductor industry, classifying abnormal time-series sensor data from normal data is important because it is directly related to wafer defect. However, small, unlabeled, and even mixed training data without enough anomalies make classification tasks difficult. In this research, we capture features of time-series data with temporal convolutional embedding and Generative Pre-trained Transformer (GPT) to classify abnormal sequences from normal sequences using cross entropy loss. We prove that our model shows better performance than previous unsupervised models with both an open dataset, the University of California Riverside (UCR) time-series classification archive, and the process log of our Chemical Vapor Deposition (CVD) equipment. Our model has the highest F1 score at Equal Error Rate (EER) across all datasets and is only 0.026 below the supervised state-of-the-art baseline on the open dataset. | 翻訳日:2023-09-21 12:25:01 公開日:2023-09-20 |
# 分母化アルゴリズムとしての深層ネットワーク:高次元グラフィカルモデルにおける拡散モデルのサンプル効率学習 Deep Networks as Denoising Algorithms: Sample-Efficient Learning of Diffusion Models in High-Dimensional Graphical Models ( http://arxiv.org/abs/2309.11420v1 ) ライセンス: Link先を確認 | Song Mei, Yuchen Wu | (参考訳) 拡散型生成モデルにおけるディープニューラルネットワークによるスコア関数の近似効率について検討する。
既存の近似理論はスコア関数の滑らかさを利用するが、本質的な高次元データに対する次元性の呪いに苦しむ。
この制限は、マルコフ確率場のような画像分布に共通するグラフィカルモデルで発音されるが、スコア関数の近似効率は確立されていない。
そこで本研究では,変分推論のアルゴリズムを用いて,スコア関数をグラフィカルモデルでよく近似できることを示す。
さらに、これらのアルゴリズムは効率的なニューラルネットワーク表現を可能にする。
本稿では、Isingモデル、条件付きIsingモデル、制限付きボルツマンマシン、スパース符号化モデルなどのグラフィカルモデルの例を示す。
拡散型サンプリングのためのオフザシェルフ離散化誤差境界と組み合わせて、深層ニューラルネットワークでスコア関数が学習されると、拡散型生成モデルに縛られる効率的なサンプル複雑性を提供する。 We investigate the approximation efficiency of score functions by deep neural networks in diffusion-based generative modeling. While existing approximation theories utilize the smoothness of score functions, they suffer from the curse of dimensionality for intrinsically high-dimensional data. This limitation is pronounced in graphical models such as Markov random fields, common for image distributions, where the approximation efficiency of score functions remains unestablished. To address this, we observe score functions can often be well-approximated in graphical models through variational inference denoising algorithms. Furthermore, these algorithms are amenable to efficient neural network representation. We demonstrate this in examples of graphical models, including Ising models, conditional Ising models, restricted Boltzmann machines, and sparse encoding models. Combined with off-the-shelf discretization error bounds for diffusion-based sampling, we provide an efficient sample complexity bound for diffusion-based generative modeling when the score function is learned by deep neural networks. | 翻訳日:2023-09-21 12:24:41 公開日:2023-09-20 |
# dyadic 強化学習 Dyadic Reinforcement Learning ( http://arxiv.org/abs/2308.07843v4 ) ライセンス: Link先を確認 | Shuangning Li, Lluis Salvat Niell, Sung Won Choi, Inbal Nahum-Shani, Guy Shani, Susan Murphy | (参考訳) モバイルヘルスは、個人の日常生活に介入することで、健康上の成果を高めることを目的としている。
ケアパートナーやソーシャルサポートネットワークの関与は、個人が負担の多い医療状況を管理するのに不可欠である。
これは、社会的支援を強化することを目的として、ダイアド関係(対象者とケアパートナーの関係)をターゲットにした介入をデザインする機会を提供する。
本稿では,対象者とその介護パートナーの状況的要因と過去の対応に基づいて,介入配信をパーソナライズするオンライン強化学習アルゴリズムであるdyadic rlを開発した。
ここで、複数の介入セットは、複数の時間間隔にわたってdyadに影響を与える。
開発されたダイド RL はベイズ的かつ階層的である。
問題設定を正式に導入し, Dyadic RLを開発し, 後悔の束縛を確立する。
本研究は,モバイル健康調査で収集したデータから構築した,おもちゃのシナリオと現実的なテストベッドのシミュレーション研究を通じて,ダイアディッドRLの実証性能を実証する。 Mobile health aims to enhance health outcomes by delivering interventions to individuals as they go about their daily life. The involvement of care partners and social support networks often proves crucial in helping individuals managing burdensome medical conditions. This presents opportunities in mobile health to design interventions that target the dyadic relationship -- the relationship between a target person and their care partner -- with the aim of enhancing social support. In this paper, we develop dyadic RL, an online reinforcement learning algorithm designed to personalize intervention delivery based on contextual factors and past responses of a target person and their care partner. Here, multiple sets of interventions impact the dyad across multiple time intervals. The developed dyadic RL is Bayesian and hierarchical. We formally introduce the problem setup, develop dyadic RL and establish a regret bound. We demonstrate dyadic RL's empirical performance through simulation studies on both toy scenarios and on a realistic test bed constructed from data collected in a mobile health study. | 翻訳日:2023-09-21 10:43:43 公開日:2023-09-20 |
# RouteNet-Fermi:グラフニューラルネットワークを用いたネットワークモデリング RouteNet-Fermi: Network Modeling with Graph Neural Networks ( http://arxiv.org/abs/2212.12070v3 ) ライセンス: Link先を確認 | Miquel Ferriol-Galm\'es, Jordi Paillisse, Jos\'e Su\'arez-Varela, Krzysztof Rusek, Shihan Xiao, Xiang Shi, Xiangle Cheng, Pere Barlet-Ros, Albert Cabellos-Aparicio | (参考訳) ネットワークモデルは現代のネットワークの重要なブロックである。
例えば、ネットワークの計画や最適化に広く使われている。
しかし、ネットワークの規模や複雑さが増加するにつれて、キューイング理論モデルにおけるマルコフトラフィックの仮定や、ネットワークシミュレータの計算コストの増大など、いくつかのモデルには限界が存在する。
グラフニューラルネットワーク(gnn)などの機械学習の最近の進歩は、データ駆動で複雑な非線形動作を学習できる新しい世代のネットワークモデルを可能にする。
本稿では、キューイング理論と同じ目標を持つカスタムGNNモデルであるRouteNet-Fermiを提案する。
提案モデルでは,ネットワークの遅延,ジッタ,パケット損失を正確に予測する。
複雑な非マルコフモデルを含むトラフィックプロファイルの混在したサンプルや、任意のルーティングとキュースケジューリングの設定を含む、サイズ(最大300ノード)のネットワークでroutenet-fermiをテストしました。
実験の結果,RouteNet-Fermiはパケットレベルシミュレータと同様の精度を達成し,大規模ネットワークに正確にスケール可能であることがわかった。
本モデルでは,1000サンプルの試験データセットに適用した場合の平均相対誤差6.24%で遅延推定を行い,ネットワークトポロジはトレーニング中に見られたものよりも1桁大きくなった。
最後に,実生活ネットワークの物理的テストベッドとパケットトレースを用いて,RouteNet-Fermiの評価を行った。 Network models are an essential block of modern networks. For example, they are widely used in network planning and optimization. However, as networks increase in scale and complexity, some models present limitations, such as the assumption of Markovian traffic in queuing theory models, or the high computational cost of network simulators. Recent advances in machine learning, such as Graph Neural Networks (GNN), are enabling a new generation of network models that are data-driven and can learn complex non-linear behaviors. In this paper, we present RouteNet-Fermi, a custom GNN model that shares the same goals as Queuing Theory, while being considerably more accurate in the presence of realistic traffic models. The proposed model predicts accurately the delay, jitter, and packet loss of a network. We have tested RouteNet-Fermi in networks of increasing size (up to 300 nodes), including samples with mixed traffic profiles -- e.g., with complex non-Markovian models -- and arbitrary routing and queue scheduling configurations. Our experimental results show that RouteNet-Fermi achieves similar accuracy as computationally-expensive packet-level simulators and scales accurately to larger networks. Our model produces delay estimates with a mean relative error of 6.24% when applied to a test dataset of 1,000 samples, including network topologies one order of magnitude larger than those seen during training. Finally, we have also evaluated RouteNet-Fermi with measurements from a physical testbed and packet traces from a real-life network. | 翻訳日:2023-09-21 10:43:28 公開日:2023-09-20 |
# 最適部分群選択 Optimal subgroup selection ( http://arxiv.org/abs/2109.01077v3 ) ライセンス: Link先を確認 | Henry W. J. Reeve, Timothy I. Cannings, Richard J. Samworth | (参考訳) 臨床試験やその他の応用では、興味深い行動を示す特徴空間の領域がしばしば見られるが、これらの現象が集団レベルで反映されているかどうかは不明である。
回帰設定に着目し,回帰関数が予め決定された閾値を超える特徴空間の領域を識別する部分群選択課題を考える。
我々は、この問題を制約付き最適化の1つとして定式化し、そこでは低複雑さでデータ依存の選択セットを求め、その確率が保証された場合、回帰関数はしきい値の少なくとも一様大となる。
これは自然に後悔の念をもたらすものであり、我々の主な貢献は、サンプルサイズとタイプIエラー確率の両方において、この後悔に対する最小値の最適率を決定することである。
このレートは、回帰関数の滑らかさを制御するパラメータ間の微妙な相互作用と、集団レベルでの最適選択セットが十分に整備された部分集合の族によって近似できる程度を定量化する指数を含んでいる。
最後に, 治療・制御環境への一般化を図示し, これまでの結果の範囲を拡大し, 異種処理効果の利害関係を明らかにした。 In clinical trials and other applications, we often see regions of the feature space that appear to exhibit interesting behaviour, but it is unclear whether these observed phenomena are reflected at the population level. Focusing on a regression setting, we consider the subgroup selection challenge of identifying a region of the feature space on which the regression function exceeds a pre-determined threshold. We formulate the problem as one of constrained optimisation, where we seek a low-complexity, data-dependent selection set on which, with a guaranteed probability, the regression function is uniformly at least as large as the threshold; subject to this constraint, we would like the region to contain as much mass under the marginal feature distribution as possible. This leads to a natural notion of regret, and our main contribution is to determine the minimax optimal rate for this regret in both the sample size and the Type I error probability. The rate involves a delicate interplay between parameters that control the smoothness of the regression function, as well as exponents that quantify the extent to which the optimal selection set at the population level can be approximated by families of well-behaved subsets. Finally, we expand the scope of our previous results by illustrating how they may be generalised to a treatment and control setting, where interest lies in the heterogeneous treatment effect. | 翻訳日:2023-09-21 10:43:03 公開日:2023-09-20 |
# baichuan 2: オープンな大規模言語モデル Baichuan 2: Open Large-scale Language Models ( http://arxiv.org/abs/2309.10305v2 ) ライセンス: Link先を確認 | Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Ce Bian, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong, Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, JunTao Dai, Kun Fang, Lei Su, Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu | (参考訳) 大規模言語モデル(LLM)は、自然言語命令のわずかな例に基づいて、様々な自然言語タスクにおいて顕著な性能を示し、広範な機能工学の必要性を減らした。
しかし、ほとんどの強力なLLMはクローズドソースであり、英語以外の言語に限られている。
本報告では,70億パラメータと130億パラメータを含む大規模多言語モデルであるbaichuan 2について,約2.6兆トークンを用いてスクラッチから学習した。
baichuan 2は、mmlu、cmmlu、gsm8k、humanevalといった公開ベンチマークで同様の大きさの他のオープンソースモデルに匹敵する。
また、バイチュアン2は医学や法律などの垂直領域に優れる。
ベイチュアン2号の訓練力学をより深く理解するために、すべての事前学習モデルチェックポイントをリリースする。 Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2. | 翻訳日:2023-09-21 10:39:07 公開日:2023-09-20 |
# QXAI: 患者モニタリングシステムにおける定量的分析のための説明可能なAIフレームワーク QXAI: Explainable AI Framework for Quantitative Analysis in Patient Monitoring Systems ( http://arxiv.org/abs/2309.10293v2 ) ライセンス: Link先を確認 | Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Juan D. Velasquez, Niall Higgins | (参考訳) 人工知能技術は、患者の身体活動の分類や、遠隔患者の監視に不可欠な兆候を予測するのに使うことができる。
ディープラーニングモデルのような非線形モデルに基づく回帰分析は、ブラックボックスの性質のため説明可能性に制限がある。
これは、意思決定者が、特に医療アプリケーションにおいて、非線形モデルの結果に基づいて盲目な飛躍を行う必要がある。
非侵襲的なモニタリングでは、追跡センサーからの患者データとその臨床属性が将来のバイタルサインを予測するための入力機能として機能する。
モニタリングアプリケーション全体のアウトプットに対する様々な機能の貢献を説明することは、臨床医の意思決定に不可欠である。
本研究では,定量的分析のための説明可能なAI(QXAI)フレームワークを,教師付き学習手法における回帰・分類タスクのポストホックモデル説明可能性と本質的説明性を用いて提案する。
これはshapley valuesの概念を利用し、ディープラーニングモデルに注意の仕組みを組み込むことで達成された。
我々は,センサデータに基づく心拍数予測と身体活動の分類のために,人工ニューラルネットワーク(ANN)と注目に基づく双方向LSTM(BiLSTM)モデルを採用した。
ディープラーニングモデルは、予測と分類の両方のタスクで最先端の結果を得た。
様々な患者データの特徴的寄与を理解するため,入力データに対してグローバル説明と局所的説明を行った。
提案したQXAIフレームワークは,PPG-DaLiAデータを用いて心拍数とモバイルヘルス(MHEALTH)データを予測し,センサデータに基づいて身体活動の分類を行う。
モンテカルロ近似は、Shapley値計算に必要な時間複雑性と高い計算パワー要求を克服するためにフレームワークに適用された。 Artificial Intelligence techniques can be used to classify a patient's physical activities and predict vital signs for remote patient monitoring. Regression analysis based on non-linear models like deep learning models has limited explainability due to its black-box nature. This can require decision-makers to make blind leaps of faith based on non-linear model results, especially in healthcare applications. In non-invasive monitoring, patient data from tracking sensors and their predisposing clinical attributes act as input features for predicting future vital signs. Explaining the contributions of various features to the overall output of the monitoring application is critical for a clinician's decision-making. In this study, an Explainable AI for Quantitative analysis (QXAI) framework is proposed with post-hoc model explainability and intrinsic explainability for regression and classification tasks in a supervised learning approach. This was achieved by utilizing the Shapley values concept and incorporating attention mechanisms in deep learning models. We adopted the artificial neural networks (ANN) and attention-based Bidirectional LSTM (BiLSTM) models for the prediction of heart rate and classification of physical activities based on sensor data. The deep learning models achieved state-of-the-art results in both prediction and classification tasks. Global explanation and local explanation were conducted on input data to understand the feature contribution of various patient data. The proposed QXAI framework was evaluated using PPG-DaLiA data to predict heart rate and mobile health (MHEALTH) data to classify physical activities based on sensor data. Monte Carlo approximation was applied to the framework to overcome the time complexity and high computation power requirements required for Shapley value calculations. | 翻訳日:2023-09-21 10:38:53 公開日:2023-09-20 |
# 点雲異常検出のための点収差の学習 Learning Point-wise Abstaining Penalty for Point Cloud Anomaly Detection ( http://arxiv.org/abs/2309.10230v2 ) ライセンス: Link先を確認 | Shaocong Xu, Pengfei Li, Xinyu Liu, Qianpu Sun, Yang Li, Shihui Guo, Zhen Wang, Bo Jiang, Rui Wang, Kehua Sheng, Bo Zhang, and Hao Zhao | (参考訳) LiDARに基づくセマンティックシーン理解は、現代の自律運転認識スタックにおいて重要なモジュールである。
しかし、LiDARポイントクラウドにおけるout-Of-Distribution(OOD)ポイントの特定は、RGBイメージと比較して意味的にリッチな特徴が欠けているため、難しい。
この問題を,標準閉集合分類設定に選択的関数を導入する選択的分類の観点から再検討する。
私たちのソリューションは、既知のカテゴリの選択を控えるという基本的な考え方に基づいていますが、マージンベースの損失を伴うポイントワイドなペナルティを学習します。
そこで我々は,非現実的な対象のカテゴリ,サンプリングパターン,サイズなど,さまざまな要因から生じる異常値を生成する強力な合成パイプラインを提案する。
我々は,異なる種類の(合成された)アウトレイアに対して,ポイントワイドペナルティ以外の異なる禁罰を学習することが,パフォーマンスをさらに向上させることを示した。
提案手法をSemanticKITTIとnuScenesでベンチマークし,最先端の結果を得た。
リスクカバレッジ分析は、異なる方法の本質的特性をさらに明らかにする。
コードとモデルは公開されます。 LiDAR-based semantic scene understanding is an important module in the modern autonomous driving perception stack. However, identifying Out-Of-Distribution (OOD) points in a LiDAR point cloud is challenging as point clouds lack semantically rich features when compared with RGB images. We revisit this problem from the perspective of selective classification, which introduces a selective function into the standard closed-set classification setup. Our solution is built upon the basic idea of abstaining from choosing any known categories but learns a point-wise abstaining penalty with a marginbased loss. Synthesizing outliers to approximate unlimited OOD samples is also critical to this idea, so we propose a strong synthesis pipeline that generates outliers originated from various factors: unrealistic object categories, sampling patterns and sizes. We demonstrate that learning different abstaining penalties, apart from point-wise penalty, for different types of (synthesized) outliers can further improve the performance. We benchmark our method on SemanticKITTI and nuScenes and achieve state-of-the-art results. Risk-coverage analysis further reveals intrinsic properties of different methods. Codes and models will be publicly available. | 翻訳日:2023-09-21 10:38:11 公開日:2023-09-20 |
# 幅広い形態的変動を扱うための進化的一般制御系 Evolving generalist controllers to handle a wide range of morphological variations ( http://arxiv.org/abs/2309.10201v2 ) ライセンス: Link先を確認 | Corinna Triebold, Anil Yaman | (参考訳) 神経進化的手法は、幅広いタスクに効果的であることが証明されている。
しかし、進化したニューラルネットワーク(anns)のロバスト性と汎用性の研究は、まだ限られている。
このようなコントローラーが制御タスクで使用されるロボティクスのような分野では、これは大きな意味を持つ。
予期せぬ形態変化や環境変化は、ANNコントローラがこれらの変化を処理できなければ失敗する可能性がある。
本稿では,コントローラのロバスト性と汎用性を向上させるアルゴリズムを提案する。
これは進化過程中に形態学的変化を導入することで達成される。
その結果,形態やパラメータの適応に関する情報を必要とせずに,多種多様な形態変化を十分に扱える一般制御器が発見された。
我々は,スペシャリストとジェネラリストコントローラのトレードオフを実証するシミュレーションに関する広範な実験分析を行う。
その結果, 一般学者は, 特定の形態に対して過小評価されるコストで, 様々な形態変化を制御できることが示唆された。
本研究は,神経進化的手法における強靭性と一般化可能性の限定的理解に対処し,これらの特性を改善する手法を提案する。 Neuro-evolutionary methods have proven effective in addressing a wide range of tasks. However, the study of the robustness and generalisability of evolved artificial neural networks (ANNs) has remained limited. This has immense implications in the fields like robotics where such controllers are used in control tasks. Unexpected morphological or environmental changes during operation can risk failure if the ANN controllers are unable to handle these changes. This paper proposes an algorithm that aims to enhance the robustness and generalisability of the controllers. This is achieved by introducing morphological variations during the evolutionary process. As a results, it is possible to discover generalist controllers that can handle a wide range of morphological variations sufficiently without the need of the information regarding their morphologies or adaptation of their parameters. We perform an extensive experimental analysis on simulation that demonstrates the trade-off between specialist and generalist controllers. The results show that generalists are able to control a range of morphological variations with a cost of underperforming on a specific morphology relative to a specialist. This research contributes to the field by addressing the limited understanding of robustness and generalisability in neuro-evolutionary methods and proposes a method by which to improve these properties. | 翻訳日:2023-09-21 10:37:52 公開日:2023-09-20 |
# 軌道予測のための合成運転データの事前学習 Pre-training on Synthetic Driving Data for Trajectory Prediction ( http://arxiv.org/abs/2309.10121v2 ) ライセンス: Link先を確認 | Yiheng Li, Seth Z. Zhao, Chenfeng Xu, Chen Tang, Chenran Li, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan | (参考訳) 大量の実世界の運転データを蓄積することは、自動運転の軌道予測の領域において重要な意味を持つ。
データ駆動型手法による現在の軌道予測モデルに大きく依存していることを踏まえ、データ可用性の限界の下で一般的な軌道予測表現を学習することの課題に取り組むことを目的とする。
hdマップとトラジェクタの両方を強化し,その上に事前学習戦略を適用することを提案する。
具体的には,HD-mapのグラフ表現を利用してベクトル変換を適用して地図を再構成し,限られたシーン数を容易に拡張する。
さらに,ルールベースモデルを用いて,拡張シーンに基づくトラジェクトリを生成することにより,実際のトラジェクトリ以上のトラジェクトリを拡大する。
この拡張データセット内の一般的な表現の学習を促進するため、軌道予測のためのMasked AutoEncoder(MAE)の概念の拡張など、さまざまな事前学習戦略を網羅的に検討する。
大規模な実験では,データ拡張と事前学習戦略の有効性が示され,ベースライン予測モデルでは,MR_6$,$minADE_6$,$minFDE_6$など,5.04%,3.84%,8.30%を大きく上回っている。 Accumulating substantial volumes of real-world driving data proves pivotal in the realm of trajectory forecasting for autonomous driving. Given the heavy reliance of current trajectory forecasting models on data-driven methodologies, we aim to tackle the challenge of learning general trajectory forecasting representations under limited data availability. We propose to augment both HD maps and trajectories and apply pre-training strategies on top of them. Specifically, we take advantage of graph representations of HD-map and apply vector transformations to reshape the maps, to easily enrich the limited number of scenes. Additionally, we employ a rule-based model to generate trajectories based on augmented scenes; thus enlarging the trajectories beyond the collected real ones. To foster the learning of general representations within this augmented dataset, we comprehensively explore the different pre-training strategies, including extending the concept of a Masked AutoEncoder (MAE) for trajectory forecasting. Extensive experiments demonstrate the effectiveness of our data expansion and pre-training strategies, which outperform the baseline prediction model by large margins, e.g. 5.04%, 3.84% and 8.30% in terms of $MR_6$, $minADE_6$ and $minFDE_6$. | 翻訳日:2023-09-21 10:37:35 公開日:2023-09-20 |
# コンテキストは環境です Context is Environment ( http://arxiv.org/abs/2309.09888v2 ) ライセンス: Link先を確認 | Sharut Gupta, Stefanie Jegelka, David Lopez-Paz, Kartik Ahuja | (参考訳) 2行の作業がAI研究の中心的な段階にある。
一方、コミュニティは、散発的な相関を破棄し、新しいテスト環境でより良い一般化を行うモデルを構築するための努力を強めている。
残念ながら、これまでの苦しい教訓は、提案が単純な経験的リスク最小化ベースラインを上回っていないことです。
一方,大規模言語モデル (LLM) は文脈内で学習できるアルゴリズムとして出現し,ユーザがプロンプトによって強制する環境条件を,オンザフライで一般化した。
本稿では,文脈は環境であり,文脈内学習がドメイン一般化の鍵となることを示唆する。
広い理論と実験により、コンテキスト$\unicode{x2013}\unicode{x2013}$unicode{x2013}$labeled examples as they arrive$\unicode{x2013}\unicode{x2013}$allows our proposed In-Context Risk Minimization (ICRM) algorithm to zoom-in on the test environment risk minimalr。
これらから、2つのメッセージは家に帰る価値がある。
ドメイン一般化の研究者は、環境をコンテキストとして考慮し、文脈内学習の適応能力を活用するべきである。
LLMの研究者たちは、コンテキストを環境として考慮し、一般化に向けたデータ構造を改善するべきである。 Two lines of work are taking the central stage in AI research. On the one hand, the community is making increasing efforts to build models that discard spurious correlations and generalize better in novel test environments. Unfortunately, the bitter lesson so far is that no proposal convincingly outperforms a simple empirical risk minimization baseline. On the other hand, large language models (LLMs) have erupted as algorithms able to learn in-context, generalizing on-the-fly to eclectic contextual circumstances that users enforce by means of prompting. In this paper, we argue that context is environment, and posit that in-context learning holds the key to better domain generalization. Via extensive theory and experiments, we show that paying attention to context$\unicode{x2013}\unicode{x2013}$unlabeled examples as they arrive$\unicode{x2013}\unicode{x2013}$allows our proposed In-Context Risk Minimization (ICRM) algorithm to zoom-in on the test environment risk minimizer, leading to significant out-of-distribution performance improvements. From all of this, two messages are worth taking home. Researchers in domain generalization should consider environment as context, and harness the adaptive power of in-context learning. Researchers in LLMs should consider context as environment, to better structure data towards generalization. | 翻訳日:2023-09-21 10:37:12 公開日:2023-09-20 |
# 強化学習のためのコントラスト初期状態バッファ Contrastive Initial State Buffer for Reinforcement Learning ( http://arxiv.org/abs/2309.09752v2 ) ライセンス: Link先を確認 | Nico Messikommer, Yunlong Song, Davide Scaramuzza | (参考訳) 強化学習では、探索と搾取の間のトレードオフは、限られたサンプルから効率的な学習を達成するための複雑な課題となる。
最近の研究は、ポリシー更新に過去の経験を活用するのに効果的だが、データ収集に過去の経験を再利用する可能性をしばしば見落としている。
基礎となるRLアルゴリズムとは独立したコントラスト初期状態バッファ(Contrastive Initial State Buffer)の概念を導入し、過去の経験から状態を戦略的に選択し、エージェントを環境内で初期化し、より情報のある状態へ誘導する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
(i)挑戦的な地形を横断する四足ロボットの移動
(ii)トラックを走るクワッドコプタードローン。
実験の結果,初期状態バッファは通常のベースラインよりも高いタスク性能を実現し,トレーニング収束も高速化した。 In Reinforcement Learning, the trade-off between exploration and exploitation poses a complex challenge for achieving efficient learning from limited samples. While recent works have been effective in leveraging past experiences for policy updates, they often overlook the potential of reusing past experiences for data collection. Independent of the underlying RL algorithm, we introduce the concept of a Contrastive Initial State Buffer, which strategically selects states from past experiences and uses them to initialize the agent in the environment in order to guide it toward more informative states. We validate our approach on two complex robotic tasks without relying on any prior information about the environment: (i) locomotion of a quadruped robot traversing challenging terrains and (ii) a quadcopter drone racing through a track. The experimental results show that our initial state buffer achieves higher task performance than the nominal baseline while also speeding up training convergence. | 翻訳日:2023-09-21 10:36:39 公開日:2023-09-20 |
# 輸送ロボットスケジューリング問題に対する量子最適化のケーススタディ A Quantum Optimization Case Study for a Transport Robot Scheduling Problem ( http://arxiv.org/abs/2309.09736v3 ) ライセンス: Link先を確認 | Dominik Leib, Tobias Seidel, Sven J\"ager, Raoul Heese, Caitlin Isobel Jones, Abhishek Awasthi, Astrid Niederle, Michael Bortz | (参考訳) 本稿では,d-wavesのquantum-classical hybrid framework,futsuのquantum-inspired digital annealer,gurobi's state-of-the-art classical solverの性能比較を行った。
この問題は、産業的に関連のある現実世界のシナリオに由来する。
我々は、異なる設計哲学に従う問題に対して、3つの異なるモデルを提供する。
ベンチマークでは、異なるモデルとソルバの組み合わせのソリューション品質とエンドツーエンドランタイムに焦点を当てています。
ディジタルアニールラーには有望な結果が得られ、グロビと直接比較すると、ハイブリッド量子アニールラーにはいくつかの機会がある。
本研究は、異なる戦略でアプリケーション指向最適化問題を解決するためのワークフローに関する洞察を提供し、異なるアプローチの強みと弱みを評価するのに有用である。 We present a comprehensive case study comparing the performance of D-Waves' quantum-classical hybrid framework, Fujitsu's quantum-inspired digital annealer, and Gurobi's state-of-the-art classical solver in solving a transport robot scheduling problem. This problem originates from an industrially relevant real-world scenario. We provide three different models for our problem following different design philosophies. In our benchmark, we focus on the solution quality and end-to-end runtime of different model and solver combinations. We find promising results for the digital annealer and some opportunities for the hybrid quantum annealer in direct comparison with Gurobi. Our study provides insights into the workflow for solving an application-oriented optimization problem with different strategies, and can be useful for evaluating the strengths and weaknesses of different approaches. | 翻訳日:2023-09-21 10:36:25 公開日:2023-09-20 |
# catr : 視覚映像セグメンテーションのための組合せ依存音声問合せトランスフォーマ CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation ( http://arxiv.org/abs/2309.09709v2 ) ライセンス: Link先を確認 | Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao | (参考訳) AVVS (Audio-visual video segmentation) は、画像フレーム内の音声生成対象のピクセルレベルのマップを生成し、ビデオ内の歌唱者の識別やセグメント化など、所定のオーディオに忠実に忠実に固執することを目的としている。
しかし、既存の方法には2つの制限がある。
1)映像の時間的特徴と音声と視覚の対話的特徴を別々に扱い、音声と映像の組み合わせの空間的時間的依存性を無視し、
2) 復号段階では音声制約やオブジェクトレベルの情報が不十分であり, 音声指示に従わないセグメント化の結果が得られた。
そこで本稿では,これらの問題に対処するために,各時間的および空間的次元から音声と映像の機能を結合した,分離したオーディオビデオトランスフォーマを提案する。
メモリ消費を最適化するために、スタックすると、メモリ効率のよい方法で、視聴覚のきめ細かな組合せ依存性をキャプチャできるブロックを設計する。
さらに,復号段階での音声制約クエリも導入する。
これらのクエリにはリッチなオブジェクトレベルの情報が含まれており、デコードされたマスクが音に付着することを保証する。
実験により,2つのバックボーンを用いた3つのデータセットに対して,新たなSOTA性能を実現することにより,アプローチの有効性を確認した。
コードは \url{https://github.com/aspirinone/catr.github.io} で入手できる。 Audio-visual video segmentation~(AVVS) aims to generate pixel-level maps of sound-producing objects within image frames and ensure the maps faithfully adhere to the given audio, such as identifying and segmenting a singing person in a video. However, existing methods exhibit two limitations: 1) they address video temporal features and audio-visual interactive features separately, disregarding the inherent spatial-temporal dependence of combined audio and video, and 2) they inadequately introduce audio constraints and object-level information during the decoding stage, resulting in segmentation outcomes that fail to comply with audio directives. To tackle these issues, we propose a decoupled audio-video transformer that combines audio and video features from their respective temporal and spatial dimensions, capturing their combined dependence. To optimize memory consumption, we design a block, which, when stacked, enables capturing audio-visual fine-grained combinatorial-dependence in a memory-efficient manner. Additionally, we introduce audio-constrained queries during the decoding phase. These queries contain rich object-level information, ensuring the decoded mask adheres to the sounds. Experimental results confirm our approach's effectiveness, with our framework achieving a new SOTA performance on all three datasets using two backbones. The code is available at \url{https://github.com/aspirinone/CATR.github.io} | 翻訳日:2023-09-21 10:36:09 公開日:2023-09-20 |
# Causal-Story:パラメータ効率を考慮したビジュアルストーリー合成のための局所因果注意 Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis ( http://arxiv.org/abs/2309.09553v2 ) ライセンス: Link先を確認 | Tianyi Song, Jiuxin Cao, Kun Wang, Bo Liu, Xiaofeng Zhang | (参考訳) 拡散モデルの優れたテキストと画像の合成能力は、コヒーレントなビジュアルストーリーの合成の進歩を促した。
現在の最先端の手法は、現在のフレームを生成する条件として、歴史的なキャプション、歴史的なフレーム、そして現在のキャプションの特徴を組み合わせる。
しかし、この方法はそれぞれの歴史的枠とキャプションを同じ貢献として扱う。
すべての歴史的条件が現在のフレームの生成と関連しているわけではないことを無視して、同じ重みでそれらを順番に結びつける。
この問題に対処するため、我々はCausal-Storyを提案する。
このモデルは、以前のキャプション、フレーム、現在のキャプション間の因果関係を考慮した、局所的な因果的注意機構を取り入れている。
この関係に基づいて重みを割り当てることで、因果関係は現在のフレームを生成し、ストーリー生成のグローバル一貫性を向上させる。
本研究では,pororosvとflintstonessvデータセットのモデルを評価し,得られた最新fidスコアを評価した。
Causal-Storyのソースコードはhttps://github.com/styufo/Causal-Storyから入手できる。 The excellent text-to-image synthesis capability of diffusion models has driven progress in synthesizing coherent visual stories. The current state-of-the-art method combines the features of historical captions, historical frames, and the current captions as conditions for generating the current frame. However, this method treats each historical frame and caption as the same contribution. It connects them in order with equal weights, ignoring that not all historical conditions are associated with the generation of the current frame. To address this issue, we propose Causal-Story. This model incorporates a local causal attention mechanism that considers the causal relationship between previous captions, frames, and current captions. By assigning weights based on this relationship, Causal-Story generates the current frame, thereby improving the global consistency of story generation. We evaluated our model on the PororoSV and FlintstonesSV datasets and obtained state-of-the-art FID scores, and the generated frames also demonstrate better storytelling in visuals. The source code of Causal-Story can be obtained from https://github.com/styufo/Causal-Story. | 翻訳日:2023-09-21 10:35:43 公開日:2023-09-20 |
# AI Foundation Models for Weather and Climate: Applications, Design, and implementation AI Foundation Models for Weather and Climate: Applications, Design, and Implementation ( http://arxiv.org/abs/2309.10808v2 ) ライセンス: Link先を確認 | S. Karthik Mukkavilli, Daniel Salles Civitarese, Johannes Schmude, Johannes Jakubik, Anne Jones, Nam Nguyen, Christopher Phillips, Sujit Roy, Shraddha Singh, Campbell Watson, Raghu Ganti, Hendrik Hamann, Udaysankar Nair, Rahul Ramachandran, Kommy Weldemariam | (参考訳) 機械学習と深層学習は、大気のカオス的な振る舞いを理解し、天気予報を促進するために広く研究されてきた。
テクノロジー企業、政府機関、気象庁から、地球のデジタル双生児建設への関心が高まっている。
変換器、物理インフォームド機械学習、グラフニューラルネットワークを用いた最近のアプローチは、比較的狭い時空間スケールと特定のタスクに対して最先端の性能を示す。
言語モデリングとビジョンのための事前学習されたトランスフォーマーと、迅速なエンジニアリングと微調整のためのAI(Generative AI)の成功により、私たちは現在、一般化可能なAIに向かっています。
特に、複数のドメイン固有の下流タスクで競争力のあるAI基盤モデルの台頭を目撃しています。
この進歩にもかかわらず、我々は地球システムモデル、地域気候モデル、メソスケール気象モデルのための一般化可能なAIモデルの初期段階にある。
本稿では, 気象学におけるトランスフォーマーとオペレーターの学習文献を中心に, 最先端のaiアプローチについて概説する。
気象・気候予報の概況予測のための基盤モデル群に対して, 成功基準に関する視点を提示する。
また, ダウンスケーリング (超高分解能) や山火事発生に伴う条件の特定, ハリケーンや大気圧など様々な時空間スケールでの連続気象現象の予測など, 下流の課題に対して, どのように競争力を発揮するかについても論じる。
特に,現在のAI手法について検討し,気象基礎モデルの設計と実装に十分な成熟度を示した。 Machine learning and deep learning methods have been widely explored in understanding the chaotic behavior of the atmosphere and furthering weather forecasting. There has been increasing interest from technology companies, government institutions, and meteorological agencies in building digital twins of the Earth. Recent approaches using transformers, physics-informed machine learning, and graph neural networks have demonstrated state-of-the-art performance on relatively narrow spatiotemporal scales and specific tasks. With the recent success of generative artificial intelligence (AI) using pre-trained transformers for language modeling and vision with prompt engineering and fine-tuning, we are now moving towards generalizable AI. In particular, we are witnessing the rise of AI foundation models that can perform competitively on multiple domain-specific downstream tasks. Despite this progress, we are still in the nascent stages of a generalizable AI model for global Earth system models, regional climate models, and mesoscale weather models. Here, we review current state-of-the-art AI approaches, primarily from transformer and operator learning literature in the context of meteorology. We provide our perspective on criteria for success towards a family of foundation models for nowcasting and forecasting weather and climate predictions. We also discuss how such models can perform competitively on downstream tasks such as downscaling (super-resolution), identifying conditions conducive to the occurrence of wildfires, and predicting consequential meteorological phenomena across various spatiotemporal scales such as hurricanes and atmospheric rivers. In particular, we examine current AI methodologies and contend they have matured enough to design and implement a weather foundation model. | 翻訳日:2023-09-21 10:30:22 公開日:2023-09-20 |
# MelodyGLM:シンボリックメロディ生成のためのマルチタスク事前学習 MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation ( http://arxiv.org/abs/2309.10738v2 ) ライセンス: Link先を確認 | Xinda Wu, Zhijie Huang, Kejun Zhang, Jiaxing Yu, Xu Tan, Tieyao Zhang, Zihao Wang, Lingyun Sun | (参考訳) 事前学習された言語モデルは、様々な音楽理解と生成タスクで印象的な結果を得ている。
しかし,記号的メロディ生成のための既存の事前学習手法では,テキストと音楽間のドメイン知識の相違により,音符列内の多次元構造情報の取得に苦慮している。
さらに、利用可能な大規模シンボリックなメロディデータセットがないため、事前トレーニングの改善は制限される。
本稿では,長期構造を持つメロディ生成のためのマルチタスク事前学習フレームワークであるmelodyglmを提案する。
メロディにおける局所的およびグローバルな構造をモデル化するための局所的およびグローバルな空白埋め込みタスクを作成するために,メロディックn-gramと長スパンサンプリング戦略を設計する。
具体的には、メロディの多次元構造をモデル化するために、ピッチ n-gram 、リズム n-gram およびそれらの組み合わせ n-gram をメロディ n-gram ブランク埋込みタスクに組み込む。
この目的のために,0.4百万以上のメロディ楽曲を含む,大規模なシンボリックメロディデータセットであるmelodynetを構築した。
MelodyNetは大規模事前学習とドメイン固有のn-gramレキシコン構築に利用されている。
主観的および客観的評価は、MelodyGLMが標準および以前の事前学習方法を上回ることを示す。
特に主観評価では,メロディ継続タスクにおいてメロディGLMは平均改善率0.82,0.87,0.78,0.94,リズミシティ,構造,全体的な品質がそれぞれ向上している。
特に、メロディglmは、人間の作曲したメロディの品質とほぼ一致している。 Pre-trained language models have achieved impressive results in various music understanding and generation tasks. However, existing pre-training methods for symbolic melody generation struggle to capture multi-scale, multi-dimensional structural information in note sequences, due to the domain knowledge discrepancy between text and music. Moreover, the lack of available large-scale symbolic melody datasets limits the pre-training improvement. In this paper, we propose MelodyGLM, a multi-task pre-training framework for generating melodies with long-term structure. We design the melodic n-gram and long span sampling strategies to create local and global blank infilling tasks for modeling the local and global structures in melodies. Specifically, we incorporate pitch n-grams, rhythm n-grams, and their combined n-grams into the melodic n-gram blank infilling tasks for modeling the multi-dimensional structures in melodies. To this end, we have constructed a large-scale symbolic melody dataset, MelodyNet, containing more than 0.4 million melody pieces. MelodyNet is utilized for large-scale pre-training and domain-specific n-gram lexicon construction. Both subjective and objective evaluations demonstrate that MelodyGLM surpasses the standard and previous pre-training methods. In particular, subjective evaluations show that, on the melody continuation task, MelodyGLM gains average improvements of 0.82, 0.87, 0.78, and 0.94 in consistency, rhythmicity, structure, and overall quality, respectively. Notably, MelodyGLM nearly matches the quality of human-composed melodies on the melody inpainting task. | 翻訳日:2023-09-21 10:29:53 公開日:2023-09-20 |
# NusaWrites: 表現不足と極端に低リソースな言語のための高品質コーパスの構築 NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages ( http://arxiv.org/abs/2309.10661v2 ) ライセンス: Link先を確認 | Samuel Cahyawijaya, Holy Lovenia, Fajri Koto, Dea Adhista, Emmanuel Dave, Sarah Oktavianti, Salsabil Maulana Akbar, Jhonson Lee, Nuur Shadieq, Tjeng Wawan Cenggoro, Hanung Wahyuning Linuwih, Bryan Wilie, Galih Pradipta Muridan, Genta Indra Winata, David Moeljadi, Alham Fikri Aji, Ayu Purwarianti, Pascale Fung | (参考訳) 自然言語処理(nlp)技術へのアクセスの民主化は、特に低表現言語と極めて低リソース言語において重要である。
これまでの研究は、オンラインスクレイピングと文書翻訳を通じて、これらの言語のためのラベル付きおよびラベルなしコーパスの開発に注力してきた。
これらの手法は有効で費用効率が良いことが証明されているが,語彙多様性の欠如や地域社会への文化的関連性など,コーパスの限界が指摘されている。
このギャップに対処するため,インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
さらに,インドネシアの何百万人もの個人によって話される12の低表現および極低リソース言語を含む, \datasetname{} ベンチマークを提示する。
既存の多言語大言語モデルを用いた実証実験の結果、これらのモデルをより表現不足の言語に拡張する必要性が判明した。
NusaWritesデータセットはhttps://github.com/IndoNLP/nusa-writesでリリースしています。 Democratizing access to natural language processing (NLP) technology is crucial, especially for underrepresented and extremely low-resource languages. Previous research has focused on developing labeled and unlabeled corpora for these languages through online scraping and document translation. While these methods have proven effective and cost-efficient, we have identified limitations in the resulting corpora, including a lack of lexical diversity and cultural relevance to local communities. To address this gap, we conduct a case study on Indonesian local languages. We compare the effectiveness of online scraping, human translation, and paragraph writing by native speakers in constructing datasets. Our findings demonstrate that datasets generated through paragraph writing by native speakers exhibit superior quality in terms of lexical diversity and cultural content. In addition, we present the \datasetname{} benchmark, encompassing 12 underrepresented and extremely low-resource languages spoken by millions of individuals in Indonesia. Our empirical experiment results using existing multilingual large language models conclude the need to extend these models to more underrepresented languages. We release the NusaWrites dataset at https://github.com/IndoNLP/nusa-writes. | 翻訳日:2023-09-21 10:29:24 公開日:2023-09-20 |
# KFC: 公正なコントラスト損失とマルチタスク学習による関係検証 KFC: Kinship Verification with Fair Contrastive Loss and Multi-Task Learning ( http://arxiv.org/abs/2309.10641v2 ) ライセンス: Link先を確認 | Jia Luo Peng, Keng Wei Chang, Shang-Hong Lai | (参考訳) キンシップ検証は、複数の潜在的なアプリケーションを持つコンピュータビジョンにおける新たなタスクである。
しかし、代表的でロバストなモデルをトレーニングするのに十分な親和性データセットは存在しません。
さらに、顔認証は、以前の血縁検証作業で対処されていないバイアスを示し、時に深刻な問題を引き起こすことが知られている。
そこで私たちはまず,既存のkinshipデータセットと各idを適切なレースにラベル付けすることにより,レース情報を考慮し,kinraceデータセットと呼ばれる大規模かつ完全なデータセットを提供する。
次に,最先端性能を超える精度を高めるために,アテンションモジュールを備えたマルチタスク学習モデル構造を提案する。
最後に, 対人学習による公正に配慮した比較的損失関数は, 人種的偏見を著しく軽減する。
従来の対照損失にデビアス項を導入し,2つのフェアネス法を混合してバイアスを緩和する革新的な手法である人種分類タスクに逆勾配を導入する。
実験により, 標準偏差と精度の両面において, 提案したKFCの有効性と優れた性能を示す。 Kinship verification is an emerging task in computer vision with multiple potential applications. However, there's no large enough kinship dataset to train a representative and robust model, which is a limitation for achieving better performance. Moreover, face verification is known to exhibit bias, which has not been dealt with by previous kinship verification works and sometimes even results in serious issues. So we first combine existing kinship datasets and label each identity with the correct race in order to take race information into consideration and provide a larger and complete dataset, called KinRace dataset. Secondly, we propose a multi-task learning model structure with attention module to enhance accuracy, which surpasses state-of-the-art performance. Lastly, our fairness-aware contrastive loss function with adversarial learning greatly mitigates racial bias. We introduce a debias term into traditional contrastive loss and implement gradient reverse in race classification task, which is an innovative idea to mix two fairness methods to alleviate bias. Exhaustive experimental evaluation demonstrates the effectiveness and superior performance of the proposed KFC in both standard deviation and accuracy at the same time. | 翻訳日:2023-09-21 10:29:03 公開日:2023-09-20 |
# PDRL:予測モニタリングのためのマルチエージェント型強化学習 PDRL: Multi-Agent based Reinforcement Learning for Predictive Monitoring ( http://arxiv.org/abs/2309.10576v2 ) ライセンス: Link先を確認 | Thanveer Shaik, Xiaohui Tao, Lin Li, Haoran Xie, U R Acharya, Raj Gururajan, Xujuan Zhou | (参考訳) 強化学習は、以前の経験から学ぶことができ、適応的な決定ができるため、アプリケーションの監視にますます適用されている。
しかしながら、既存の機械学習ベースのヘルスモニタリングアプリケーションは、ほとんどがラベルに基づいてトレーニングされた学習アルゴリズムで、不確定な複雑な環境で適応的な決定を行うことができない。
本研究では, 時系列予測環境における複数のRLエージェントを用いた新しい, 汎用的な予測深化学習(PDRL)を提案する。
提案する汎用フレームワークでは,仮想ディープQネットワーク (DQN) エージェントが複雑な環境の予測された将来状態を監視することで,エージェントが報酬を最大化しながら既存の知識を学習できるようにする。
提案フレームワークの評価プロセスでは,3つのDRLエージェントを配置し,BiLSTMモデルを用いて将来の心拍数,呼吸,温度を予測した。
各イテレーションで、3つのエージェントが関連するパターンを学習し、その累積報酬が徐々に増加した。
3つの監視エージェントのベースラインモデルよりも優れていた。
提案するPDRLフレームワークは,時系列予測プロセスにおいて最先端の性能を実現することができる。
提案するDRLエージェントとPDRLフレームワークのディープラーニングモデルは、トラフィックや天気などの他の予測アプリケーションで転送学習を実装し、状態を監視するためにカスタマイズされる。
PDRLフレームワークは,交通・天気予報の今後の状況を知ることができ,各エピソードにおいて累積報酬が徐々に増加しつつある。 Reinforcement learning has been increasingly applied in monitoring applications because of its ability to learn from previous experiences and can make adaptive decisions. However, existing machine learning-based health monitoring applications are mostly supervised learning algorithms, trained on labels and they cannot make adaptive decisions in an uncertain complex environment. This study proposes a novel and generic system, predictive deep reinforcement learning (PDRL) with multiple RL agents in a time series forecasting environment. The proposed generic framework accommodates virtual Deep Q Network (DQN) agents to monitor predicted future states of a complex environment with a well-defined reward policy so that the agent learns existing knowledge while maximizing their rewards. In the evaluation process of the proposed framework, three DRL agents were deployed to monitor a subject's future heart rate, respiration, and temperature predicted using a BiLSTM model. With each iteration, the three agents were able to learn the associated patterns and their cumulative rewards gradually increased. It outperformed the baseline models for all three monitoring agents. The proposed PDRL framework is able to achieve state-of-the-art performance in the time series forecasting process. The proposed DRL agents and deep learning model in the PDRL framework are customized to implement the transfer learning in other forecasting applications like traffic and weather and monitor their states. The PDRL framework is able to learn the future states of the traffic and weather forecasting and the cumulative rewards are gradually increasing over each episode. | 翻訳日:2023-09-21 10:28:45 公開日:2023-09-20 |
# 正規表現命令による統一制御可能なテキスト生成に向けて Toward Unified Controllable Text Generation via Regular Expression Instruction ( http://arxiv.org/abs/2309.10447v2 ) ライセンス: Link先を確認 | Xin Zheng, Hongyu Lin, Xianpei Han and Le Sun | (参考訳) 制御可能なテキスト生成は自然言語生成の基本的な側面であり、様々な制約タイプに対して多くの手法が提案されている。
しかし、これらのアプローチは、しばしば重要なアーキテクチャやデコードの変更を必要とするため、追加の制約の適用や異なる制約の組み合わせの解決が困難になる。
そこで本研究では,正規表現の利点をフル活用し,多様な制約を均一にモデル化する命令ベース機構を用いた正規表現指導(REI)を提案する。
特に、REIは、正規表現スタイルの命令を通じて、語彙、位置、長さといった、一般的な粒度制御可能な生成制約をすべてサポートしています。
本手法は,中規模言語モデルの微調整や,大規模言語モデルにおけるコンテキスト内学習のみが必要であり,制約の組み合わせにも追加調整を要しない。
実験により、我々の単純なアプローチは、様々な制約に高い成功率と適応性をもたらしながら、自動メトリクスの競争力を保ち、以前のベースラインよりも優れています。 Controllable text generation is a fundamental aspect of natural language generation, with numerous methods proposed for different constraint types. However, these approaches often require significant architectural or decoding modifications, making them challenging to apply to additional constraints or resolve different constraint combinations. To address this, our paper introduces Regular Expression Instruction (REI), which utilizes an instruction-based mechanism to fully exploit regular expressions' advantages to uniformly model diverse constraints. Specifically, our REI supports all popular fine-grained controllable generation constraints, i.e., lexical, positional, and length, as well as their complex combinations, via regular expression-style instructions. Our method only requires fine-tuning on medium-scale language models or few-shot, in-context learning on large language models, and requires no further adjustment when applied to various constraint combinations. Experiments demonstrate that our straightforward approach yields high success rates and adaptability to various constraints while maintaining competitiveness in automatic metrics and outperforming most previous baselines. | 翻訳日:2023-09-21 10:28:21 公開日:2023-09-20 |
# 量子強化学習のための微分可能量子アーキテクチャ探索 Differentiable Quantum Architecture Search for Quantum Reinforcement Learning ( http://arxiv.org/abs/2309.10392v2 ) ライセンス: Link先を確認 | Yize Sun, Yunpu Ma, Volker Tresp | (参考訳) 微分可能量子アーキテクチャサーチ(DQAS)は、NISQ時代に自動的に量子回路を設計するための勾配ベースのフレームワークである。
量子ハードウェアの密度の低さ、回路アーキテクチャの柔軟性の低さ、回路設計コストの高さ、バレンプラトー(BP)問題、重量の周期性などによって動機付けられた。
人々は、固定データセットに基づくエラー緩和、ユニタリ分解、量子近似最適化問題に対処するためにそれを使用した。
量子強化学習(QRL)は量子機械学習の一部であり、様々なデータを持つことが多い。
QRLは通常手動設計の回路を使用する。
しかし、事前定義された回路は様々なタスクに対してより柔軟性を必要とし、大きな回路の場合、様々なデータセットに基づく回路設計は難解になる可能性がある。
DQASが様々なデータセットを用いた量子深層Q-ラーニングに適用できるかどうかという問題は未解決のままである。
この研究の主な目的は、量子深層Q-ラーニング問題を解決するDQASの能力を発見することである。
強化学習タスクに勾配に基づくフレームワークDQASを適用し,2つの異なる環境カートポールと凍結湖で評価する。
入力と出力の重み付け、プログレッシブ検索、その他の新機能が含まれている。
実験の結果、DQASは量子回路を自動かつ効率的に設計できることがわかった。
評価結果から,手動設計回路と比較して優れた性能を示した。
さらに、自動生成回路の性能は、トレーニングプロセス中に学習した超回路の性能に依存する。
この研究は、勾配に基づく量子アーキテクチャ探索がqrlタスクに適用できることを示す最初のものである。 Differentiable quantum architecture search (DQAS) is a gradient-based framework to design quantum circuits automatically in the NISQ era. It was motivated by such as low fidelity of quantum hardware, low flexibility of circuit architecture, high circuit design cost, barren plateau (BP) problem, and periodicity of weights. People used it to address error mitigation, unitary decomposition, and quantum approximation optimization problems based on fixed datasets. Quantum reinforcement learning (QRL) is a part of quantum machine learning and often has various data. QRL usually uses a manually designed circuit. However, the pre-defined circuit needs more flexibility for different tasks, and the circuit design based on various datasets could become intractable in the case of a large circuit. The problem of whether DQAS can be applied to quantum deep Q-learning with various datasets is still open. The main target of this work is to discover the capability of DQAS to solve quantum deep Q-learning problems. We apply a gradient-based framework DQAS on reinforcement learning tasks and evaluate it in two different environments - cart pole and frozen lake. It contains input- and output weights, progressive search, and other new features. The experiments conclude that DQAS can design quantum circuits automatically and efficiently. The evaluation results show significant outperformance compared to the manually designed circuit. Furthermore, the performance of the automatically created circuit depends on whether the super-circuit learned well during the training process. This work is the first to show that gradient-based quantum architecture search is applicable to QRL tasks. | 翻訳日:2023-09-21 10:28:03 公開日:2023-09-20 |
# GloPro:地球規模の不確かさを意識した3D人物推定・追跡 GloPro: Globally-Consistent Uncertainty-Aware 3D Human Pose Estimation & Tracking in the Wild ( http://arxiv.org/abs/2309.10369v2 ) ライセンス: Link先を確認 | Simon Schaefer, Dorian F. Henning, Stefan Leutenegger | (参考訳) 正確で不確実性を意識した3D人体ポーズ推定は、真に安全だが効率的な人間とロボットの相互作用を可能にする鍵となる。
3次元姿勢推定における現在の不確実性認識法は、身体形状や根座を効果的に無視しながら、身体姿勢の不確実性を予測することに限定されている。
本稿では,3次元体メッシュの形状,ポーズ,ルートポーズなどの不確実性分布を,学習された動きモデルと視覚的手がかりを効率的に融合させることによって予測する,最初のフレームワークであるGloProを提案する。
本研究では、世界座標系における人間の軌道精度において最先端の手法を大幅に上回り、一貫した不確実性分布を生成し、リアルタイムに実行可能であることを示す。 An accurate and uncertainty-aware 3D human body pose estimation is key to enabling truly safe but efficient human-robot interactions. Current uncertainty-aware methods in 3D human pose estimation are limited to predicting the uncertainty of the body posture, while effectively neglecting the body shape and root pose. In this work, we present GloPro, which to the best of our knowledge the first framework to predict an uncertainty distribution of a 3D body mesh including its shape, pose, and root pose, by efficiently fusing visual clues with a learned motion model. We demonstrate that it vastly outperforms state-of-the-art methods in terms of human trajectory accuracy in a world coordinate system (even in the presence of severe occlusions), yields consistent uncertainty distributions, and can run in real-time. | 翻訳日:2023-09-21 10:27:38 公開日:2023-09-20 |
# QASnowball: 高品質な質問回答データ生成のための反復型ブートストラッピングフレームワーク QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation ( http://arxiv.org/abs/2309.10326v2 ) ライセンス: Link先を確認 | Kunlun Zhu, Shihao Liang, Xu Han, Zhi Zheng, Guoyang Zeng, Zhiyuan Liu, Maosong Sun | (参考訳) 近年,質問応答(QA)の成功,特に多様なNLPタスクに対処するための基礎パラダイムとしての可能性が注目されている。
しかし、有効で安定したQAシステムを構築するのに十分なデータを取得することは、依然として未解決の問題である。
そこで本研究では,QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を提案する。
具体的には、QASnowballは、3つのモジュール、未ラベル文書の中核句を候補回答として抽出する回答抽出器、文書と候補回答に基づいて質問を生成する質問生成器、高品質QAデータをフィルタリングするQAデータフィルタからなる。
さらに、qasnowballは、シードセットを異なるイテレーションで微調整し、世代品質を継続的に改善することで、自己強調することができる。
我々は、高リソースの英語シナリオと中ソースの中国語シナリオで実験を行い、その実験結果から、QAモデルを促進することが示されている。(1) 生成されたデータに対するトレーニングモデルは、教師付きデータと同等の結果が得られること、(2) 生成されたデータに対する事前トレーニングと教師付きデータの微調整により、より良いパフォーマンスが得られること。
私たちのコードと生成されたデータは、さらなる作業を進めるためにリリースされます。 Recent years have witnessed the success of question answering (QA), especially its potential to be a foundation paradigm for tackling diverse NLP tasks. However, obtaining sufficient data to build an effective and stable QA system still remains an open problem. For this problem, we introduce an iterative bootstrapping framework for QA data augmentation (named QASnowball), which can iteratively generate large-scale high-quality QA data based on a seed set of supervised examples. Specifically, QASnowball consists of three modules, an answer extractor to extract core phrases in unlabeled documents as candidate answers, a question generator to generate questions based on documents and candidate answers, and a QA data filter to filter out high-quality QA data. Moreover, QASnowball can be self-enhanced by reseeding the seed set to fine-tune itself in different iterations, leading to continual improvements in the generation quality. We conduct experiments in the high-resource English scenario and the medium-resource Chinese scenario, and the experimental results show that the data generated by QASnowball can facilitate QA models: (1) training models on the generated data achieves comparable results to using supervised data, and (2) pre-training on the generated data and fine-tuning on supervised data can achieve better performance. Our code and generated data will be released to advance further work. | 翻訳日:2023-09-21 10:27:21 公開日:2023-09-20 |
# TensorCodec: 強いデータ消費を伴わないテンソルのコンパクトな損失圧縮 TensorCodec: Compact Lossy Compression of Tensors without Strong Data Assumptions ( http://arxiv.org/abs/2309.10310v2 ) ライセンス: Link先を確認 | Taehyung Kwon, Jihoon Ko, Jinhong Jung, and Kijung Shin | (参考訳) 多くの実世界のデータセットはテンソル、すなわち数値の多次元配列として表現される。
圧縮なしで保存するには、しばしばかなりの空間を必要とする。
多くのテンソル圧縮アルゴリズムが利用可能であるが、その多くがその順序、空間性、ランク、滑らかさに関する強いデータ仮定に依存している。
本研究では,強い入力データに必ずしも従わない一般のテンソルに対する損失圧縮アルゴリズムであるtensorcodecを提案する。
TENSORCODECには3つの重要なアイデアが含まれている。
最初のアイデアは、ニューラルネットワークをテンソル・トレイン分解に統合し、その表現力を高め、低ランクな仮定によって課される制限を緩和する、NTTD(Neural Tensor-Train Decomposition)である。
もう1つのアイデアは、入力テンソルを高階テンソルに折り畳み、NTTDが必要とする空間を小さくすることである。
最後に、入力テンソルのモード指標を並べ替えて、NTTDによって近似の改善に活用できるパターンを明らかにする。
8つの実世界のデータセットの解析と実験は、テンソルコーデックが
(a)簡潔さ:類似の復元誤差を持つ最高の競合機より最大7.38倍コンパクトな圧縮を与える。
(b)正確:圧縮サイズの予算が同じであれば、最高のコンペティタよりも3.33倍精度が向上する。
(c)スケーラブル:その経験的圧縮時間はテンソルのエントリ数で線形であり、対数時間で各エントリを再構成する。
私たちのコードとデータセットはhttps://github.com/kbrother/TensorCodec.orgで公開されています。 Many real-world datasets are represented as tensors, i.e., multi-dimensional arrays of numerical values. Storing them without compression often requires substantial space, which grows exponentially with the order. While many tensor compression algorithms are available, many of them rely on strong data assumptions regarding its order, sparsity, rank, and smoothness. In this work, we propose TENSORCODEC, a lossy compression algorithm for general tensors that do not necessarily adhere to strong input data assumptions. TENSORCODEC incorporates three key ideas. The first idea is Neural Tensor-Train Decomposition (NTTD) where we integrate a recurrent neural network into Tensor-Train Decomposition to enhance its expressive power and alleviate the limitations imposed by the low-rank assumption. Another idea is to fold the input tensor into a higher-order tensor to reduce the space required by NTTD. Finally, the mode indices of the input tensor are reordered to reveal patterns that can be exploited by NTTD for improved approximation. Our analysis and experiments on 8 real-world datasets demonstrate that TENSORCODEC is (a) Concise: it gives up to 7.38x more compact compression than the best competitor with similar reconstruction error, (b) Accurate: given the same budget for compressed size, it yields up to 3.33x more accurate reconstruction than the best competitor, (c) Scalable: its empirical compression time is linear in the number of tensor entries, and it reconstructs each entry in logarithmic time. Our code and datasets are available at https://github.com/kbrother/TensorCodec. | 翻訳日:2023-09-21 10:26:54 公開日:2023-09-20 |