このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231208となっている論文です。

PDF登録状況(公開日: 20231208)

TitleAuthorsAbstract論文公表日・翻訳日
# MalDicom:DICOMファイルの不正な支払いを検出するためのメモリフォレンジックフレームワーク

MalDicom: A Memory Forensic Framework for Detecting Malicious Payload in DICOM Files ( http://arxiv.org/abs/2312.00483v2 )

ライセンス: Link先を確認
Ayushi Mishra, Priyanka Bagade, (参考訳) デジタルイメージング・コミュニケーションシステム(DICOM)は、医療画像の可搬性のために公衆衛生セクターで広く利用されている。 しかし、これらのDICOMファイルはプリアンブルセクションに脆弱性がある。 これらの脆弱性をうまく利用すれば、攻撃者はDICOMファイルの128バイトプリアンブルに実行可能なコードを埋め込むことができる。 悪意のある実行ファイルの埋め込みは、DICOMイメージの可読性や機能を妨げることはない。 しかし、これらのファイルを見る際には、アンダーラインシステムに静かに影響する。 本稿では,Windows マルウェア実行ファイルのDICOMファイルへの侵入について述べる。 ファイルを見る際には、悪意のあるDICOMが実行され、最終的には放射線科医のワークステーションを通じて病院のネットワーク全体に感染する。 DICOMファイルでマルウェアを実行するコードインジェクションプロセスは、病院のネットワークやワークステーションのメモリに影響を与える。 感染した放射線科医のワークステーションの記憶法医学は、どのマルウェアが病院環境を損なうかを検知し、将来の検出方法を展開できるため、非常に重要である。 本稿では,CIC-MalMem-2022データセットから抽出した3つのメモリダンプカテゴリ(Trojan,Spyware,Ransomware)のメモリフォサイシクスを実行する機械学習(ML)アルゴリズムについて考察する。 我々はランダムフォレストモデルを用いて75%の精度を得る。 MLモデルの予測における機能の重要性を推定するために、Shapley値の概念を活用しました。

Digital Imaging and Communication System (DICOM) is widely used throughout the public health sector for portability in medical imaging. However, these DICOM files have vulnerabilities present in the preamble section. Successful exploitation of these vulnerabilities can allow attackers to embed executable codes in the 128-Byte preamble of DICOM files. Embedding the malicious executable will not interfere with the readability or functionality of DICOM imagery. However, it will affect the underline system silently upon viewing these files. This paper shows the infiltration of Windows malware executables into DICOM files. On viewing the files, the malicious DICOM will get executed and eventually infect the entire hospital network through the radiologist's workstation. The code injection process of executing malware in DICOM files affects the hospital networks and workstations' memory. Memory forensics for the infected radiologist's workstation is crucial as it can detect which malware disrupts the hospital environment, and future detection methods can be deployed. In this paper, we consider the machine learning (ML) algorithms to conduct memory forensics on three memory dump categories: Trojan, Spyware, and Ransomware, taken from the CIC-MalMem-2022 dataset. We obtain the highest accuracy of 75% with the Random Forest model. For estimating the feature importance for ML model prediction, we leveraged the concept of Shapley values.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-08
# GaitGuard: 混合現実におけるプライベート・ゲイトを目指して

GaitGuard: Towards Private Gait in Mixed Reality ( http://arxiv.org/abs/2312.04470v2 )

ライセンス: Link先を確認
Diana Romero, Ruchi Jagdish Patel, Athina Markopoulou, Salma Elmalaki, (参考訳) Augmented/Mixed Reality (AR/MR)デバイスは、没入型マルチユーザコラボレーションエクスペリエンスを提供する能力のため、他のモバイルシステムとは異なる。 これまでの研究では、AR/MRにおける複数のユーザインタラクションのプライバシとセキュリティの側面を調査してきたが、あまり調査されていない領域は、歩行プライバシーの脆弱性である。 ゲイトは、非常に個人主義的で独特な生体特性であるため、私的国家と考えられている。 したがって、新興AR/MRシステムにおける歩行プライバシの保護は、個人を潜在的なアイデンティティ追跡や不正なプロファイリングから保護するために不可欠である。 本稿ではまず,人間の歩行情報を自動的に検出するフレームワークであるGaitExtractを紹介し,AR/MRにおける歩行プライバシのニュアンスに光を当てる。 本稿では,人間の歩行情報を自動的に検出し,ARにおける歩行プライバシの脆弱性を調査するフレームワークであるGaitExtractを設計した。 被験者20名を対象に行った調査では,GaitExtractの精度は最大78%であった。 そこで我々は,AR/MRデバイスのカメラビューに現れる人々の歩行情報を保護するシステムであるGaitGuardを提案する。 さらに、MRコラボレーティブアプリケーションでGaitGuardをテストし、コラボレーティブサーバに緩和フレームをストリーミングしながら22fpsを実現した。 ユーザーの調査によると、GaitGuardがフレームに適用されたとき、ユーザーは歩行中のビデオのリリースに慣れている。 これらの結果は、MRコンテキストにおける歩行プライバシーの懸念を軽減するために、GaitGuardの有効性と実用性を強調している。

Augmented/Mixed Reality (AR/MR) devices are unique from other mobile systems because of their capability to offer an immersive multi-user collaborative experience. While previous studies have explored privacy and security aspects of multiple user interactions in AR/MR, a less-explored area is the vulnerability of gait privacy. Gait is considered a private state because it is a highly individualistic and a distinctive biometric trait. Thus, preserving gait privacy in emerging AR/MR systems is crucial to safeguard individuals from potential identity tracking and unauthorized profiling. This paper first introduces GaitExtract, a framework designed to automatically detect gait information in humans, shedding light on the nuances of gait privacy in AR/MR. In this paper, we designed GaitExtract, a framework that can automatically detect the outside gait information of a human and investigate the vulnerability of gait privacy in AR. In a user study with 20 participants, our findings reveal that participants were uniquely identifiable with an accuracy of up to 78% using GaitExtract. Consequently, we propose GaitGuard, a system that safeguards gait information of people appearing in the camera view of the AR/MR device. Furthermore, we tested GaitGuard in an MR collaborative application, achieving 22 fps while streaming mitigated frames to the collaborative server. Our user-study survey indicated that users are more comfortable with releasing videos of them walking when GaitGuard is applied to the frames. These results underscore the efficacy and practicality of GaitGuard in mitigating gait privacy concerns in MR contexts.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-08
# プログラム知識グラフによるソフトウェア脆弱性の解明

Using Program Knowledge Graph to Uncover Software Vulnerabilities ( http://arxiv.org/abs/2312.04818v1 )

ライセンス: Link先を確認
M. Xie, T. Rahat, W. Wang, Y. Tian, (参考訳) ますます相互接続され、データ駆動の世界では、堅牢なセキュリティ対策の重要性は過大評価されない。 システムから抽出された情報と所望のセキュリティ行動で構築された知識グラフを使用して、システムの下に隠された複雑なセキュリティ脆弱性を特定することができる。 残念ながら、既存のセキュリティ知識グラフは、公開脆弱性レポートから抽出された粗い粒度の情報から構築されている。 本稿では,システムの詳細な実行情報(例えば,コールグラフ,データフローなど)と,公開脆弱性や弱点データセット(例えば,CVE,CWE)から抽出した情報とを埋め込んだプログラム知識グラフを用いた新しい手法を提案する。 さらに、当社のカスタムセキュリティ知識グラフは、LLMが生成する標準クエリに対してチェック可能であることを示し、クリティカルシステムにおけるセキュリティの脆弱性と弱点を特定する強力な方法を提供する。

In an increasingly interconnected and data-driven world, the importance of robust security measures cannot be overstated. A knowledge graph constructed with information extracted from the system along with the desired security behavior can be utilized to identify complex security vulnerabilities hidden underneath the systems. Unfortunately, existing security knowledge graphs are constructed from coarse-grained information extracted from publicly available vulnerability reports, which are not equipped to check actual security violations in real-world system implementations. In this poster, we present a novel approach of using Program Knowledge Graph that is embedded with fine-grained execution information of the systems (e.g., callgraph, data-flow, etc.) along with information extracted from the public vulnerability and weakness datasets (e.g., CVE and CWE). We further demonstrate that our custom security knowledge graph can be checked against the standard queries generated by LLM, providing a powerful way to identify security vulnerabilities and weaknesses in critical systems.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-08
# コンテキスト感度インスティファイションとマルチプラン実行によるDBMSバグの検出

Detecting DBMS Bugs with Context-Sensitive Instantiation and Multi-Plan Execution ( http://arxiv.org/abs/2312.04941v1 )

ライセンス: Link先を確認
Jiaqi Li, Ke Wang, Yaoguang Chen, Yajin Zhou, Lei Wu, Jiashui Wang, (参考訳) DBMSのバグは深刻な結果を引き起こし、セキュリティとプライバシの深刻な懸念を生じさせる。 本稿では,DBMSにおけるメモリのバグやロジックのバグの検出に取り組み,テストケースにおけるSQLクエリのセマンティックな正しい生成方法や,論理のバグを捕捉するための効果的なオーラクルの提案方法など,この2つの課題を解決することを目的とする。 この目的のために,本システムでは2つの重要な手法を提案する。 これは、意味的に有効なSQLクエリを生成するための静的なセマンティックな要求(既存のシステムで使用される識別子タイプに限らない)をすべて考慮したものである。 2つ目の重要なテクニックはマルチプラン実行(multi-plan execution)と呼ばれ、ロジックのバグを効果的にキャプチャすることができる。 テストケースが与えられた場合、マルチプラン実行により、DBMSはデフォルトの最適なものではなく、すべてのクエリプランを実行し、結果を比較する。 実行されたクエリプランの実行結果に違いがある場合、ロジックバグを検出する。 我々は、Kangarooと呼ばれるプロトタイプシステムを実装し、SQLite、PostgreSQL、MySQLを含む、広く使われている、よくテストされている3つのDBMSに適用した。 我々のシステムは50の新たなバグを発見できた。 我々のシステムと最先端システムを比較すると、生成した意味論的に有効なSQLクエリの数、テスト中の探索されたコードパス、検出されたバグなどにおいて、システムの性能が優れていることが分かる。

DBMS bugs can cause serious consequences, posing severe security and privacy concerns. This paper works towards the detection of memory bugs and logic bugs in DBMSs, and aims to solve the two innate challenges, including how to generate semantically correct SQL queries in a test case, and how to propose effective oracles to capture logic bugs. To this end, our system proposes two key techniques. The first key technique is called context-sensitive instantiation, which considers all static semantic requirements (including but not limited to the identifier type used by existing systems) to generate semantically valid SQL queries. The second key technique is called multi-plan execution, which can effectively capture logic bugs. Given a test case, multi-plan execution makes the DBMS execute all query plans instead of the default optimal one, and compares the results. A logic bug is detected if a difference is found among the execution results of the executed query plans. We have implemented a prototype system called Kangaroo and applied it to three widely used and well-tested DBMSs, including SQLite, PostgreSQL, and MySQL. Our system successfully detected 50 new bugs. The comparison between our system with the state-of-the-art systems shows that our system outperforms them in terms of the number of generated semantically valid SQL queries, the explored code paths during testing, and the detected bugs.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-08
# 断層の存在下でのスペクトル利用に関する合意の達成

Achieving Consensus on Spectrum Usage in the Presence of Faults ( http://arxiv.org/abs/2312.05213v1 )

ライセンス: Link先を確認
Arman Mollakhani, Dongning Guo, (参考訳) コンセンサス機構は、複数の演算子のネットワークにおける説明責任を伴う無線スペクトルの共有を促進するために提案され、そのサブセットは逆であるかもしれない。 分散台帳は、干渉インシデントや対応する責任当事者を含むスペクトル使用に関するコンセンサスの状態を記録し、追跡するために使用される。 重要な課題は、作用素が一般にアナログ測定のノイズのために初期一致を持たないことである。 この課題に対処するため、スペクトル共有ソリューションの2つのカテゴリが詳細に研究されている。 第1のカテゴリは、正確にビザンティンフォールトトレラント(BFT)契約モデルを使用し、第2のカテゴリは近似的なBFT契約モデルを使用する。 本稿では,地球低軌道(LEO)非静止衛星ネットワーク(メガコンステレーション)の特定の状況に対するコンセンサスプロトコルの適用についても検討する。

A consensus mechanism is proposed to facilitate radio spectrum sharing with accountability in a network of multiple operators, a subset of which may even be adversarial. A distributed ledger is used to securely record and keep track of the state of consensus on spectrum usage, including interference incidents and the corresponding responsible parties. A key challenge is that the operators generally do not have initial agreement due to noise in their analog measurements. To meet this challenge, two categories of spectrum-sharing solutions are studied in detail. The first category employs an exact Byzantine fault tolerant (BFT) agreement model; the second category utilizes an approximate BFT agreement model. This paper also delves into the application of consensus protocols to the specific context of low Earth orbit (LEO) non-geostationary satellite networks, also known as mega-constellations.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-08
# SynC+SYNC: メモリディスク同期を爆発的に書き込むソフトウェアキャッシュ

SYNC+SYNC: Software Cache Write Covert Channels Exploiting Memory-disk Synchronization ( http://arxiv.org/abs/2312.11501v1 )

ライセンス: Link先を確認
Congcong Chen, Jinhua Cui, Gang Qu, Jiliang Zhang, (参考訳) メモリディスク同期は、特に金融取引や医療記録などの機密情報を扱うシステムにおいて、データの正確性、完全性、セキュリティを保証する重要な技術である。 我々は,メモリディスク同期プリミティブを利用する攻撃群であるSYNC+SYNCを提案する。 SynC+SYNCは書き込みバッファ上で同期のタイミングを微調整することで動作します。 1) ソフトウェアに純粋に実装し,任意のハードウェアデバイスへの展開を可能にする。 2) 既存のキャッシュ分割・ランダム化技術に対する耐性 3)プリフェッチ技術やキャッシュ置換戦略の影響を受けない。 本稿では,SynC+SYNCの原則を,1つのファイルまたはページを用いて2つの書き込み包括チャネルプロトコルを実装し,複数のファイルやページを利用する3つの拡張戦略を提案する。 これらのチャネルの実現性は、様々なオペレーティングシステム(OS)にわたるクロスプロセスとクロスサンドボックスの両方のシナリオで実証されている。 実験の結果、平均レートは2.036 Kb/s(ピークレート14.762 Kb/s)、エラーレートは0%であり、macOS上で実行すると平均レートは10.211 Kb/s(ピークレート253.022 Kb/s)となり、エラーレートは0.004%であることがわかった。 我々の知る限りでは、SynC+SYNCはソフトウェアキャッシュのための最初の高速書き込みカバーチャネルである。

Memory-disk synchronization is a critical technology for ensuring data correctness, integrity, and security, especially in systems that handle sensitive information like financial transactions and medical records. We propose SYNC+SYNC, a group of attacks that exploit the memory-disk synchronization primitives. SYNC+SYNC works by subtly varying the timing of synchronization on the write buffer, offering several advantages: 1) implemented purely in software, enabling deployment on any hardware devices; 2) resilient against existing cache partitioning and randomization techniques; 3) unaffected by prefetching techniques and cache replacement strategies. We present the principles of SYNC+SYNC through the implementation of two write covert channel protocols, using either a single file or page, and introduce three enhanced strategies that utilize multiple files and pages. The feasibility of these channels is demonstrated in both cross-process and cross-sandbox scenarios across diverse operating systems (OSes). Experimental results show that, the average rate can reach 2.036 Kb/s (with a peak rate of 14.762 Kb/s) and the error rate is 0% on Linux; when running on macOS, the average rate achieves 10.211 Kb/s (with a peak rate of 253.022 Kb/s) and the error rate is 0.004%. To the best of our knowledge, SYNC+SYNC is the first high-speed write covert channel for software cache.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-08
# YOLOv8と形状フィッティング技術を用いた商業用果樹の未熟リンゴの検出とサイズ

Immature Green Apple Detection and Sizing in Commercial Orchards using YOLOv8 and Shape Fitting Techniques ( http://arxiv.org/abs/2401.08629v1 )

ライセンス: Link先を確認
Ranjan Sapkota, Dawood Ahmed, Martin Churuvija, Manoj Karkee(参考訳) 成長の初期段階におけるリンゴの大きさの検出と推定は、収量予測、害虫管理、作物の負荷管理、収穫と収穫後の物流、およびマーケティングに関するインフォームドな決定に不可欠である。 伝統的な果実の大きさ測定法は、手間と時間を要する。 本研究は,3次元点雲データ上の幾何形状整合技術と合わせて,最先端のYOLOv8オブジェクト検出とインスタンスセグメンテーションアルゴリズムを用いて,商業用果樹園環境における未熟リンゴ(フルーツレット)のサイズを正確に判定する。 この手法は、Intel RealSense D435iとMicrosoft Azure Kinect DKという2つのRGB-Dセンサーを利用した。 特に、YOLOv8インスタンスセグメンテーションモデルでは未熟なリンゴの検出に習熟し、YOLOv8mセグモデルではAP@0.5とAP@0.75のスコアがそれぞれ0.94と0.91である。 Azure Kinectの画像に楕円体フィッティング技術を活用することで、RMSEの2.35、MAEの1.66、MAPEの6.15、R2乗値の0.9などの顕著な指標を観測した。 YOLOv8が未熟リンゴ群を誤って解釈する部分閉塞などの課題が認められた。 102個の屋外サンプルを比較すると、Microsoft Azure Kinectは、MAEデータでサポートされているIntel Realsense D435iよりも優れたパフォーマンスを示した。 本研究は, 形状適合法と3次元センサの併用による農業用果実サイズの改善を強調する。

Detecting and estimating size of apples during the early stages of growth is crucial for predicting yield, pest management, and making informed decisions related to crop-load management, harvest and post-harvest logistics, and marketing. Traditional fruit size measurement methods are laborious and time-consuming. This study employs the state-of-the-art YOLOv8 object detection and instance segmentation algorithm in conjunction with geometric shape fitting techniques on 3D point cloud data to accurately determine the size of immature green apples (or fruitlet) in a commercial orchard environment. The methodology utilized two RGB-D sensors: the Intel RealSense D435i and the Microsoft Azure Kinect DK. Notably, the YOLOv8 instance segmentation models exhibited proficiency in immature green apple detection, with the YOLOv8m-seg model clinching the highest AP@0.5 and AP@0.75 scores of 0.94 and 0.91, respectively. Leveraging the ellipsoid fitting technique on images from the Azure Kinect, we observed remarkable metrics, including an RMSE of 2.35, MAE of 1.66, MAPE of 6.15, and an R-squared value of 0.9. Challenges such as partial occlusion, where YOLOv8 sometimes misinterpreted immature green apple clusters, were recognized. In a comparison of 102 outdoor samples, the Microsoft Azure Kinect showed better performance than the Intel Realsense D435i, as supported by the MAE data. This study emphasizes the combined effectiveness of shape-fitting methods and 3D sensors in improving fruitlet sizing for agriculture.
翻訳日:2024-01-22 09:50:36 公開日:2023-12-08
# グラフニューラルネットワークを用いた金属ガラスのエネルギー障壁の予測と解釈

Predicting and Interpreting Energy Barriers of Metallic Glasses with Graph Neural Networks ( http://arxiv.org/abs/2401.08627v1 )

ライセンス: Link先を確認
Haoyu Li, Shichang Zhang, Longwen Tang, Mathieu Bauchy, Yizhou Sun(参考訳) 金属ガラス(mgs)は広く用いられる無秩序な材料である。 MGsの局所構造と物性の関係を理解することは、物質科学と凝縮物質物理学の両方にとって最大の課題の1つである。 本研究では, グラフニューラルネットワーク(gnns)を用いて, 原子グラフ構造をモデル化し, 構造とそれに対応する局所エネルギー障壁との関係について検討した。 我々の重要な貢献の一つは、エネルギー障壁を予測するための新しい対称性付きGNN(SymGNN)モデルを提案することである。 このような不変性は、Graph Convolutional Networksのような標準GNNがキャプチャできない、望ましい特性である。 symgnns は表現学習のためのグラフ構造の直交変換を集約することで不変性を処理し、3次元直交変換のすべての最適分布 $\mathcal{o}_3$ は不変性の利点を最大化するために学習される。 我々はSymGNNが他のGNNや非グラフ機械学習モデルよりもエネルギー障壁予測を大幅に改善できることを示した。 このような正確なモデルを用いて,mgsの構造とプロパティの関係を明らかにするために,グラフ説明アルゴリズムを適用する。 我々のGNNフレームワークは,物質物性を効果的に予測し,AIモデルを用いて物質科学研究を促進する。

Metallic Glasses (MGs) are widely used disordered materials. Understanding the relationship between the local structure and physical properties of MGs is one of the greatest challenges for both material science and condensed matter physics. In this work, we utilize Graph Neural Networks (GNNs) to model the atomic graph structure and study the connection between the structure and the corresponding local energy barrier, which is believed to govern many critical physical properties in MGs. One of our key contributions is to propose a novel Symmetrized GNN (SymGNN) model for predicting the energy barriers, which is invariant under orthogonal transformations of the structure, e.g., rotations and reflections. Such invariance is a desired property that standard GNNs like Graph Convolutional Networks cannot capture. SymGNNs handle the invariance by aggregating over orthogonal transformations of the graph structure for representation learning, and an optimal distribution over all 3D orthogonal transformations $\mathcal{O}_3$ is learned to maximize the benefit of invariance. We demonstrate in our experiments that SymGNN can significantly improve the energy barrier prediction over other GNNs and non-graph machine learning models. With such an accurate model, we also apply graph explanation algorithms to better reveal the structure-property relationship of MGs. Our GNN framework allows effective prediction of material physical properties and bolsters material science research through the use of AI models.
翻訳日:2024-01-22 09:50:03 公開日:2023-12-08
# 大域的最適化SAR画像分割モデルは一般ROF復調モデルに容易に変換できる

A global optimization SAR image segmentation model can be easily transformed to a general ROF denoising model ( http://arxiv.org/abs/2312.08376v1 )

ライセンス: Link先を確認
Guangming Liu, Qi Liu, Jing Liang(参考訳) 本論文では,Aubert-Aujol(Aubert-Aujol)復調モデルと変分レベル設定法に基づく局所統計アクティブな輪郭モデル(LACM)を提案する。 次に,凸緩和手法を用いて提案モデルを大域最適化モデルに変換する。 まず,スプリットブレグマン法を適用し,大域最適化モデルをsb_lacmモデルと呼ばれる縮小演算子とラプラス演算子の2つの交互最適化プロセスに変換する。 さらに,sb_lacmモデルよりも効率的な大域的最適化モデルを解くための2つの高速モデルを提案する。 第一のモデルは、大域的最適化モデルを一般的なrofモデル[29]に変換するための近関数を追加することである。 そこで我々は, 偏微分方程式や差分方程式を含まない, 単純な差分計算のみを必要とする大域最適化解法を用いた高速セグメンテーションアルゴリズムを得る。 第二のモデルは、一つのモデルとは異なる分割アプローチを用いて、大域最適化モデルを微分可能な項に変換し、一般のROFモデル項を第一のモデルと同じ手法で解く。 いくつかの挑戦的な合成画像とEnvisat SAR画像を用いた実験は、提案したモデルの最先端モデルに対する優位性を実証している。

In this paper, we propose a novel locally statistical active contour model (LACM) based on Aubert-Aujol (AA) denoising model and variational level set method, which can be used for SAR images segmentation with intensity inhomogeneity. Then we transform the proposed model into a global optimization model by using convex relaxation technique. Firstly, we apply the Split Bregman technique to transform the global optimization model into two alternating optimization processes of Shrink operator and Laplace operator, which is called SB_LACM model. Moreover, we propose two fast models to solve the global optimization model , which are more efficient than the SB_LACM model. The first model is: we add the proximal function to transform the global optimization model to a general ROF model[29], which can be solved by a fast denoising algorithm proposed by R.-Q.Jia, and H.Zhao; Thus we obtain a fast segmentation algorithm with global optimization solver that does not involve partial differential equations or difference equation, and only need simple difference computation. The second model is: we use a different splitting approach than one model to transform the global optimization model into a differentiable term and a general ROF model term, which can be solved by the same technique as the first model. Experiments using some challenging synthetic images and Envisat SAR images demonstrate the superiority of our proposed models with respect to the state-of-the-art models.
翻訳日:2024-01-15 14:38:00 公開日:2023-12-08
# 高階論理への抽象弁証法フレームワークの符号化

An Encoding of Abstract Dialectical Frameworks into Higher-Order Logic ( http://arxiv.org/abs/2312.08375v1 )

ライセンス: Link先を確認
Antoine Martina, Alexander Steen(参考訳) 抽象弁証法フレームワークとその意味論を古典高階論理にエンコードする手法を提案する。 重要な性質と意味的関係は、証明アシスタントIsabelle/HOLを使って正式にコード化され、証明される。 このアプローチは、一様論理環境における自動化および対話的推論ツールを用いた抽象弁証法フレームワークのコンピュータ支援分析を可能にする。 例としては、メタ理論的性質の形式的解析と検証、特定の意味的制約の下での解釈と拡張の生成などがある。

An approach for encoding abstract dialectical frameworks and their semantics into classical higher-order logic is presented. Important properties and semantic relationships are formally encoded and proven using the proof assistant Isabelle/HOL. This approach allows for the computer-assisted analysis of abstract dialectical frameworks using automated and interactive reasoning tools within a uniform logic environment. Exemplary applications include the formal analysis and verification of meta-theoretical properties, and the generation of interpretations and extensions under specific semantic constraints.
翻訳日:2024-01-15 14:37:35 公開日:2023-12-08
# 歴史的カダストラマップ(19世紀頃のステュリア州フランシスセン・カダストレ)と現在の高解像度衛星とリモートセンシングのための空中画像からのAI駆動構造検出と情報抽出

AI-driven Structure Detection and Information Extraction from Historical Cadastral Maps (Early 19th Century Franciscean Cadastre in the Province of Styria) and Current High-resolution Satellite and Aerial Imagery for Remote Sensing ( http://arxiv.org/abs/2312.07560v1 )

ライセンス: Link先を確認
Wolfgang G\"oderle, Christian Macher, Katrin Mauthner, Oliver Pimas, Fabian Rampetsreiter(参考訳) 19世紀のカダストレスは、歴史学者や考古学者にとって複雑で豊かな資料であり、その使用は大きな挑戦をもたらしている。 考古学的および歴史的リモートセンシングのために、我々は、この知識表現から大規模データを抽出するために、いくつかのディープラーニングモデル、cnnおよび視覚トランスフォーマーを訓練した。 本研究の原則的な成果をここに提示し,19世紀のフランシスコ会のカダストレにおいて,研究者や公共の利害関係者が建物の特徴を素早く特定できる,ブラウザベースのツールのデモスタレータを提示する。 このツールは、学者や仲間の研究者がステュリア地域の定住の歴史をよりよく理解するのを支援するだけでなく、公共行政や仲間の市民が地域の文化的遺産に関して、敏感な地域を素早く特定するのに役立つ。

Cadastres from the 19th century are a complex as well as rich source for historians and archaeologists, whose use presents them with great challenges. For archaeological and historical remote sensing, we have trained several Deep Learning models, CNNs as well as Vision Transformers, to extract large-scale data from this knowledge representation. We present the principle results of our work here and we present a the demonstrator of our browser-based tool that allows researchers and public stakeholders to quickly identify spots that featured buildings in the 19th century Franciscean Cadastre. The tool not only supports scholars and fellow researchers in building a better understanding of the settlement history of the region of Styria, it also helps public administration and fellow citizens to swiftly identify areas of heightened sensibility with regard to the cultural heritage of the region.
翻訳日:2024-01-15 14:36:54 公開日:2023-12-08
# 多段ASRの部分書き換え

Partial Rewriting for Multi-Stage ASR ( http://arxiv.org/abs/2312.09463v1 )

ライセンス: Link先を確認
Antoine Bruguier and David Qiu and Yanzhang He(参考訳) 多くのストリーミング自動音声認識タスクにおいて、高品質な最終結果を精査しながら、タイムリーな中間的なストリーミング結果を提供することが重要である。 これは、小さな左コンテキストのみのモデルがストリーミング結果を生成し、大きな左コンテキストと右コンテキストのモデルが最後に最終的な結果を生成するマルチステージアーキテクチャを使って行うことができる。 これにより、システムのストリーミングエミッションレイテンシを損なうことなく最終結果の品質が大幅に向上するが、ストリーミング結果は品質改善の恩恵を受けることはない。 本稿では,両モデルのストリーミング出力をマージするテキスト操作アルゴリズムを提案する。 最終的な結果を変更することなく,ストリーミング結果の品質を約10%向上させる。 我々のアプローチでは、追加のレイテンシは導入せず、フリッカリングを削減します。 また軽量で、モデルの再トレーニングを必要としないため、多段階アーキテクチャにも適用可能である。

For many streaming automatic speech recognition tasks, it is important to provide timely intermediate streaming results, while refining a high quality final result. This can be done using a multi-stage architecture, where a small left-context only model creates streaming results and a larger left- and right-context model produces a final result at the end. While this significantly improves the quality of the final results without compromising the streaming emission latency of the system, streaming results do not benefit from the quality improvements. Here, we propose using a text manipulation algorithm that merges the streaming outputs of both models. We improve the quality of streaming results by around 10%, without altering the final results. Our approach introduces no additional latency and reduces flickering. It is also lightweight, does not require retraining the model, and it can be applied to a wide variety of multi-stage architectures.
翻訳日:2024-01-15 14:13:09 公開日:2023-12-08
# AIを利用した企業知識アクセスと労働者へのリスクの特定のためのフレームワーク

A Framework for Exploring the Consequences of AI-Mediated Enterprise Knowledge Access and Identifying Risks to Workers ( http://arxiv.org/abs/2312.10076v1 )

ライセンス: Link先を確認
Anna Gausen and Bhaskar Mitra and Si\^an Lindley(参考訳) 組織は膨大な量の情報を生成し、エンタープライズ環境での知識アクセスシステムに関する長期的な研究に繋がった。 人工知能の最近の発展は、大きな言語モデルに関連して、知識アクセスに大きな影響を与えている。 これは、新しい予想外の方法で職場と知識を形成する可能性がある。 技術的システムと組織的パワーダイナミクスの相互作用によって、この種のAIシステムの展開によって、多くのリスクが発生する可能性がある。 本稿では、aiを媒介とする企業知識アクセスシステムから労働者のリスクを識別する、結果メカニズム・リスクフレームワークを提案する。 我々は、労働者に対するリスクを詳述した幅広い文献を作成し、労働者の価値、権力、幸福に関するリスクを分類した。 私たちのフレームワークの貢献は、さらに考慮することである (i)道徳輸入であるこれらの制度の結果:コモディフィケーション、分配、権力集中、限界化 (ii)これらの結果がシステムにどのような影響を及ぼすかを示すメカニズム。 このメカニズムは、特定のシステムプロセス内のリスクをコンテキスト化する手段であり、緩和に不可欠である。 このフレームワークは、aiを媒介とするナレッジアクセスシステムの設計と展開に携わる実践者を支援し、労働者にもたらされるリスクを考慮し、これらのリスクをもたらす正確なシステムメカニズムを特定し、緩和にアプローチすることを目的としている。 今後、この枠組みを他の技術システムに適用し、労働者や他のグループの保護を促進する可能性がある。

Organisations generate vast amounts of information, which has resulted in a long-term research effort into knowledge access systems for enterprise settings. Recent developments in artificial intelligence, in relation to large language models, are poised to have significant impact on knowledge access. This has the potential to shape the workplace and knowledge in new and unanticipated ways. Many risks can arise from the deployment of these types of AI systems, due to interactions between the technical system and organisational power dynamics. This paper presents the Consequence-Mechanism-Risk framework to identify risks to workers from AI-mediated enterprise knowledge access systems. We have drawn on wide-ranging literature detailing risks to workers, and categorised risks as being to worker value, power, and wellbeing. The contribution of our framework is to additionally consider (i) the consequences of these systems that are of moral import: commodification, appropriation, concentration of power, and marginalisation, and (ii) the mechanisms, which represent how these consequences may take effect in the system. The mechanisms are a means of contextualising risk within specific system processes, which is critical for mitigation. This framework is aimed at helping practitioners involved in the design and deployment of AI-mediated knowledge access systems to consider the risks introduced to workers, identify the precise system mechanisms that introduce those risks and begin to approach mitigation. Future work could apply this framework to other technological systems to promote the protection of workers and other groups.
翻訳日:2024-01-15 13:48:55 公開日:2023-12-08
# 道徳価値多元主義におけるllmの評価

Assessing LLMs for Moral Value Pluralism ( http://arxiv.org/abs/2312.10075v1 )

ライセンス: Link先を確認
Noam Benkler, Drisana Mosaphir, Scott Friedman, Andrew Smart, Sonja Schmer-Galunder(参考訳) AI電流の分野には、大規模言語モデル(LLM)の出力に固有の道徳的価値を定量的に評価し、潜在的に変化させる方法がない。 しかし、社会科学研究の数十年間、世界価値調査(wvs)のような広く受け入れられた道徳的価値調査が発展し、様々な地理学の直接的疑問から価値判断を引き出した。 我々はこれらの質問を価値ステートメントに変え、NLPを使って、様々な人口統計学や文化の道徳的価値とどのように調和しているかを計算した。 wvsは価値の明示的な評価として受け入れられているが、ソーシャルメディア、政治的修辞、物語、そして日々の生活にますます存在するllmのようなaiシステムによって生成されるメディアにおける暗黙の道徳的、文化的価値を評価する方法が欠けている。 オンラインコンテンツを消費し、llmのアウトプットを利用するとき、どの道徳的価値が暗黙的に宣伝されているか、または、(llmの場合)、彼らが文化的なアイデンティティを表現しようとしているなら、彼らは一貫してやっているのだろうか? 本稿では、RVR(Recognizing Value Resonance) NLPモデルを用いて、与えられた出力テキストに共鳴し、矛盾するWVS値を特定する。 我々は、LLMが生成したテキストにRVRを適用し、暗黙の道徳的価値を特徴づけ、LLMとWVSを用いて調査された様々な人口層の間の道徳的・文化的距離を定量化することができる。 彼らは非西洋諸国の保守的な人々について過大評価しており、非西洋諸国の性別を表す上では正確性が低く、より伝統的な価値を持っていると表現している。 以上の結果から,LLMの複数の価値に対処する社会科学的な技術ソリューションの必要性が浮き彫りとなった。

The fields of AI current lacks methods to quantitatively assess and potentially alter the moral values inherent in the output of large language models (LLMs). However, decades of social science research has developed and refined widely-accepted moral value surveys, such as the World Values Survey (WVS), eliciting value judgments from direct questions in various geographies. We have turned those questions into value statements and use NLP to compute to how well popular LLMs are aligned with moral values for various demographics and cultures. While the WVS is accepted as an explicit assessment of values, we lack methods for assessing implicit moral and cultural values in media, e.g., encountered in social media, political rhetoric, narratives, and generated by AI systems such as LLMs that are increasingly present in our daily lives. As we consume online content and utilize LLM outputs, we might ask, which moral values are being implicitly promoted or undercut, or -- in the case of LLMs -- if they are intending to represent a cultural identity, are they doing so consistently? In this paper we utilize a Recognizing Value Resonance (RVR) NLP model to identify WVS values that resonate and conflict with a given passage of output text. We apply RVR to the text generated by LLMs to characterize implicit moral values, allowing us to quantify the moral/cultural distance between LLMs and various demographics that have been surveyed using the WVS. In line with other work we find that LLMs exhibit several Western-centric value biases; they overestimate how conservative people in non-Western countries are, they are less accurate in representing gender for non-Western countries, and portray older populations as having more traditional values. Our results highlight value misalignment and age groups, and a need for social science informed technological solutions addressing value plurality in LLMs.
翻訳日:2024-01-15 13:48:31 公開日:2023-12-08
# 推薦システムにおけるデータスカシティ:調査

Data Scarcity in Recommendation Systems: A Survey ( http://arxiv.org/abs/2312.10073v1 )

ライセンス: Link先を確認
Zefeng Chen, Wensheng Gan, Jiayang Wu, Kaixia Hu, Hong Lin(参考訳) オンラインコンテンツの普及により、ニュース、広告、電子商取引のレコメンデーションなど様々な目的のレコメンデーションシステム(rss)が広く採用されている。 その重要性にもかかわらず、データ不足問題は既存のrsモデルの有効性を著しく損なっており、その進歩を妨げている。 この課題に対処するため、特に事前訓練された言語モデルのような外部ソースからの知識伝達の概念は、データの不足を緩和し、RS開発を強化する潜在的な解決策として現れる。 しかし、RSにおける知識伝達の実践は複雑である。 ドメイン間の知識伝達はデータ格差を導入し、複雑なRSシナリオにおける知識伝達の適用は、慎重に設計しなければ負の結果をもたらす可能性がある。 そこで本稿は,rssにおけるデータ不足の影響に対処し,データ拡張,自己教師付き学習,転送学習,広義学習,知識グラフ活用といった様々な戦略を導入することで,この課題を緩和する。 さらに、rsドメイン内の課題と今後の方向性に目を向け、特にデータ不足に直面した場合に、堅牢なrssの開発と実装を促進するための洞察を提供する。 我々は、研究者や実践者に対して貴重なガイダンスとインスピレーションを提供することを目標とし、最終的にはRSの分野の進歩を推し進める。

The prevalence of online content has led to the widespread adoption of recommendation systems (RSs), which serve diverse purposes such as news, advertisements, and e-commerce recommendations. Despite their significance, data scarcity issues have significantly impaired the effectiveness of existing RS models and hindered their progress. To address this challenge, the concept of knowledge transfer, particularly from external sources like pre-trained language models, emerges as a potential solution to alleviate data scarcity and enhance RS development. However, the practice of knowledge transfer in RSs is intricate. Transferring knowledge between domains introduces data disparities, and the application of knowledge transfer in complex RS scenarios can yield negative consequences if not carefully designed. Therefore, this article contributes to this discourse by addressing the implications of data scarcity on RSs and introducing various strategies, such as data augmentation, self-supervised learning, transfer learning, broad learning, and knowledge graph utilization, to mitigate this challenge. Furthermore, it delves into the challenges and future direction within the RS domain, offering insights that are poised to facilitate the development and implementation of robust RSs, particularly when confronted with data scarcity. We aim to provide valuable guidance and inspiration for researchers and practitioners, ultimately driving advancements in the field of RS.
翻訳日:2024-01-15 13:48:00 公開日:2023-12-08
# 海上自律システムにおけるAIのセキュア化のためのレッドチームフレームワーク

A Red Teaming Framework for Securing AI in Maritime Autonomous Systems ( http://arxiv.org/abs/2312.11500v1 )

ライセンス: Link先を確認
Mathew J. Walter, Aaron Barrett and Kimberly Tam(参考訳) 人工知能(AI)は、科学と産業のプロセスを自動化するためにユビキタスに採用されている。 しかし、しばしば複雑で不透明な性質のため、AIは本質的に脆弱性を持っていることが示されており、敵AIで悪意ある悪用が可能であり、AIユーザーと開発者をサイバーリスクと物理的リスクの両方に陥れる可能性がある。 さらに、敵AIの現実的な影響とAIセキュリティ検査の不十分さの理解が不十分であるため、多くのAIソリューションでは脅威の増大状況が不明である。 この問題を軽減するため、海上自律システムのAIセキュリティを評価するための最初のレッドチームフレームワークを提案する。 このフレームワークは、運用担当者に、現在および将来のAI技術に対する積極的な(設計によるセキュア)および反応性(デプロイ後の評価)応答を提供する。 このフレームワークはマルチパートのチェックリストであり、異なるシステムや要件に合わせて調整できる。 我々は、このフレームワークが、実世界の海洋自律システムAIにおける多数の脆弱性を明らかにするために、レッドチームにとって非常に効果的であることを示す。 組織的なAIレッドチームから学んだ教訓は、ミッションクリティカルなAIへの依存度を高めて、MAS関連の破滅的な出来事を防ぐのに役立つ。

Artificial intelligence (AI) is being ubiquitously adopted to automate processes in science and industry. However, due to its often intricate and opaque nature, AI has been shown to possess inherent vulnerabilities which can be maliciously exploited with adversarial AI, potentially putting AI users and developers at both cyber and physical risk. In addition, there is insufficient comprehension of the real-world effects of adversarial AI and an inadequacy of AI security examinations; therefore, the growing threat landscape is unknown for many AI solutions. To mitigate this issue, we propose one of the first red team frameworks for evaluating the AI security of maritime autonomous systems. The framework provides operators with a proactive (secure by design) and reactive (post-deployment evaluation) response to securing AI technology today and in the future. This framework is a multi-part checklist, which can be tailored to different systems and requirements. We demonstrate this framework to be highly effective for a red team to use to uncover numerous vulnerabilities within a real-world maritime autonomous systems AI, ranging from poisoning to adversarial patch attacks. The lessons learned from systematic AI red teaming can help prevent MAS-related catastrophic events in a world with increasing uptake and reliance on mission-critical AI.
翻訳日:2024-01-15 13:39:29 公開日:2023-12-08
# 一酸化炭素の基底状態電位と双極子モーメント : 電子相関、相対論的効果、qed、断熱、非断熱補正からの寄与

The ground-state potential and dipole moment of carbon monoxide: contributions from electronic correlation, relativistic effects, QED, adiabatic, and non-adiabatic corrections ( http://arxiv.org/abs/2312.14168v1 )

ライセンス: Link先を確認
D. P. Usov, Y. S. Kozhedub, V. V. Meshkov, A. V. Stolyarov, N. K. Dulaev, N. S. Mosyagin, A. M. Ryzhkov, I. M. Savelyev, V. M. Shabaev, I. I. Tupitsyn(参考訳) CO分子の基底X1{\Sigma}+状態ポテンシャルエネルギー曲線(PEC)と双極子モーメント曲線(DMC)は、非摂動的単一、二重、三重クラスター振幅(CCSDT)を有限場方法論と組み合わせた相対論的結合クラスターアプローチの枠組みの中で再検討されている。 一般相対論的擬似ポテンシャルモデルは、全電子相関処理における相対性理論の有効導入とモデルqed-operatorアプローチにおける量子電気力学(qed)補正の計算に用いられた。 PECに対するボルン・オッペンハイマー補正はCCSD法を用いて評価されている。 また,pecおよびdmcの基底パラメータおよび規則的分子内摂動に対する感度も検討した。 現在のab initioの結果は、最も正確な半経験的な結果と合理的に一致している。

The ground X1{\Sigma}+ state potential energy curve (PEC) and dipole moment curve (DMC) of CO molecule have been revisited within the framework of the relativistic coupled-cluster approach, which incorporates non-perturbative single, double, and triple cluster amplitudes (CCSDT) in conjunction with a finite-field methodology. The generalized relativistic pseudo-potential model was used for the effective introducing the relativity in all-electron correlation treatment and accounting the quantum-electrodynamics (QED) corrections within the model-QED-operator approach. The diagonal Born-Oppenheimer correction to PEC has been evaluated using the CCSD approach. The sensitivity of resulting PEC and DMC to variations in basis set parameters and regular intramolecular perturbations were considered as well. The present ab initio results are in a reasonable agreement with their most accurate semi-empirical counterparts.
翻訳日:2024-01-15 13:14:08 公開日:2023-12-08
# typefly: 大型言語モデルによる飛行ドローン

TypeFly: Flying Drones with Large Language Model ( http://arxiv.org/abs/2312.14950v1 )

ライセンス: Link先を確認
Guojun Chen and Xiaojing Yu and Lin Zhong(参考訳) 自然言語でドローンを操縦することは、ユーザーフレンドリーなだけでなく、新しい言語エージェントがドローンを制御するドアを開く。 新たな大規模言語モデル(LLM)は、自然言語でタスク記述を自動的にドローンで実行できるプログラムに翻訳する、これまで不可能だった機会を提供する。 しかし、強力なLCMとそのビジョンは3つの重要な方法で制限されている。 まず、クラウドベースのサービスとしてのみ利用できる。 画像のクラウドへの送信はプライバシーの問題を引き起こす。 第二に、それらは高価で、要求サイズに比例してコストがかかる。 最後に、高価な微調整なしでは、既存のLCMはドローンのような特殊なシステムのためのプログラムを書く能力にかなり制限がある。 本稿では、エッジベースのビジョンインテリジェンス、新しいプログラミング言語設計、およびプロンプトエンジニアリングの組み合わせを用いて、上記の3つの問題に取り組むtypeflyというシステムを提案する。 慣れ親しんだPythonの代わりに、TypeFlyはクラウドベースのLLMサービスを使用して、MiniSpecと呼ばれる小さなカスタム言語でプログラムを記述する。 このようなMiniSpecプログラムは簡潔で効率的なだけでなく、クエリと呼ばれる特別なスキルを使用して実行中にLCMに相談することができる。 ますます困難なドローンタスクのセットを使用することで、TypeFlyによる設計選択により、LLMサービスのコストとタスク実行時間の両方を2倍以上に削減できることを示す。 さらに重要なのは,typeflyが貢献するクエリとプロンプトエンジニアリング技術が,複雑なタスクの成功率を大幅に向上させる点だ。

Commanding a drone with a natural language is not only user-friendly but also opens the door for emerging language agents to control the drone. Emerging large language models (LLMs) provide a previously impossible opportunity to automatically translate a task description in a natural language to a program that can be executed by the drone. However, powerful LLMs and their vision counterparts are limited in three important ways. First, they are only available as cloud-based services. Sending images to the cloud raises privacy concerns. Second, they are expensive, costing proportionally to the request size. Finally, without expensive fine-tuning, existing LLMs are quite limited in their capability of writing a program for specialized systems like drones. In this paper, we present a system called TypeFly that tackles the above three problems using a combination of edge-based vision intelligence, novel programming language design, and prompt engineering. Instead of the familiar Python, TypeFly gets a cloud-based LLM service to write a program in a small, custom language called MiniSpec, based on task and scene descriptions in English. Such MiniSpec programs are not only succinct (and therefore efficient) but also able to consult the LLM during their execution using a special skill called query. Using a set of increasingly challenging drone tasks, we show that design choices made by TypeFly can reduce both the cost of LLM service and the task execution time by more than 2x. More importantly, query and prompt engineering techniques contributed by TypeFly significantly improve the chance of success of complex tasks.
翻訳日:2024-01-15 13:03:04 公開日:2023-12-08
# オープンソースのpythonライブラリのllmインタラクティブ最適化 - ケーススタディと一般化

LLM Interactive Optimization of Open Source Python Libraries -- Case Studies and Generalization ( http://arxiv.org/abs/2312.14949v1 )

ライセンス: Link先を確認
Andreas Florath, Franz Kiraly(参考訳) gpt-3のような大規模言語モデル(llm)の出現により、ソースコードの最適化にこれらのモデルが利用できる範囲が自然に疑問視される。 本稿では,pythonライブラリであるpillとnumpyに対して,方法論的に厳密なケーススタディを適用する。 現代のLLM ChatGPT-4(2023年9月から10月)は、エネルギーと計算効率の最適化に驚くほど適している。 しかし、これは対話的な使用においてのみ行われ、人間の専門家がループ内にいる。 実験者のバイアスに気付き、定性的なアプローチを詳細に記録し、書き起こしとソースコードを提供する。 まず, 枕ライブラリの_getextrema関数を最適化するため, LLMと対話する際のアプローチの詳細な説明と, 性能改善の定量的評価から始める。 定性的な再現性を示すために,ピローライブラリ内の他の軌跡とnumpyライブラリ内の1つのコード軌跡について,ライブラリ内外の一般化を実証する試みを報告する。 あらゆる試みにおいて、パフォーマンス改善は重要である(最大38要素)。 失敗した試みの報告も省略していません(ありませんでした)。 llmsはオープンソースライブラリのコード最適化に有望なツールだが、ループの人間的エキスパートは成功に欠かせないものだと結論付けている。 それでも、ループのエキスパートにとって明らかでないパフォーマンス改善を実現するために、イテレーションがどれだけ必要だったかに驚きました。 我々は、この研究の質的性質に注意を向け、より堅牢な定量的研究は、代表的なサンプルに専門家を選ぶ層を導入する必要があるだろう。

With the advent of large language models (LLMs) like GPT-3, a natural question is the extent to which these models can be utilized for source code optimization. This paper presents methodologically stringent case studies applied to well-known open source python libraries pillow and numpy. We find that contemporary LLM ChatGPT-4 (state September and October 2023) is surprisingly adept at optimizing energy and compute efficiency. However, this is only the case in interactive use, with a human expert in the loop. Aware of experimenter bias, we document our qualitative approach in detail, and provide transcript and source code. We start by providing a detailed description of our approach in conversing with the LLM to optimize the _getextrema function in the pillow library, and a quantitative evaluation of the performance improvement. To demonstrate qualitative replicability, we report further attempts on another locus in the pillow library, and one code locus in the numpy library, to demonstrate generalization within and beyond a library. In all attempts, the performance improvement is significant (factor up to 38). We have also not omitted reporting of failed attempts (there were none). We conclude that LLMs are a promising tool for code optimization in open source libraries, but that the human expert in the loop is essential for success. Nonetheless, we were surprised by how few iterations were required to achieve substantial performance improvements that were not obvious to the expert in the loop. We would like bring attention to the qualitative nature of this study, more robust quantitative studies would need to introduce a layer of selecting experts in a representative sample -- we invite the community to collaborate.
翻訳日:2024-01-15 13:02:45 公開日:2023-12-08
# 解釈型学習による機能的応答をもつメタマテリアルの逆設計

Generative Inverse Design of Metamaterials with Functional Responses by Interpretable Learning ( http://arxiv.org/abs/2401.00003v1 )

ライセンス: Link先を確認
Wei "Wayne" Chen, Rachel Sun, Doksoo Lee, Carlos M. Portela, Wei Chen(参考訳) 外部刺激下での波動応答や変形誘起特性変化などの機能的応答を持つメタマテリアルは、異なる条件下で様々な特性や機能を示すことができる。 本稿では,これらのメタマテリアルの迅速な逆設計を目標とし,定性的機能的挙動を満たそうとする。 この逆問題は、その難易度と非特異解の存在により困難である。 過去の研究は、データ要求であり、時間を要するトレーニングとハイパーパラメータチューニングを必要とし、解釈不能なディープラーニングベースの手法に重点を置いている。 これらの制約を克服するため、オンデマンド機能を有するメタマテリアル設計の高速な生成を実現するために、単一ショット逆設計法であるRandom-forest-based Interpretable Generative Inverse Design (RIGID)を提案する。 多くの既存手法とは異なり、ランダムな森林の解釈可能性を活用することにより、設計に対する逆モデルマッピング応答をトレーニングする必要がなくなる。 訓練されたフォワードモデルから得られた目標満足度に基づいて、マルコフ連鎖モンテカルロ法を用いた設計解をサンプリングすることができる。 したがって、RIGID法は、設計対象が与えられた満足解の条件分布をキャプチャする生成モデルとして機能する。 小型データセット(250以上のトレーニングサンプル)のみ利用可能な音響および光メタマテリアル設計問題において,剛性の有効性と効率を示す。 合成設計問題は、RIGIDにおける仮説推定のメカニズムをさらに説明し、検証するために作成される。 この研究は、オンデマンドの逆設計問題を解決するための新しい視点を提供し、解釈可能な機械学習を生成的設計に組み込む可能性を示し、その大きなデータ要求を排除する。

Metamaterials with functional responses, such as wave-based responses or deformation-induced property variation under external stimuli, can exhibit varying properties or functionalities under different conditions. Herein, we aim at rapid inverse design of these metamaterials to meet target qualitative functional behaviors. This inverse problem is challenging due to its intractability and the existence of non-unique solutions. Past works mainly focus on deep-learning-based methods that are data-demanding, require time-consuming training and hyperparameter tuning, and are non-interpretable. To overcome these limitations, we propose the Random-forest-based Interpretable Generative Inverse Design (RIGID), a single-shot inverse design method to achieve the fast generation of metamaterial designs with on-demand functional behaviors. Unlike most existing methods, by exploiting the interpretability of the random forest, we eliminate the need to train an inverse model mapping responses to designs. Based on the likelihood of target satisfaction derived from the trained forward model, one can sample design solutions using Markov chain Monte Carlo methods. The RIGID method therefore functions as a generative model that captures the conditional distribution of satisfying solutions given a design target. We demonstrate the effectiveness and efficiency of RIGID on both acoustic and optical metamaterial design problems where only small datasets (less than 250 training samples) are available. Synthetic design problems are created to further illustrate and validate the mechanism of likelihood estimation in RIGID. This work offers a new perspective on solving on-demand inverse design problems, showcasing the potential for incorporating interpretable machine learning into generative design and eliminating its large data requirement.
翻訳日:2024-01-15 12:40:15 公開日:2023-12-08
# 排出報告成熟モデル:性能指標と人工知能による排出関連プロセスの活用を支援する都市

Emissions Reporting Maturity Model: supporting cities to leverage emissions-related processes through performance indicators and artificial intelligence ( http://arxiv.org/abs/2401.00857v1 )

ライセンス: Link先を確認
Victor de A. Xavier and Felipe M.G. Fran\c{c}a and Priscila M.V. Lima(参考訳) 気候変動と地球温暖化は、Eco-92カンファレンス以来世界中でトレンドとなっている。 しかし、温室効果ガス(GHGs)の削減にはほとんど進展がなかった。 排出に関する問題と課題は複雑で、それらに対処するために協力的かつ包括的な努力が必要です。 排出ガス報告はGHG削減政策の重要な要素であり、この研究の焦点となっている。 この仕事の主な目的は次の2つです。 一 排出報告全体の品質を生かした排出報告評価モデルを提案すること。 二 人工知能(AI)を用いて、排出報告を改善するイニシアチブを支援すること。 そこで本研究では,都市が気候変動や地球温暖化問題に対処できるよう,排出報告イニシアチブからのデータの調査,クラスタリング,分析を行うための排出報告成熟モデル(ERMM)を提案する。 本研究で提案されているパフォーマンス指標開発プロセス(PIDP)は、ERMMによって識別された評価の実行に必要なデータの品質を活用する方法を提供する。 したがって、PIDPは、エミッション関連データベースのデータの作成、異なるクラスタリング手法によって強調される類似性に基づくデータの分類、選択されたデータサンプルの質的分析によって強化されたパフォーマンス指標候補の識別をサポートする。 したがって、errmの主な目的は、排出報告プロセスに関する都市を評価し分類することであり、異なる状況の他の都市が直面する欠点と課題を指摘し、最後には、基礎となる排出関連プロセスと排出削減イニシアチブの活用を支援することである。

Climate change and global warming have been trending topics worldwide since the Eco-92 conference. However, little progress has been made in reducing greenhouse gases (GHGs). The problems and challenges related to emissions are complex and require a concerted and comprehensive effort to address them. Emissions reporting is a critical component of GHG reduction policy and is therefore the focus of this work. The main goal of this work is two-fold: (i) to propose an emission reporting evaluation model to leverage emissions reporting overall quality and (ii) to use artificial intelligence (AI) to support the initiatives that improve emissions reporting. Thus, this work presents an Emissions Reporting Maturity Model (ERMM) for examining, clustering, and analysing data from emissions reporting initiatives to help the cities to deal with climate change and global warming challenges. The Performance Indicator Development Process (PIDP) proposed in this work provides ways to leverage the quality of the available data necessary for the execution of the evaluations identified by the ERMM. Hence, the PIDP supports the preparation of the data from emissions-related databases, the classification of the data according to similarities highlighted by different clustering techniques, and the identification of performance indicator candidates, which are strengthened by a qualitative analysis of selected data samples. Thus, the main goal of ERRM is to evaluate and classify the cities regarding the emission reporting processes, pointing out the drawbacks and challenges faced by other cities from different contexts, and at the end to help them to leverage the underlying emissions-related processes and emissions mitigation initiatives.
翻訳日:2024-01-15 12:29:08 公開日:2023-12-08
# 親密なパートナー暴力における格差の定量化--過度の報告を正す機械学習手法

Quantifying disparities in intimate partner violence: a machine learning method to correct for underreporting ( http://arxiv.org/abs/2110.04133v4 )

ライセンス: Link先を確認
Divya Shanmugam, Kaihua Hou, Emma Pierson(参考訳) 健康状態の有病率、またはその発生人口の割合を推定することは、医療や公衆衛生において根本的な問題である。 集団間の相対的な有病率の正確な推定(例えば、状態が男性よりも女性に頻繁に影響を及ぼす)は、不均等に影響を受けるグループを優先する効果的で公平な健康政策を促進する。 しかし, 医療状況が低い場合, 相対的な有病率の推定は困難である。 本研究は、ポジティブなラベルなし学習枠組みに基づいて、報告不足の医療疾患の相対的有病率を精度良く推定する方法を提案する。 一般に行われている共変量シフトの仮定では、集団間で症状条件が一定である確率は一定であり、正の未ラベル学習において一般的に行われる限定的な仮定がなくても、絶対的な有病率の回復が不可能であっても、相対的な有病率を回復できることを示す。 我々は,本手法が基準値よりも精度良く相対有病率を回復できることを実証する合成および実健康データ実験を行い,共変量シフト仮定の有意な違反に対する手法の堅牢性を示す。 結論として,親密なパートナー暴力とヘイトスピーチのケーススタディに本手法の適用性を示す。

Estimating the prevalence of a medical condition, or the proportion of the population in which it occurs, is a fundamental problem in healthcare and public health. Accurate estimates of the relative prevalence across groups -- capturing, for example, that a condition affects women more frequently than men -- facilitate effective and equitable health policy which prioritizes groups who are disproportionately affected by a condition. However, it is difficult to estimate relative prevalence when a medical condition is underreported. In this work, we provide a method for accurately estimating the relative prevalence of underreported medical conditions, building upon the positive unlabeled learning framework. We show that under the commonly made covariate shift assumption -- i.e., that the probability of having a disease conditional on symptoms remains constant across groups -- we can recover the relative prevalence, even without restrictive assumptions commonly made in positive unlabeled learning and even if it is impossible to recover the absolute prevalence. We conduct experiments on synthetic and real health data which demonstrate our method's ability to recover the relative prevalence more accurately than do baselines, and demonstrate the method's robustness to plausible violations of the covariate shift assumption. We conclude by illustrating the applicability of our method to case studies of intimate partner violence and hate speech.
翻訳日:2023-12-13 21:15:59 公開日:2023-12-08
# PLASTIC: 有効強化学習のための入力とラベルの塑性の改善

PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning ( http://arxiv.org/abs/2306.10711v3 )

ライセンス: Link先を確認
Hojoon Lee, Hanseul Cho, Hyunseung Kim, Daehoon Gwak, Joonkee Kim, Jaegul Choo, Se-Young Yun, Chulhee Yun(参考訳) 強化学習(RL)では、特にデータ取得が高価でリスクの高いシナリオにおいて、サンプル効率の向上が不可欠である。 原則として、オフポリシーrlアルゴリズムは、環境インタラクション毎に複数の更新を可能にすることにより、サンプル効率を向上させることができる。 しかしながら、これらの複数の更新は、しばしば、可塑性の喪失と呼ばれる以前の相互作用に過度に適合するモデルにつながる。 本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。 入力可塑性(英: Input plasticity)とは、入力データの変更に対するモデルの適応性、および入力-出力関係の進化に対するモデルの適応性を示すラベル可塑性である。 cifar-10データセットの合成実験により、より滑らかなロスランドスケープの発見は入力可塑性を増加させ、一方、洗練された勾配伝播はラベル可塑性を改善することが判明した。 これらの知見を活かしてPLASTICアルゴリズムを導入し,両問題に対処する手法を調和的に組み合わせた。 最小限のアーキテクチャ変更により、PLASTICはAtari-100kやDeepmind Control Suiteといったベンチマーク上での競合性能を達成した。 この結果は、RLの試料効率を高めるためにモデルの可塑性を維持することの重要性を強調している。 コードはhttps://github.com/dojeon-ai/plasticで入手できる。

In Reinforcement Learning (RL), enhancing sample efficiency is crucial, particularly in scenarios when data acquisition is costly and risky. In principle, off-policy RL algorithms can improve sample efficiency by allowing multiple updates per environment interaction. However, these multiple updates often lead the model to overfit to earlier interactions, which is referred to as the loss of plasticity. Our study investigates the underlying causes of this phenomenon by dividing plasticity into two aspects. Input plasticity, which denotes the model's adaptability to changing input data, and label plasticity, which denotes the model's adaptability to evolving input-output relationships. Synthetic experiments on the CIFAR-10 dataset reveal that finding smoother minima of loss landscape enhances input plasticity, whereas refined gradient propagation improves label plasticity. Leveraging these findings, we introduce the PLASTIC algorithm, which harmoniously combines techniques to address both concerns. With minimal architectural modifications, PLASTIC achieves competitive performance on benchmarks including Atari-100k and Deepmind Control Suite. This result emphasizes the importance of preserving the model's plasticity to elevate the sample efficiency in RL. The code is available at https://github.com/dojeon-ai/plastic.
翻訳日:2023-12-13 20:04:29 公開日:2023-12-08
# 症状に基づく機械学習モデルによるcovid-19早期発見の試み

Symptom-based Machine Learning Models for the Early Detection of COVID-19: A Narrative Review ( http://arxiv.org/abs/2312.06832v1 )

ライセンス: Link先を確認
Moyosolu Akinloye(参考訳) 新型コロナウイルス(COVID-19)の検査プロトコルが広く普及しているにもかかわらず、この病気の早期発見には依然として大きな課題がある。 資源を制限した環境でのテスト能力の制限と従来の検査方法の制限により、ウイルスを完全に阻止するためには、迅速かつ効率的な戦略が重要であることが確立されている。 機械学習モデルは、患者が報告した症状、臨床データ、医療画像などの大規模なデータセットを分析できる。 症状に基づく検出法は、新型コロナウイルスを予測するために開発されており、有望な結果を示している。 本稿では、その性能と限界を含む、COVID-19を予測するための症状のみの機械学習モデルの概要について概説する。 また、画像ベースモデルと比較して、症状ベースのモデルの性能についても検討する。 さまざまな研究が、さまざまなデータセット、方法論、パフォーマンスメトリクスを使用していたからです。 最善を尽くすモデルを選択するには、研究の文脈と目的に依存する。 しかし, この結果から, 集団分類器は, 患者症状に基づく新型コロナウイルス発生の予測において, 97.88%の精度で極めて良好な成績を示した。 勾配ブースティングアルゴリズムはAUC(Area Under the Curve)の0.90を達成し、意思決定プロセスに寄与する重要な特徴を特定した。 解析された研究で観察された画像ベースモデルは、症状ベースのモデルよりも常に高い精度を示しており、しばしば96.09%から99%までの印象的なレベルに達した。

Despite the widespread testing protocols for COVID-19, there are still significant challenges in early detection of the disease, which is crucial for preventing its spread and optimizing patient outcomes. Owing to the limited testing capacity in resource-strapped settings and the limitations of the available traditional methods of testing, it has been established that a fast and efficient strategy is important to fully stop the virus. Machine learning models can analyze large datasets, incorporating patient-reported symptoms, clinical data, and medical imaging. Symptom-based detection methods have been developed to predict COVID-19, and they have shown promising results. In this paper, we provide an overview of the landscape of symptoms-only machine learning models for predicting COVID-19, including their performance and limitations. The review will also examine the performance of symptom-based models when compared to image-based models. Because different studies used varying datasets, methodologies, and performance metrics. Selecting the model that performs best relies on the context and objectives of the research. However, based on the results, we observed that ensemble classifier performed exceptionally well in predicting the occurrence of COVID-19 based on patient symptoms with the highest overall accuracy of 97.88%. Gradient Boosting Algorithm achieved an AUC (Area Under the Curve) of 0.90 and identified key features contributing to the decision-making process. Image-based models, as observed in the analyzed studies, have consistently demonstrated higher accuracy than symptom-based models, often reaching impressive levels ranging from 96.09% to as high as 99%.
翻訳日:2023-12-13 18:10:29 公開日:2023-12-08
# ビンガム分布からの効率的なサンプリング

Efficient sampling from the Bingham distribution ( http://arxiv.org/abs/2010.00137v2 )

ライセンス: Link先を確認
Rong Ge, Holden Lee, Jianfeng Lu, Andrej Risteski(参考訳) ビンガム分布から正確にサンプリングするためのアルゴリズムを与える: $p(x)\propto \exp(x^\top a x)$ on the sphere $\mathcal s^{d-1}$ で、$\operatorname{poly}(d, \lambda_{\max}(a)-\lambda_{\min}(a)$ の期待実行時間を持つ。 このアルゴリズムは、提案分布がpdfの多項式近似である拒絶サンプリングに基づいており、球面上の多項式の積分を明示的に評価することでサンプル化することができる。 我々のアルゴリズムは多項式の逆関数の正確な計算を仮定して、正確なサンプルを与える。 これは、マルコフ・チェイン・モンテカルロのアルゴリズムとは対照的であり、この問題を素早く混合することは知られておらず、近似サンプルのみを与える。 直接の応用として, 多項式時間でのrank-1行列推論問題の後方分布から, これをサンプルとして用いる。

We give a algorithm for exact sampling from the Bingham distribution $p(x)\propto \exp(x^\top A x)$ on the sphere $\mathcal S^{d-1}$ with expected runtime of $\operatorname{poly}(d, \lambda_{\max}(A)-\lambda_{\min}(A))$. The algorithm is based on rejection sampling, where the proposal distribution is a polynomial approximation of the pdf, and can be sampled from by explicitly evaluating integrals of polynomials over the sphere. Our algorithm gives exact samples, assuming exact computation of an inverse function of a polynomial. This is in contrast with Markov Chain Monte Carlo algorithms, which are not known to enjoy rapid mixing on this problem, and only give approximate samples. As a direct application, we use this to sample from the posterior distribution of a rank-1 matrix inference problem in polynomial time.
翻訳日:2023-12-13 03:54:24 公開日:2023-12-08
# Lassoed Tree Boosting(英語)

Lassoed Tree Boosting ( http://arxiv.org/abs/2205.10697v6 )

ライセンス: Link先を確認
Alejandro Schuler, Yi Li, Mark van der Laan(参考訳) 勾配ブースティングは、ほとんどの予測問題で例外的に機能し、大規模なデータセットに対して十分にスケールする。 本稿では,有界断面変動のキャドラグ関数の大きい非パラメトリック空間において,早期停止による‘lassoed’勾配ブースト木アルゴリズムが$n^{-1/4}$ l2収束よりも高速であることが証明する。 この速度は、次元、スパーシティ、滑らかさには依存しないため、顕著である。 シミュレーションと実データを使って理論を検証し、標準のブースティングと同等の性能とスケーラビリティを実証します。 我々の収束証明は、ネストドンスカークラスの経験的損失最小化を伴う早期停止に関する新しい一般定理に基づいている。

Gradient boosting performs exceptionally in most prediction problems and scales well to large datasets. In this paper we prove that a ``lassoed'' gradient boosted tree algorithm with early stopping achieves faster than $n^{-1/4}$ L2 convergence in the large nonparametric space of cadlag functions of bounded sectional variation. This rate is remarkable because it does not depend on the dimension, sparsity, or smoothness. We use simulation and real data to confirm our theory and demonstrate empirical performance and scalability on par with standard boosting. Our convergence proofs are based on a novel, general theorem on early stopping with empirical loss minimizers of nested Donsker classes.
翻訳日:2023-12-13 03:46:41 公開日:2023-12-08
# 完全知識のない因果推論のためのアンセストラル・インスツルメンツ法

Ancestral Instrument Method for Causal Inference without Complete Knowledge ( http://arxiv.org/abs/2201.03810v2 )

ライセンス: Link先を確認
Debo Cheng (1) and Jiuyong Li (1) and Lin Liu (1) and Jiji Zhang (2) and Thuc duy Le (1) and Jixue Liu (1) ((1) STEM, University of South Australia, Adelaide, SA, Australia, (2) Department of Religion and Philosophy, Hong Kong Baptist University, Hong Kong, China)(参考訳) 観測データから因果効果を推定する主な障害は、観測不能な共起である。 インストゥルメンタル変数(ivs)は潜在共同創設者が存在する場合の因果効果推定に広く使われている。 標準IV法では、与えられたIVが有効であれば、偏りのない推定が得られるが、標準IVの妥当性は厳密で証明不能である。 条件IVは、観測変数の集合(条件IVの条件集合として知られる)を条件付けすることで標準IVの要求を緩和するために提案されている。 しかし、条件IVの条件集合を見つけるための基準は、観測された変数と観測されていない変数の両方の因果関係を表す有向非巡回グラフ(DAG)を必要とする。 これにより、データから直接条件セットを見つけるのが難しくなる。 本稿では、潜伏変数の因果推論に最大祖先グラフ(MAG)を活用することにより、MAGを用いた条件IVの型である祖先IVのグラフィカルな性質を考察し、前処理変数仮定に基づくデータ中の祖先IVの条件集合のデータ駆動的な発見を支援する理論を開発する。 この理論に基づき、与えられた祖先ivと観測データを用いた非バイアス因果効果推定アルゴリズムを開発した。 合成および実世界のデータセットに関する広範な実験は、既存のiv法と比較してアルゴリズムの性能を示す。

Unobserved confounding is the main obstacle to causal effect estimation from observational data. Instrumental variables (IVs) are widely used for causal effect estimation when there exist latent confounders. With the standard IV method, when a given IV is valid, unbiased estimation can be obtained, but the validity requirement on a standard IV is strict and untestable. Conditional IVs have been proposed to relax the requirement of standard IVs by conditioning on a set of observed variables (known as a conditioning set for a conditional IV). However, the criterion for finding a conditioning set for a conditional IV needs a directed acyclic graph (DAG) representing the causal relationships of both observed and unobserved variables. This makes it challenging to discover a conditioning set directly from data. In this paper, by leveraging maximal ancestral graphs (MAGs) for causal inference with latent variables, we study the graphical properties of ancestral IVs, a type of conditional IVs using MAGs, and develop the theory to support data-driven discovery of the conditioning set for a given ancestral IV in data under the pretreatment variable assumption. Based on the theory, we develop an algorithm for unbiased causal effect estimation with a given ancestral IV and observational data. Extensive experiments on synthetic and real-world datasets demonstrate the performance of the algorithm in comparison with existing IV methods.
翻訳日:2023-12-13 03:44:04 公開日:2023-12-08
# 動的プログラミングによるネットワークの厳密かつ迅速な線形クラスタリング

Exact and rapid linear clustering of networks with dynamic programming ( http://arxiv.org/abs/2301.10403v2 )

ライセンス: Link先を確認
Alice Patania, Antoine Allard, Jean-Gabriel Young(参考訳) 本研究では,ノードが単一の次元,例えば高次階層や双曲埋め込みの類似性次元を持つクラスタリングネットワークの問題について検討する。 臨界ギャップ法や他の欲望戦略のような既存のアルゴリズムは、この問題に対する近似解のみを提供する。 ここでは、幅広いクラスタリング対象に対して多項式時間(O(n^2)ステップ)で証明可能な最適解を返す動的プログラミング手法を提案する。 合成および経験的ネットワークへの応用を通してアルゴリズムを実証し、同様の実行時間で既存のヒューリスティックスよりも優れていることを示す。

We study the problem of clustering networks whose nodes have imputed or physical positions in a single dimension, for example prestige hierarchies or the similarity dimension of hyperbolic embeddings. Existing algorithms, such as the critical gap method and other greedy strategies, only offer approximate solutions to this problem. Here, we introduce a dynamic programming approach that returns provably optimal solutions in polynomial time -- O(n^2) steps -- for a broad class of clustering objectives. We demonstrate the algorithm through applications to synthetic and empirical networks and show that it outperforms existing heuristics by a significant margin, with a similar execution time.
翻訳日:2023-12-13 03:23:47 公開日:2023-12-08
# 離散力学系における非自明な最小固定点の探索

Finding Nontrivial Minimum Fixed Points in Discrete Dynamical Systems ( http://arxiv.org/abs/2301.04090v3 )

ライセンス: Link先を確認
Zirou Qiu, Chen Chen, Madhav V. Marathe, S. S. Ravi, Daniel J. Rosenkrantz, Richard E. Stearns, Anil Vullikanti(参考訳) ネットワーク化された離散力学システムは、協調ゲームにおけるエージェントによる伝染と意思決定の拡散をモデル化するためにしばしば用いられる。 このような力学系の固定点は、システムが収束する構成を表す。 望ましくない感染(噂や誤報など)の拡散においては、少数の影響を受けるノードを持つ固定点への収束が望ましい目標である。 このような考慮により、影響を受けるノード数が最小となるシステムの非自明な固定点を見つけるという、新しい最適化問題を定式化する。 p = np でない限り、この問題の解を任意の定数エプシロン > 0 の係数 n^1-\epsilon に近似する多項式時間アルゴリズムは存在しない。 この計算難易度に対処するため,この問題を効率的に解決できる特別な事例をいくつか挙げる。 さらに,適切な大きさのネットワークに対する問題に対処する整数線形プログラムを提案する。 大規模ネットワーク上での問題を解くために、欲求選択法とともに一般的なヒューリスティックな枠組みを提案する。 実世界のネットワークにおける広範囲な実験結果から,提案するヒューリスティックスの有効性が示された。

Networked discrete dynamical systems are often used to model the spread of contagions and decision-making by agents in coordination games. Fixed points of such dynamical systems represent configurations to which the system converges. In the dissemination of undesirable contagions (such as rumors and misinformation), convergence to fixed points with a small number of affected nodes is a desirable goal. Motivated by such considerations, we formulate a novel optimization problem of finding a nontrivial fixed point of the system with the minimum number of affected nodes. We establish that, unless P = NP, there is no polynomial time algorithm for approximating a solution to this problem to within the factor n^1-\epsilon for any constant epsilon > 0. To cope with this computational intractability, we identify several special cases for which the problem can be solved efficiently. Further, we introduce an integer linear program to address the problem for networks of reasonable sizes. For solving the problem on larger networks, we propose a general heuristic framework along with greedy selection methods. Extensive experimental results on real-world networks demonstrate the effectiveness of the proposed heuristics.
翻訳日:2023-12-13 03:23:22 公開日:2023-12-08
# リアルタイムハミルトン・ヤコビPDEを用いた科学機械学習問題の解法

Leveraging Multi-time Hamilton-Jacobi PDEs for Certain Scientific Machine Learning Problems ( http://arxiv.org/abs/2303.12928v3 )

ライセンス: Link先を確認
Paula Chen, Tingwei Meng, Zongren Zou, J\'er\^ome Darbon, George Em Karniadakis(参考訳) ハミルトン・ヤコビ偏微分方程式(HJ PDE)は、最適制御、微分ゲーム、画像科学など幅広い分野と深い関係を持つ。 時間変数を高次元量とすることで、HJ PDEをマルチタイムケースに拡張することができる。 本稿では,機械学習における特定の最適化問題と,特定のHJ PDEに対する解の表現に対応するマルチタイムホップ式との間に,新たな理論的関係を確立する。 この接続を通じて、機械学習アプリケーションの学習過程の解釈可能性を高めるために、これらの学習問題を解く際に、マルチタイムのHJ PDEを解き、拡張することで、対応する最適制御問題を解くことを示す。 この接続に関する最初の調査として,正規化線形回帰問題と線形二次レギュレータ(lqr)の関係を明らかにした。 次に、理論的な接続を利用して標準lqrソルバ(すなわち、リッカティ常微分方程式に基づくもの)を適応させ、機械学習のための新しいトレーニングアプローチを設計する。 最後に,連続学習,ポストトレーニングキャリブレーション,トランスファー学習,スパースダイナミクス同定といった文脈において,riccatiに基づくアプローチの汎用性と計算可能性を示す数値例を提案する。

Hamilton-Jacobi partial differential equations (HJ PDEs) have deep connections with a wide range of fields, including optimal control, differential games, and imaging sciences. By considering the time variable to be a higher dimensional quantity, HJ PDEs can be extended to the multi-time case. In this paper, we establish a novel theoretical connection between specific optimization problems arising in machine learning and the multi-time Hopf formula, which corresponds to a representation of the solution to certain multi-time HJ PDEs. Through this connection, we increase the interpretability of the training process of certain machine learning applications by showing that when we solve these learning problems, we also solve a multi-time HJ PDE and, by extension, its corresponding optimal control problem. As a first exploration of this connection, we develop the relation between the regularized linear regression problem and the Linear Quadratic Regulator (LQR). We then leverage our theoretical connection to adapt standard LQR solvers (namely, those based on the Riccati ordinary differential equations) to design new training approaches for machine learning. Finally, we provide some numerical examples that demonstrate the versatility and possible computational advantages of our Riccati-based approach in the context of continual learning, post-training calibration, transfer learning, and sparse dynamics identification.
翻訳日:2023-12-13 03:12:00 公開日:2023-12-08
# 光子の散逸分離モット絶縁体の安定性について

On the stability of dissipatively-prepared Mott insulators of photons ( http://arxiv.org/abs/2303.09673v3 )

ライセンス: Link先を確認
Orazio Scarlatella, Aashish A. Clerk, and Marco Schir\`o(参考訳) 貯留層工学は、制御された駆動散逸ダイナミクスを用いてターゲット量子状態と位相を準備するための強力なアプローチである。 本研究では,光子のモット絶縁体を定常状態で実現可能なパラダイムモデルについて検討する。 いくつかの状態において、定常状態はモット絶縁基底状態に近似するが、この相はコヒーレントだが古典的でない極限サイクル相への非平衡遷移によって不安定になる可能性がある。 この不安定性は、超流動遷移への基底状態モット絶縁体とは全く異なる。 この差は劇的な観測可能な結果をもたらし、定常モット相の本質的な不安定性をもたらす: 損失に比べて速いポンプは位相を維持するために必要だが、小さな臨界ホッピングも決定する。 定常mott相とその不安定性の特異な特徴を同定し,それらの基底状態相と区別し,実験で測定できる。

Reservoir engineering is a powerful approach for using controlled driven-dissipative dynamics to prepare target quantum states and phases. In this work, we study a paradigmatic model that can realize a Mott insulator of photons in its steady-state. We show that, while in some regimes its steady state approximates a Mott-insulating ground state, this phase can become unstable through a non-equilibrium transition towards a coherent yet non-classical limit-cycle phase, driven by doublon excitations. This instability is completely distinct from the ground-state Mott-insulator to superfluid transition. This difference has dramatic observable consequences and leads to an intrinsic fragility of the steady-state Mott phase: a fast pump compared to losses is required to sustain the phase, but also determines a small critical hopping. We identify unique features of the steady-state Mott phase and its instability, that distinguish them from their ground-state counterpart and can be measured in experiments.
翻訳日:2023-12-13 03:11:02 公開日:2023-12-08
# スコアオペレータニュートン輸送

Score Operator Newton transport ( http://arxiv.org/abs/2305.09792v2 )

ライセンス: Link先を確認
Nisha Chandramoorthy, Florian Schaefer and Youssef Marzouk(参考訳) 対象分布のスコアを用いて,与えられた参照分布から対象分布へのトランスポートを構成する,サンプリングおよびベイズ計算のための新しい手法を提案する。 我々のアプローチは、'score-residual' 作用素の零点を求める楕円型 PDE を含む無限次元ニュートン法である。 古典楕円型PDE理論を用いて、有効な輸送写像への収束を証明する。 我々のニュートンイテレートは楕円型PDEの高速解法を利用して計算することができ、ベイズ推論やその他のサンプリングタスクのための新しいアルゴリズムがもたらされる。 スコア演算Newtonトランスポートは,モード崩壊を回避しつつ,高速収束を実現する。

We propose a new approach for sampling and Bayesian computation that uses the score of the target distribution to construct a transport from a given reference distribution to the target. Our approach is an infinite-dimensional Newton method, involving an elliptic PDE, for finding a zero of a ``score-residual'' operator. We use classical elliptic PDE theory to prove convergence to a valid transport map. Our Newton iterates can be computed by exploiting fast solvers for elliptic PDEs, resulting in new algorithms for Bayesian inference and other sampling tasks. We identify elementary settings where score-operator Newton transport achieves fast convergence while avoiding mode collapse.
翻訳日:2023-12-13 02:45:13 公開日:2023-12-08
# iSLAM: インペラティブSLAM

iSLAM: Imperative SLAM ( http://arxiv.org/abs/2306.07894v4 )

ライセンス: Link先を確認
Taimeng Fu, Shaoshu Su, Yiren Lu, Chen Wang(参考訳) 同時局在マッピング(SLAM)は、ロボットナビゲーションにおける重要な課題の1つである。 SLAMシステムは、しばしば動き推定のためのフロントエンドコンポーネントと、推定ドリフトを除去するバックエンドシステムから構成される。 近年の進歩は、データ駆動型メソッドがフロントエンドタスクに非常に効果的であることを示唆しているが、幾何ベースのメソッドはバックエンドプロセスに不可欠なままである。 しかし、データ駆動型のフロントエンドと幾何学ベースのバックエンドの分離パラダイムは、サブ最適性能をもたらし、システム能力と一般化ポテンシャルを低下させる。 この問題を解決するために,我々は,フロントエンドとバックエンドの相互修正を促進し,外部の監督を必要とせずに性能を向上させるための,自己教師付き命令型学習フレームワークimperative slam(islam)を提案した。 具体的には、SLAM問題を双方向最適化として定式化し、フロントエンドとバックエンドが双方向接続されるようにする。 その結果、フロントエンドモデルは、バックエンドコンポーネントからの残差をバックプロパゲーションすることで、ポーズグラフ最適化によって得られるグローバル幾何学的知識を学習することができる。 ステレオ慣性スラムの応用により,この新しい枠組みの有効性を示す。 実験の結果,iSLAMトレーニング戦略はベースラインモデルよりも平均22%の精度向上を実現していることがわかった。 我々の知る限り、iSLAMは、フロントエンドとバックエンドが相互に相互に監督された方法で補正可能であることを示す最初のSLAMシステムです。

Simultaneous Localization and Mapping (SLAM) stands as one of the critical challenges in robot navigation. A SLAM system often consists of a front-end component for motion estimation and a back-end system for eliminating estimation drift. Recent advancements suggest that data-driven methods are highly effective for front-end tasks, while geometry-based methods continue to be essential in the back-end processes. However, such a decoupled paradigm between the data-driven front-end and geometry-based back-end can lead to sub-optimal performance, consequently reducing system capabilities and generalization potential. To solve this problem, we proposed a novel self-supervised imperative learning framework, named imperative SLAM (iSLAM), which fosters reciprocal correction between the front-end and back-end, thus enhancing performance without necessitating any external supervision. Specifically, we formulate the SLAM problem as a bilevel optimization so that the front-end and back-end are bidirectionally connected. As a result, the front-end model can learn global geometric knowledge obtained through pose graph optimization by back-propagating the residuals from the back-end component. We showcase the effectiveness of this new framework through an application of stereo-inertial SLAM. The experiments show that the iSLAM training strategy achieves an accuracy improvement of 22% on average over a baseline model. To the best of our knowledge, iSLAM is the first SLAM system showing that the front-end and back-end can mutually correct each other in a self-supervised manner.
翻訳日:2023-12-13 02:37:33 公開日:2023-12-08
# 二極性ポーラロンの非平衡ダイナミクス

Non-equilibrium dynamics of dipolar polarons ( http://arxiv.org/abs/2305.17969v2 )

ライセンス: Link先を確認
Artem G. Volosniev, Giacomo Bighin, Luis Santos and Luis A. Pe\~na Ardila(参考訳) 双極子ポラロン、すなわち双極子ボース-アインシュタイン凝縮体に浸漬された不純物は、不純物-ボソン相互作用のクエンチの後、平衡外量子力学を研究する。 縮合体の双極性および不純物の性質は異方性緩和ダイナミクス、特にポーラロンの異方性ドレッシングをもたらすことを示す。 より関連性の高いコールドアトムの設定では、クエンチダイナミクスは双極子異方性とトラップ幾何の相互作用によって強く影響を受ける。 本研究は異方性媒質中の不純物を二極性混合物を用いてシミュレーションする方法である。

We study the out-of-equilibrium quantum dynamics of dipolar polarons, i.e., impurities immersed in a dipolar Bose-Einstein condensate, after a quench of the impurity-boson interaction. We show that the dipolar nature of the condensate and of the impurity results in anisotropic relaxation dynamics, in particular, anisotropic dressing of the polaron. More relevantly for cold-atom setups, quench dynamics is strongly affected by the interplay between dipolar anisotropy and trap geometry. Our findings pave the way for simulating impurities in anisotropic media utilizing experiments with dipolar mixtures.
翻訳日:2023-12-13 02:32:34 公開日:2023-12-08
# 知識蒸留による部分変量低減

Knowledge Distillation Performs Partial Variance Reduction ( http://arxiv.org/abs/2305.17581v2 )

ライセンス: Link先を確認
Mher Safaryan and Alexandra Peste and Dan Alistarh(参考訳) 知識蒸留は、より強力な'教師'モデルを活用することで、表現能力の低い'学生'モデルの性能を高めるための一般的なアプローチである。 その明らかな単純さと広く使われているにもかかわらず、知識蒸留(KD)の基盤となるメカニズムは未だ完全には理解されていない。 本研究では,最適化の観点から検討し,本手法の内部動作に新たな光を当てる。 線形モデルと深い線形モデルの文脈において、kdは確率的分散還元機構の新しいタイプとして解釈できることを示す。 我々は、強凸損失と非凸損失の両方の標準的な仮定に基づいて、結果のダイナミクスの詳細な収束解析を行い、KDが部分分散還元の形で作用し、確率的勾配雑音を低減できるが、'教師'モデルの性質により完全には排除できないことを示した。 我々の分析は、KDの慎重なパラメトリゼーションの必要性、特に蒸留損失の重み付けに重点を置いており、線形モデルとディープニューラルネットワークの両方で実証的に検証されている。

Knowledge distillation is a popular approach for enhancing the performance of ''student'' models, with lower representational capacity, by taking advantage of more powerful ''teacher'' models. Despite its apparent simplicity and widespread use, the underlying mechanics behind knowledge distillation (KD) are still not fully understood. In this work, we shed new light on the inner workings of this method, by examining it from an optimization perspective. We show that, in the context of linear and deep linear models, KD can be interpreted as a novel type of stochastic variance reduction mechanism. We provide a detailed convergence analysis of the resulting dynamics, which hold under standard assumptions for both strongly-convex and non-convex losses, showing that KD acts as a form of partial variance reduction, which can reduce the stochastic gradient noise, but may not eliminate it completely, depending on the properties of the ''teacher'' model. Our analysis puts further emphasis on the need for careful parametrization of KD, in particular w.r.t. the weighting of the distillation loss, and is validated empirically on both linear models and deep neural networks.
翻訳日:2023-12-13 02:32:22 公開日:2023-12-08
# DreamSim: 合成データを用いた人間の視覚的類似性の新たな次元学習

DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data ( http://arxiv.org/abs/2306.09344v3 )

ライセンス: Link先を確認
Stephanie Fu, Netanel Tamir, Shobhita Sundaram, Lucy Chai, Richard Zhang, Tali Dekel, Phillip Isola(参考訳) 現在の知覚的類似度メトリクスは、ピクセルとパッチのレベルで動作する。 これらのメトリクスは、低レベルの色とテクスチャの観点から画像を比較するが、画像レイアウト、オブジェクトポーズ、セマンティックコンテンツの中間レベルの類似性と相違を捉えられていない。 本稿では,画像の全体的評価を行う知覚指標を開発する。 最初のステップは、さまざまな方法で画像ペアよりも人間の類似性判断の新しいデータセットを収集することです。 このデータセットにとって重要なのは、判断はほぼ自動であり、すべてのオブザーバーによって共有されることだ。 これを実現するために、最近のテキスト・ツー・イメージモデルを用いて、様々な次元に沿って摂動する合成ペアを作成する。 私たちは、一般的な知覚指標が新しいデータを説明することの欠如を観察し、人間の知覚に合致するように調整された新しいメトリクスdreamsimを紹介します。 我々は、我々のメトリクスが異なる視覚的属性によってどのように影響を受けるかを分析し、色やレイアウトに敏感でありながら、前景オブジェクトやセマンティックコンテンツに重点を置いていることを発見した。 特に,合成データに基づいて訓練されているにもかかわらず,実画像に一般化し,検索および復元作業において強い結果を与える。 さらに,これらの課題において,従来の学習指標と最近の大規模ビジョンモデルの両方よりも優れていた。

Current perceptual similarity metrics operate at the level of pixels and patches. These metrics compare images in terms of their low-level colors and textures, but fail to capture mid-level similarities and differences in image layout, object pose, and semantic content. In this paper, we develop a perceptual metric that assesses images holistically. Our first step is to collect a new dataset of human similarity judgments over image pairs that are alike in diverse ways. Critical to this dataset is that judgments are nearly automatic and shared by all observers. To achieve this we use recent text-to-image models to create synthetic pairs that are perturbed along various dimensions. We observe that popular perceptual metrics fall short of explaining our new data, and we introduce a new metric, DreamSim, tuned to better align with human perception. We analyze how our metric is affected by different visual attributes, and find that it focuses heavily on foreground objects and semantic content while also being sensitive to color and layout. Notably, despite being trained on synthetic data, our metric generalizes to real images, giving strong results on retrieval and reconstruction tasks. Furthermore, our metric outperforms both prior learned metrics and recent large vision models on these tasks.
翻訳日:2023-12-13 02:20:42 公開日:2023-12-08
# DiTTO(Diffusion-inspired Temporal Transformer Operator)によるリアルタイム推論と外挿

Real-time Inference and Extrapolation via a Diffusion-inspired Temporal Transformer Operator (DiTTO) ( http://arxiv.org/abs/2307.09072v2 )

ライセンス: Link先を確認
Oded Ovadia, Vivek Oommen, Adar Kahana, Ahmad Peyvan, Eli Turkel, George Em Karniadakis(参考訳) すべてのアプリケーションドメインにわたるディープニューラルネットワークにおいて、外挿は依然として大きな課題である。 本稿では,時間依存偏微分方程式(PDE)を時間差分なく連続的に,時間外挿で解く演算子学習法を提案する。 提案手法はditto( diffusion-inspired temporal transformer operator)と名付けられ、pdeの時間的進化を組み込んだ潜在拡散モデルと条件付け機構に触発され、その性能を向上させるためにトランスフォーマアーキテクチャの要素と組み合わせられている。 トレーニング中、DiTTOはリアルタイムで推論を行うことができる。 我々は,地球上の温度を数年間推定し,気候問題に対する外挿能力を示すとともに,二重円錐周りの超音速流れをモデル化する。 我々は,時間的バンドルとサブサンプリングを含む異なるトレーニング戦略を提案し,複数のベンチマークのパフォーマンス向上を実証し,長時間の補間とゼロショット超解像を行う。

Extrapolation remains a grand challenge in deep neural networks across all application domains. We propose an operator learning method to solve time-dependent partial differential equations (PDEs) continuously and with extrapolation in time without any temporal discretization. The proposed method, named Diffusion-inspired Temporal Transformer Operator (DiTTO), is inspired by latent diffusion models and their conditioning mechanism, which we use to incorporate the temporal evolution of the PDE, in combination with elements from the transformer architecture to improve its capabilities. Upon training, DiTTO can make inferences in real-time. We demonstrate its extrapolation capability on a climate problem by estimating the temperature around the globe for several years, and also in modeling hypersonic flows around a double-cone. We propose different training strategies involving temporal-bundling and sub-sampling and demonstrate performance improvements for several benchmarks, performing extrapolation for long time intervals as well as zero-shot super-resolution in time.
翻訳日:2023-12-13 02:12:04 公開日:2023-12-08
# タンパク質リガンド系のシミュレーションのための機械学習分子力学力場

Machine-learned molecular mechanics force field for the simulation of protein-ligand systems and beyond ( http://arxiv.org/abs/2307.07085v4 )

ライセンス: Link先を確認
Kenichiro Takaba, Iv\'an Pulido, Pavan Kumar Behara, Chapin E. Cavender, Anika J. Friedman, Michael M. Henry, Hugo MacDermott Opeskin, Christopher R. Iacovella, Arnav M. Nagle, Alexander Matthew Payne, Michael R. Shirts, David L. Mobley, John D. Chodera, Yuanqing Wang(参考訳) 信頼性と拡張性を持つ分子力学(MM)力場 -- 分子系のポテンシャルエネルギー表面を特徴付ける高速で経験的なモデル -- の開発は、生体分子シミュレーションとコンピュータ支援薬物設計に不可欠である。 本稿では,一般化・拡張可能な機械駆動mm力場である \texttt{espaloma-0.3} と,グラフニューラルネットワークを用いたエンドツーエンドの微分可能フレームワークを導入し,従来のルールベース手法の限界を克服する。 1日で1.1M以上のエネルギーと力の計算の多様で多様な量子化学データセットに適合するように訓練された \texttt{espaloma-0.3} は、小さな分子、ペプチド、核酸を含む薬物発見に非常に関係のある化学領域の量子化学エネルギー特性を再現する。 さらに、この力場は、小さな分子の量子化学エネルギー最小のジオメトリを維持し、ペプチド、自己整合的にパラメトリズされたタンパク質およびリガンドの凝縮相特性を保存し、安定したシミュレーションを生成し、より正確な結合自由エネルギーの予測に繋がる。 この方法論は、新しい化学領域に容易に拡張可能なより正確な力場を体系的に構築するための道筋として大きな期待を示す。

The development of reliable and extensible molecular mechanics (MM) force fields -- fast, empirical models characterizing the potential energy surface of molecular systems -- is indispensable for biomolecular simulation and computer-aided drug design. Here, we introduce a generalized and extensible machine-learned MM force field, \texttt{espaloma-0.3}, and an end-to-end differentiable framework using graph neural networks to overcome the limitations of traditional rule-based methods. Trained in a single GPU-day to fit a large and diverse quantum chemical dataset of over 1.1M energy and force calculations, \texttt{espaloma-0.3} reproduces quantum chemical energetic properties of chemical domains highly relevant to drug discovery, including small molecules, peptides, and nucleic acids. Moreover, this force field maintains the quantum chemical energy-minimized geometries of small molecules and preserves the condensed phase properties of peptides, self-consistently parametrizing proteins and ligands to produce stable simulations leading to highly accurate predictions of binding free energies. This methodology demonstrates significant promise as a path forward for systematically building more accurate force fields that are easily extensible to new chemical domains of interest.
翻訳日:2023-12-13 02:10:08 公開日:2023-12-08
# ebbとフローの評価:多様なプラットフォームにわたる質問応答トレンドの詳細な分析

Evaluating the Ebb and Flow: An In-depth Analysis of Question-Answering Trends across Diverse Platforms ( http://arxiv.org/abs/2309.05961v3 )

ライセンス: Link先を確認
Rima Hazra, Agnik Saha, Somnath Banerjee and Animesh Mukherjee(参考訳) コミュニティ質問回答(Community Question Answering, CQA)プラットフォームは,クエリに対する迅速な応答をユーザに提供することで,着実に人気を集めている。 これらの応答の迅速性は、クエリ固有要素とユーザ関連要素の混合に起因している。 本稿では,これらの要因を,人気の高い6つのCQAプラットフォームのコンテキスト内で調査する。 本研究は,質問に対する最初の回答を得るのに要する時間と,複数の変数(メタデータ,質問の定式化,ユーザ間のインタラクションのレベル)との相関関係を明らかにする。 さらに、従来の機械学習モデルを用いてこれらのメタデータとユーザインタラクションのパターンを分析し、どのクエリがすぐに最初のレスポンスを受け取るかを予測する。

Community Question Answering (CQA) platforms steadily gain popularity as they provide users with fast responses to their queries. The swiftness of these responses is contingent on a mixture of query-specific and user-related elements. This paper scrutinizes these contributing factors within the context of six highly popular CQA platforms, identified through their standout answering speed. Our investigation reveals a correlation between the time taken to yield the first response to a question and several variables: the metadata, the formulation of the questions, and the level of interaction among users. Additionally, by employing conventional machine learning models to analyze these metadata and patterns of user interaction, we endeavor to predict which queries will receive their initial responses promptly.
翻訳日:2023-12-13 01:49:52 公開日:2023-12-08
# 真実の幾何学:真偽データセットの大規模言語モデルにおける創発的線形構造

The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets ( http://arxiv.org/abs/2310.06824v2 )

ライセンス: Link先を確認
Samuel Marks and Max Tegmark(参考訳) 大規模言語モデル(llm)は印象的な能力を持つが、偽りを出力しやすい。 近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。 しかし、この一連の研究は議論の余地があり、いくつかの著者は、これらのプローブの失敗が基本的な方法で一般化することを指摘している。 本研究では、真偽文の高品質なデータセットをキュレートし、それらを用いて真理のLLM表現の構造を詳細に研究し、3行のエビデンスに基づく。 1. 明快な線形構造を示す LLM true/false 文表現の可視化 2. 1つのデータセットで訓練されたプローブを異なるデータセットに一般化する転送実験。 3 LLMの前方パスに外科的に介入して得た因果証拠により、虚偽の陳述を真実として、その逆として扱うことができる。 全体として、言語モデルが事実文の真偽を線形に表現する証拠を示す。 また,より一般化し,他の探索手法よりも因果的にモデル出力に影響を及ぼす新しい手法である質量平均探索を導入する。

Large Language Models (LLMs) have impressive capabilities, but are also prone to outputting falsehoods. Recent work has developed techniques for inferring whether a LLM is telling the truth by training probes on the LLM's internal activations. However, this line of work is controversial, with some authors pointing out failures of these probes to generalize in basic ways, among other conceptual issues. In this work, we curate high-quality datasets of true/false statements and use them to study in detail the structure of LLM representations of truth, drawing on three lines of evidence: 1. Visualizations of LLM true/false statement representations, which reveal clear linear structure. 2. Transfer experiments in which probes trained on one dataset generalize to different datasets. 3. Causal evidence obtained by surgically intervening in a LLM's forward pass, causing it to treat false statements as true and vice versa. Overall, we present evidence that language models linearly represent the truth or falsehood of factual statements. We also introduce a novel technique, mass-mean probing, which generalizes better and is more causally implicated in model outputs than other probing techniques.
翻訳日:2023-12-13 01:39:58 公開日:2023-12-08
# ヒップラジオグラフィ画像における医療的ランドマーク検出のためのラベル拡張法

Label Augmentation Method for Medical Landmark Detection in Hip Radiograph Images ( http://arxiv.org/abs/2309.16066v2 )

ライセンス: Link先を確認
Yehyun Suh, Peter Chan, J.Ryan Martin, Daniel Moyer(参考訳) 本研究は,股関節X線写真における臨床マーカーを自動診断する医療ランドマーク検出手法の実証的性能について報告する。 この手法はラベルのみの増量法を用いて訓練され,本手法が従来のデータ増量法よりも優れ,高サンプリング効率な推定器が得られた。 まず、ラベルポイントを領域に拡大することでランドマーク化タスクを緩和し、その後、徐々にこれらのラベル領域をベースタスクに戻します。 このアプローチの利点を、ゴールド標準のエキスパートアノテーションを用いた6つのラジオグラフデータセットで測定する。

This work reports the empirical performance of an automated medical landmark detection method for predict clinical markers in hip radiograph images. Notably, the detection method was trained using a label-only augmentation scheme; our results indicate that this form of augmentation outperforms traditional data augmentation and produces highly sample efficient estimators. We train a generic U-Net-based architecture under a curriculum consisting of two phases: initially relaxing the landmarking task by enlarging the label points to regions, then gradually eroding these label regions back to the base task. We measure the benefits of this approach on six datasets of radiographs with gold-standard expert annotations.
翻訳日:2023-12-13 01:38:01 公開日:2023-12-08
# 教師なし画像生成とセグメンテーションのための因子拡散アーキテクチャ

Factorized Diffusion Architectures for Unsupervised Image Generation and Segmentation ( http://arxiv.org/abs/2309.15726v2 )

ライセンス: Link先を確認
Xin Yuan, Michael Maire(参考訳) 本研究では,非教師付き拡散モデルとして訓練されたニューラルネットワークアーキテクチャを構築し,画像の生成とセグメント分割を同時に学習する。 学習は、トレーニング中の領域に関する注釈や事前知識なしで、分断拡散目標によって完全に駆動される。 ニューラルネットワークに組み込まれた計算ボトルネックにより、デノナイズネットワークは、入力をリージョンに分割し、それらを並列にデノナイズし、結果を組み合わせることを奨励する。 我々の訓練されたモデルは、合成画像と、その内部予測分割の簡易な検証により、それらの画像の意味的セグメンテーションを生成する。 微調整がなければ、ノイズ処理を通じて実際のイメージをセグメンテーションする下流タスクに、教師なしのモデルを直接適用します。 実験により,複数のデータセットにまたがって,高精度な教師なし画像分割と高品質合成画像生成を実現することを実証した。

We develop a neural network architecture which, trained in an unsupervised manner as a denoising diffusion model, simultaneously learns to both generate and segment images. Learning is driven entirely by the denoising diffusion objective, without any annotation or prior knowledge about regions during training. A computational bottleneck, built into the neural architecture, encourages the denoising network to partition an input into regions, denoise them in parallel, and combine the results. Our trained model generates both synthetic images and, by simple examination of its internal predicted partitions, a semantic segmentation of those images. Without any finetuning, we directly apply our unsupervised model to the downstream task of segmenting real images via noising and subsequently denoising them. Experiments demonstrate that our model achieves accurate unsupervised image segmentation and high-quality synthetic image generation across multiple datasets.
翻訳日:2023-12-13 01:37:51 公開日:2023-12-08
# グラフスペクトル復調のためのベイズ式

Bayesian Formulations for Graph Spectral Denoising ( http://arxiv.org/abs/2311.16378v2 )

ライセンス: Link先を確認
Sam Leone, Xingzhi Sun, Michael Perlmutter, Smita Krishnaswamy(参考訳) ここでは,グラフ上の信号としてモデル化された複雑なデータに関連付けられた特徴を,より滑らかに表現する問題を考察する。 これは、データが非常に高次元である単細胞rnaのような設定によって動機付けられるが、その構造は親和性グラフで捉えることができる。 これにより、グラフ信号処理からアイデアを活用できる。 特に,信号がガウスノイズ,ドロップアウト,均一分布雑音によって乱される場合のアルゴリズムを提案する。 信号は、グラフの端を横切るスムーズな信号を好む周波数領域で定義された先行分布に従うと仮定される。 本稿では,この事前分布と雑音発生の3つのモデルを組み合わせることで,ノイズデータの存在下での真信号の最大A Posteriori (M.A.P.)の推定と,M.A.P.の計算アルゴリズムを提案する。

Here we consider the problem of denoising features associated to complex data, modeled as signals on a graph, via a smoothness prior. This is motivated in part by settings such as single-cell RNA where the data is very high-dimensional, but its structure can be captured via an affinity graph. This allows us to utilize ideas from graph signal processing. In particular, we present algorithms for the cases where the signal is perturbed by Gaussian noise, dropout, and uniformly distributed noise. The signals are assumed to follow a prior distribution defined in the frequency domain which favors signals which are smooth across the edges of the graph. By pairing this prior distribution with our three models of noise generation, we propose Maximum A Posteriori (M.A.P.) estimates of the true signal in the presence of noisy data and provide algorithms for computing the M.A.P. Finally, we demonstrate the algorithms' ability to effectively restore signals from white noise on image data and from severe dropout in single-cell RNA sequence data.
翻訳日:2023-12-13 01:01:12 公開日:2023-12-08
# Gaussian3Diff:3Dフルヘッド合成と編集のための3Dガウス拡散

Gaussian3Diff: 3D Gaussian Diffusion for 3D Full Head Synthesis and Editing ( http://arxiv.org/abs/2312.03763v2 )

ライセンス: Link先を確認
Yushi Lan, Feitong Tan, Di Qiu, Qiangeng Xu, Kyle Genova, Zeng Huang, Sean Fanello, Rohit Pandey, Thomas Funkhouser, Chen Change Loy, Yinda Zhang(参考訳) 本稿では,フォトリアリスティックな3次元頭部を創出し,それを操作・再現する新しい枠組みを提案する。 提案手法は,パラメトリック顔モデルに固定された3次元ガウスを用いた3次元頭部の暗黙の関数表現を利用する。 表現能力を高め、空間情報をエンコードするために、色や不透明を直接保存するのではなく、各ガウス語に軽量な三平面ペイロードを埋め込む。 さらに、3DMMにより2次元UV空間のガウスをパラメータ化し、3Dヘッドアバター生成のための拡散モデルの有効利用を可能にする。 本手法は,顔の特徴や表情を微妙に編集した多彩でリアルな3次元頭部の作成を容易にする。 広範な実験により本手法の有効性が実証された。

We present a novel framework for generating photorealistic 3D human head and subsequently manipulating and reposing them with remarkable flexibility. The proposed approach leverages an implicit function representation of 3D human heads, employing 3D Gaussians anchored on a parametric face model. To enhance representational capabilities and encode spatial information, we embed a lightweight tri-plane payload within each Gaussian rather than directly storing color and opacity. Additionally, we parameterize the Gaussians in a 2D UV space via a 3DMM, enabling effective utilization of the diffusion model for 3D head avatar generation. Our method facilitates the creation of diverse and realistic 3D human heads with fine-grained editing over facial features and expressions. Extensive experiments demonstrate the effectiveness of our method.
翻訳日:2023-12-13 00:53:51 公開日:2023-12-08
# QAGCN:知識グラフに対するシングルステップインプシシット推論による複数関連質問への回答

QAGCN: Answering Multi-Relation Questions via Single-Step Implicit Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2206.01818v2 )

ライセンス: Link先を確認
Ruijie Wang, Luca Rossetto, Michael Cochez, Abraham Bernstein(参考訳) マルチリレーショナル質問応答(マルチリレーショナル質問応答、Multi-relation question answering, QA)は、複数の関係からなるKGの長い推論連鎖を必要とする課題である。 近年,kg以上のマルチステップ推論を明示的に行う手法が注目され,有望な性能を示している。 例えば、kgトリプルを通じてステップワイズラベル伝搬を行う方法や、強化学習に基づいてkgトリプルをナビゲートする方法などがある。 これらの方法の主な弱点は、その推論メカニズムが通常複雑で、実装や訓練が難しいことである。 本稿では,マルチリレーショナルQAは,よりシンプルで,より効率的に,より容易に適用可能な,エンドツーエンドのシングルステップの暗黙的推論によって実現可能であることを論じる。 本稿では,暗黙的推論のための質問依存メッセージ伝搬制御を備えた新しいGCNアーキテクチャを含む質問認識グラフ畳み込みネットワーク(GCN)に基づくQAGCNを提案する。 大規模な実験が行われており、QAGCNは最先端の明示的推論法と比較して競争力があり、性能も優れている。

Multi-relation question answering (QA) is a challenging task, where given questions usually require long reasoning chains in KGs that consist of multiple relations. Recently, methods with explicit multi-step reasoning over KGs have been prominently used in this task and have demonstrated promising performance. Examples include methods that perform stepwise label propagation through KG triples and methods that navigate over KG triples based on reinforcement learning. A main weakness of these methods is that their reasoning mechanisms are usually complex and difficult to implement or train. In this paper, we argue that multi-relation QA can be achieved via end-to-end single-step implicit reasoning, which is simpler, more efficient, and easier to adopt. We propose QAGCN -- a Question-Aware Graph Convolutional Network (GCN)-based method that includes a novel GCN architecture with controlled question-dependent message propagation for the implicit reasoning. Extensive experiments have been conducted, where QAGCN achieved competitive and even superior performance compared to state-of-the-art explicit-reasoning methods.
翻訳日:2023-12-12 23:04:21 公開日:2023-12-08
# CoSMo: 条件付きプロセスシミュレーションモデルを構築するフレームワーク

CoSMo: a Framework to Instantiate Conditioned Process Simulation Models ( http://arxiv.org/abs/2303.17879v2 )

ライセンス: Link先を確認
Rafael S. Oyamada and Gabriel M. Tavares and Paolo Ceravolo(参考訳) プロセスシミュレーションは、ビジネスプロセスの変化に伴う潜在的なパフォーマンス改善とリスクを評価する能力で注目を集めています。 既存の文献では、イベントログから発見されたプロセスモデルやディープラーニングアルゴリズムに基づくさまざまなテクニックが紹介されている。 これらの技法には特定の強度と限界がある。 プロセスモデルに根ざした従来のアプローチは解釈性を高め、ディープラーニングを使用するアプローチは大規模なイベントログにまたがる変更の一般化に優れている。 しかし、深層学習の実践的応用は、確率性の管理と情報の統合に関する課題に直面している。 本稿では,ユーザの制約やアプリオリ知識の他の性質に基づいて,CoSMo(Conditioned Process Simulation Models)の発見に適した,新しいリカレントニューラルネットワークを提案する。 このアーキテクチャは、宣言ベースのルールを学習フェーズに組み込むことで、特定の制約に準拠したイベントログのシミュレーションを促進する。 実験的検証は、事前定義された宣言的条件に固執しながらイベントログをシミュレートするcosmoの有効性を示し、制御フローとデータフローの両方の観点から強調する。

Process simulation is gaining attention for its ability to assess potential performance improvements and risks associated with business process changes. The existing literature presents various techniques, generally grounded in process models discovered from event logs or built upon deep learning algorithms. These techniques have specific strengths and limitations. Traditional approaches rooted in process models offer increased interpretability, while those using deep learning excel at generalizing changes across large event logs. However, the practical application of deep learning faces challenges related to managing stochasticity and integrating information for what-if analysis. This paper introduces a novel recurrent neural architecture tailored to discover COnditioned process Simulation MOdels (CoSMo) based on user-based constraints or any other nature of a-priori knowledge. This architecture facilitates the simulation of event logs that adhere to specific constraints by incorporating declarative-based rules into the learning phase as an attempt to fill the gap of incorporating information into deep learning models to perform what-if analysis. Experimental validation illustrates CoSMo's efficacy in simulating event logs while adhering to predefined declarative conditions, emphasizing both control-flow and data-flow perspectives.
翻訳日:2023-12-12 22:56:20 公開日:2023-12-08
# 曖昧さ - 情報ゲーティングによるロバスト制御

Ignorance is Bliss: Robust Control via Information Gating ( http://arxiv.org/abs/2303.06121v2 )

ライセンス: Link先を確認
Manan Tomar, Riashat Islam, Matthew E. Taylor, Sergey Levine, Philip Bachman(参考訳) 情報的パシモニーは、雑音やスプリアス相関に頑健であり、より良い一般化を達成する学習表現のための有用な帰納的バイアスを提供する。 タスクに必要な最小限の情報を識別する専門的な表現を学習する方法として, \textit{information gating}を提案する。 情報をゲートすると、タスクが解決可能なままにできる限り小さな情報を明らかにするか、タスクが解決不能になるようにできる限り小さな情報を隠すことを学ぶことができる。 我々は、入力層における画素の消去や中間層におけるアクティベーションなど、ネットワーク内の任意の値に適用可能な信号対雑音比の微分可能なパラメータ化を用いてゲート情報をゲートする。 入力層をゲートすると、与えられたタスクに対してどの視覚手がかりが重要なのかをモデルが学習します。 中間層をゲーティングするとき、我々のモデルはその後の計算の段階でどのアクティベーションが必要なのかを学習する。 私たちはアプローチを textit{InfoGating} と呼びます。 我々はInfoGatingを多段階フォワードや逆ダイナミクスモデル、Qラーニング、行動クローニングといった様々な目的に適用し、InfoGatingが制御に関係のない情報を捨てるのにどのように役立つかを強調した。 その結果、最小の情報を識別し使用する学習は、下流タスクの一般化を改善できることが示されている。 InfoGatingに基づくポリシーは、無関係な視覚的特徴に対してかなり堅牢であり、RLモデルの事前訓練と微調整の改善につながっている。

Informational parsimony provides a useful inductive bias for learning representations that achieve better generalization by being robust to noise and spurious correlations. We propose \textit{information gating} as a way to learn parsimonious representations that identify the minimal information required for a task. When gating information, we can learn to reveal as little information as possible so that a task remains solvable, or hide as little information as possible so that a task becomes unsolvable. We gate information using a differentiable parameterization of the signal-to-noise ratio, which can be applied to arbitrary values in a network, e.g., erasing pixels at the input layer or activations in some intermediate layer. When gating at the input layer, our models learn which visual cues matter for a given task. When gating intermediate layers, our models learn which activations are needed for subsequent stages of computation. We call our approach \textit{InfoGating}. We apply InfoGating to various objectives such as multi-step forward and inverse dynamics models, Q-learning, and behavior cloning, highlighting how InfoGating can naturally help in discarding information not relevant for control. Results show that learning to identify and use minimal information can improve generalization in downstream tasks. Policies based on InfoGating are considerably more robust to irrelevant visual features, leading to improved pretraining and finetuning of RL models.
翻訳日:2023-12-12 22:55:58 公開日:2023-12-08
# 歌詞: セマンティックな視覚オブジェクトによる細粒度言語ビジョンアライメントと理解の促進

Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects ( http://arxiv.org/abs/2312.05278v1 )

ライセンス: Link先を確認
Junyu Lu, Ruyi Gan, Dixiang Zhang, Xiaojun Wu, Ziwei Wu, Renliang Sun, Jiaxing Zhang, Pingjian Zhang, Yan Song(参考訳) LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。 しかし、きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。 本稿では,細粒度のクロスモーダルコラボレーションから視覚言語アライメントをブートストラップする,新しいマルチモーダル事前学習・指導微調整パラダイムであるslanceを提案する。 BLIP-2の基礎の上に構築されているLyricsは、画像タグ付け、オブジェクト検出、セマンティックセグメンテーションモジュールを含むビジュアルリファインダから抽出されたローカルビジュアル特徴をクエリ変換器に注入し、テキスト側では、言語入力がビジュアルリファインダから派生した境界ボックスとタグを装備する。 さらに,前訓練段階が明示的かつ包括的な視覚言語アライメント目標を通してモダリティギャップを橋渡しする2段階のトレーニングスキームについても紹介する。 そこで本研究では,具体的視覚オブジェクトから情報的特徴を抽出するための重要な手法である,意味認識型視覚特徴抽出手法を提案する。 本手法は,様々な視覚言語タスクにまたがる13個のデータセットの強力な性能を実現し,実対話シナリオにおける多モード理解と詳細な描写能力を示す。

Large Vision Language Models (LVLMs) have demonstrated impressive zero-shot capabilities in various vision-language dialogue scenarios. However, the absence of fine-grained visual object detection hinders the model from understanding the details of images, leading to irreparable visual hallucinations and factual errors. In this paper, we propose Lyrics, a novel multi-modal pre-training and instruction fine-tuning paradigm that bootstraps vision-language alignment from fine-grained cross-modal collaboration. Building on the foundation of BLIP-2, Lyrics infuses local visual features extracted from a visual refiner that includes image tagging, object detection and semantic segmentation modules into the Querying Transformer, while on the text side, the language inputs equip the boundary boxes and tags derived from the visual refiner. We further introduce a two-stage training scheme, in which the pre-training stage bridges the modality gap through explicit and comprehensive vision-language alignment targets. During the instruction fine-tuning stage, we introduce semantic-aware visual feature extraction, a crucial method that enables the model to extract informative features from concrete visual objects. Our approach achieves strong performance on 13 held-out datasets across various vision-language tasks, and demonstrates promising multi-modal understanding and detailed depiction capabilities in real dialogue scenarios.
翻訳日:2023-12-12 21:59:50 公開日:2023-12-08
# 3Dコピーペースト:モノクロ3D検出のための物理的に可塑性物体挿入

3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection ( http://arxiv.org/abs/2312.05277v1 )

ライセンス: Link先を確認
Yunhao Ge, Hong-Xing Yu, Cheng Zhao, Yuliang Guo, Xinyu Huang, Liu Ren, Laurent Itti, Jiajun Wu(参考訳) モノクロ3dオブジェクト検出における大きな課題は、実データセット内のオブジェクトの多様性と量に制限があることだ。 実際のシーンを仮想オブジェクトで拡張することは、オブジェクトの多様性と量の両方を改善すると約束されているが、複雑な実写シーンで有効な3dオブジェクト挿入方法が欠如しているため、いまだに理解できない。 本研究では,モノクロ3次元物体検出のための仮想物体を用いた複雑な屋内シーンの強化について検討する。 主な課題は、散らかった現実のシーンにおいて、仮想資産(場所、外観、サイズなど)のもっともらしい物理的特性を自動的に識別することである。 そこで本研究では,仮想物体を自動的にコピーして実際のシーンに貼り付ける,物理的に妥当な3dオブジェクト挿入手法を提案する。 シーン内のオブジェクトは、3Dバウンディングボックスを持ち、物理的な位置と外観がもっとも高い。 特に,本手法は,まず物理的に実現可能な位置を識別し,既存の部屋配置との衝突を防止するために挿入対象のポーズをとる。 その後、挿入位置の空間変動照明を推定し、仮想物体を元のシーンに没入的にブレンドし、見栄えやキャストシャドウを再現する。 本手法は既存のモノクロ3Dオブジェクトモデルを大幅に改善し,最先端の性能を実現する。 生成データ拡張技術として機能する物理的に可塑性な3Dオブジェクト挿入は,モノクロ3Dオブジェクト検出などの識別下流タスクにおいて,大きな改善をもたらすことが初めて実証された。 プロジェクトウェブサイト:https://gyhandy.github.io/3D-Copy-Paste/

A major challenge in monocular 3D object detection is the limited diversity and quantity of objects in real datasets. While augmenting real scenes with virtual objects holds promise to improve both the diversity and quantity of the objects, it remains elusive due to the lack of an effective 3D object insertion method in complex real captured scenes. In this work, we study augmenting complex real indoor scenes with virtual objects for monocular 3D object detection. The main challenge is to automatically identify plausible physical properties for virtual assets (e.g., locations, appearances, sizes, etc.) in cluttered real scenes. To address this challenge, we propose a physically plausible indoor 3D object insertion approach to automatically copy virtual objects and paste them into real scenes. The resulting objects in scenes have 3D bounding boxes with plausible physical locations and appearances. In particular, our method first identifies physically feasible locations and poses for the inserted objects to prevent collisions with the existing room layout. Subsequently, it estimates spatially-varying illumination for the insertion location, enabling the immersive blending of the virtual objects into the original scene with plausible appearances and cast shadows. We show that our augmentation method significantly improves existing monocular 3D object models and achieves state-of-the-art performance. For the first time, we demonstrate that a physically plausible 3D object insertion, serving as a generative data augmentation technique, can lead to significant improvements for discriminative downstream tasks such as monocular 3D object detection. Project website: https://gyhandy.github.io/3D-Copy-Paste/
翻訳日:2023-12-12 21:59:22 公開日:2023-12-08
# プログレッシブ・プロンプト強化によるオンラインマーケティングのための大規模言語モデルによる知識マイニング

Making Large Language Models Better Knowledge Miners for Online Marketing with Progressive Prompting Augmentation ( http://arxiv.org/abs/2312.05276v1 )

ライセンス: Link先を確認
Chunjing Gan, Dan Yang, Binbin Hu, Ziqi Liu, Yue Shen, Zhiqiang Zhang, Jinjie Gu, Jun Zhou, Guannan Zhang(参考訳) 現在では、モバイル経済の急速な発展により、オンラインマーケティングキャンペーンの興隆が促進され、その成功はユーザーの好みと望ましいマーケティングキャンペーンとの効率的なマッチングに大きく依存している。 本稿では,LLMの制御不能な関係生成,単一プロンプトの容易な促進,LCMの展開コストなど,現実のマーケティングシナリオにおいて避けられないいくつかの問題に悩まされている,マーケティング指向の知識グラフ構築のためのマーケティング指向の知識マイナーとして,ドメインレベルの知識を持つ大規模言語モデル(LLM)を慎重に推進することを目的とする。 そこで本研究では,マーケティング指向の知識グラフをLLMで抽出するためのプログレッシブプロンプトであるPAIRを提案する。 特に,LLMをベースとした適応的関係フィルタリングにおける純粋関係生成を知識駆動型プロンプト技術により削減する。 次に, 自己整合性および意味的関連性の両方を包括的に考慮した, 信頼度の高いアグリゲーションにより, 進行的促進を伴うエンティティ拡張のためのLCMについて検討する。 オンラインサービスに関しては,中小のPAIR(LightPAIR)を専門とし,強力な教師LLMによって提供される高品質のコーパスを微調整する。 オーディエンスを対象とした大規模な実験と実践的応用が提案された(光)PAIRの有効性を検証する。

Nowadays, the rapid development of mobile economy has promoted the flourishing of online marketing campaigns, whose success greatly hinges on the efficient matching between user preferences and desired marketing campaigns where a well-established Marketing-oriented Knowledge Graph (dubbed as MoKG) could serve as the critical "bridge" for preference propagation. In this paper, we seek to carefully prompt a Large Language Model (LLM) with domain-level knowledge as a better marketing-oriented knowledge miner for marketing-oriented knowledge graph construction, which is however non-trivial, suffering from several inevitable issues in real-world marketing scenarios, i.e., uncontrollable relation generation of LLMs,insufficient prompting ability of a single prompt, the unaffordable deployment cost of LLMs. To this end, we propose PAIR, a novel Progressive prompting Augmented mIning fRamework for harvesting marketing-oriented knowledge graph with LLMs. In particular, we reduce the pure relation generation to an LLM based adaptive relation filtering process through the knowledge-empowered prompting technique. Next, we steer LLMs for entity expansion with progressive prompting augmentation,followed by a reliable aggregation with comprehensive consideration of both self-consistency and semantic relatedness. In terms of online serving, we specialize in a small and white-box PAIR (i.e.,LightPAIR),which is fine-tuned with a high-quality corpus provided by a strong teacher-LLM. Extensive experiments and practical applications in audience targeting verify the effectiveness of the proposed (Light)PAIR.
翻訳日:2023-12-12 21:58:51 公開日:2023-12-08
# ソフトウェアセキュリティアプリケーションにおけるChatGPTの限界を探る

Exploring the Limits of ChatGPT in Software Security Applications ( http://arxiv.org/abs/2312.05275v1 )

ライセンス: Link先を確認
Fangzhou Wu, Qingzhao Zhang, Ati Priya Bajaj, Tiffany Bao, Ning Zhang, Ruoyu "Fish" Wang, Chaowei Xiao(参考訳) 大規模言語モデル(LLM)は急速な進化を遂げ、近年は顕著な成果を上げている。 OpenAIのChatGPT(GPT-3.5またはGPT-4)は、自然言語タスク、コーディング、数学、エンゲージメント会話など、幅広いタスクにまたがる強力な能力のために、すぐに人気を得た。 しかし、システムセキュリティ領域におけるそのようなLLMの影響と限界は調査されていない。 本稿では,脆弱性検出/リペア,デバッグ,デブロッキング,デコンパイル,パッチング,根本原因解析,シンボル実行,ファズリングを含む7つのソフトウェアセキュリティアプリケーションにおいて,LSM(すなわちChatGPT)の限界を探索する。 今回の調査により、chatgptは、従来の言語モデルのアプリケーションであるコード生成に優れるだけでなく、自然言語におけるユーザが提供するコマンドの理解、プログラム内の制御とデータフローの推論、複雑なデータ構造の生成、アセンブリコードの非コンパイルといった強力な能力も示しています。 特にGPT-4は、ほとんどのセキュリティタスクにおいてGPT-3.5よりも大幅に改善されている。 また、セキュリティ関連のタスクにおけるChatGPTの特定の制限は、長いコードコンテキストを処理する制限のある機能など、特定される。

Large language models (LLMs) have undergone rapid evolution and achieved remarkable results in recent times. OpenAI's ChatGPT, backed by GPT-3.5 or GPT-4, has gained instant popularity due to its strong capability across a wide range of tasks, including natural language tasks, coding, mathematics, and engaging conversations. However, the impacts and limits of such LLMs in system security domain are less explored. In this paper, we delve into the limits of LLMs (i.e., ChatGPT) in seven software security applications including vulnerability detection/repair, debugging, debloating, decompilation, patching, root cause analysis, symbolic execution, and fuzzing. Our exploration reveals that ChatGPT not only excels at generating code, which is the conventional application of language models, but also demonstrates strong capability in understanding user-provided commands in natural languages, reasoning about control and data flows within programs, generating complex data structures, and even decompiling assembly code. Notably, GPT-4 showcases significant improvements over GPT-3.5 in most security tasks. Also, certain limitations of ChatGPT in security-related tasks are identified, such as its constrained ability to process long code contexts.
翻訳日:2023-12-12 21:58:24 公開日:2023-12-08
# target to source: テスト時間適応のためのガイダンスに基づく拡散モデル

Target to Source: Guidance-Based Diffusion Model for Test-Time Adaptation ( http://arxiv.org/abs/2312.05274v1 )

ライセンス: Link先を確認
Kaiyu Song, Hanjiang Lai(参考訳) テスト時間適応(TTA)の最近の研究は、各ドメインのソース分類器を再訓練することによって、ドメインシフトの問題を軽減することを目的としている。 一方、拡散モデルの出現は、ソースドメインで事前訓練された拡散モデルに基づいて、ターゲットドメインからソースドメインにテストデータを直接マッピングするTTAに対する別の解決策を提供する。 ソース分類器は微調整される必要はない。 しかし、 1)テストデータからソースドメインへの意味的情報損失と 2) ソース分類器と拡散モデルとのモデルシフトは、拡散モデルがテストデータをソースドメインに正しくマッピングすることを妨げます。 本稿では、データシフトを克服し、拡散モデルによりソースに戻すより良い方法を見つけるための、新しいガイダンスベースの拡散駆動適応(GDDA)を提案する。 具体的には、まず、テストデータとソースデータの共通セマンティクスをよりよく維持するための詳細とグローバルガイダンスを提案する。 2つのガイダンスには、拡散モデルとテストデータを完全に探索することで情報損失を軽減するための対比的損失と平均二乗誤差が含まれる。 一方,モデルシフトによるバイアスを低減するための分類器対応ガイダンスを提案し,拡散モデルの生成プロセスにソース分類器の情報を組み込むことができる。 3つの分類器のバックボーンを持つ3つの画像データセットの大規模な実験により、GDDAは最先端のベースラインよりも優れた性能を示した。 CIFAR-10C、CIFAR-100C、ImageNetCでは、GDDAはそれぞれ11.54\%、19.05\%、11.63\%の平均精度の改善を達成した。 GDDAは、分類器の再訓練方法と同等の性能を達成している。 コードは補足資料で入手できる。

Most recent works of test-time adaptation (TTA) aim to alleviate domain shift problems by re-training source classifiers in each domain. On the other hand, the emergence of the diffusion model provides another solution to TTA, which directly maps the test data from the target domain to the source domain based on a diffusion model pre-trained in the source domain. The source classifier does not need to be fine-tuned. However, 1) the semantic information loss from test data to the source domain and 2) the model shift between the source classifier and diffusion model would prevent the diffusion model from mapping the test data back to the source domain correctly. In this paper, we propose a novel guidance-based diffusion-driven adaptation (GDDA) to overcome the data shift and let the diffusion model find a better way to go back to the source. Concretely, we first propose detail and global guidance to better keep the common semantics of the test and source data. The two guidance include a contrastive loss and mean squared error to alleviate the information loss by fully exploring the diffusion model and the test data. Meanwhile, we propose a classifier-aware guidance to reduce the bias caused by the model shift, which can incorporate the source classifier's information into the generation process of the diffusion model. Extensive experiments on three image datasets with three classifier backbones demonstrate that GDDA significantly performs better than the state-of-the-art baselines. On CIFAR-10C, CIFAR-100C, and ImageNetC, GDDA achieves 11.54\%, 19.05\%, and 11.63\% average accuracy improvements, respectively. GDDA even achieves equal performance compared with methods of re-training classifiers. The code is available in the supplementary material.
翻訳日:2023-12-12 21:58:02 公開日:2023-12-08
# FakeWatch ElectionShield: 信用できる米国の選挙のフェイクニュースを検出するベンチマークフレームワーク

FakeWatch ElectionShield: A Benchmarking Framework to Detect Fake News for Credible US Elections ( http://arxiv.org/abs/2312.03730v2 )

ライセンス: Link先を確認
Tahniat Khan, Mizanur Rahman, Veronica Chatrath, Oluwanifemi Bamgbose, Shaina Raza(参考訳) 今日の技術主導の世界では、特に選挙などの重要な出来事において、フェイクニュースの拡散が情報の完全性に挑戦している。 この課題に対処するために、偽ニュースを検出するために慎重に設計された革新的なフレームワークであるFakeWatch ElectionShieldを紹介する。 我々は,北米の選挙関連ニュース記事の新しいデータセットを,高度言語モデル (LM) と完全人間検証の混合により作成し,精度と妥当性を検証した。 我々は偽ニュースを識別するためのモデルハブを提案する。 本研究の目的は,誤情報の動的性質を認識できる,適応的で正確な分類モデルを提供することである。 我々のデータセットとベンチマークデータセットによる偽ニュース分類器の大規模な評価は、最先端のLMが従来のMLモデルよりわずかに優れている一方で、従来のモデルは精度、説明可能性、計算効率のバランスに競争力があることを示している。 この研究は、選挙に関する誤報に対処するための将来の研究の基礎を定めている。

In today's technologically driven world, the spread of fake news, particularly during crucial events such as elections, presents an increasing challenge to the integrity of information. To address this challenge, we introduce FakeWatch ElectionShield, an innovative framework carefully designed to detect fake news. We have created a novel dataset of North American election-related news articles through a blend of advanced language models (LMs) and thorough human verification, for precision and relevance. We propose a model hub of LMs for identifying fake news. Our goal is to provide the research community with adaptable and accurate classification models in recognizing the dynamic nature of misinformation. Extensive evaluation of fake news classifiers on our dataset and a benchmark dataset shows our that while state-of-the-art LMs slightly outperform the traditional ML models, classical models are still competitive with their balance of accuracy, explainability, and computational efficiency. This research sets the foundation for future studies to address misinformation related to elections.
翻訳日:2023-12-12 21:55:08 公開日:2023-12-08
# シュウィンガー模型における二フェルミオン負性と閉じ込め

Two-fermion negativity and confinement in the Schwinger model ( http://arxiv.org/abs/2312.05298v1 )

ライセンス: Link先を確認
Adrien Florio(参考訳) シュウィンガーモデルにおける2つのフェルミオンモード間のフェルミオン(対数)負性について考察する。 最近の研究では、フェルミオン系はボゾン系よりも強い絡み合いを示し、代数的にしか崩壊しない負性を示すことが示されている。 シュウィンガー模型は近距離でのフェルミイオン励起によって記述され、その漸近スペクトルはボソニック理論の1つである。 この2モードの負性度は、第1励起状態のデブロリー波長のオーダー距離において、代数的崩壊から指数的崩壊へとシフトする、この収束するフェルミオン-ボソン遷移を検出する。 我々は、マスレスシュウィンガーモデルにおける解析式を導出し、テンソルネットワークシミュレーションと対決する。 また、シュウィンガーモデルのイジング量子臨界点に近く、解析的に解けない質量モデルでテンソルネットワークシミュレーションを行い、そこでは負性性がそのボソニックモデルとして振る舞うことを示す。

We consider the fermionic (logarithmic) negativity between two fermionic modes in the Schwinger model. Recent results pointed out that fermionic systems can exhibit stronger entanglement than bosonic systems, exhibiting a negativity that decays only algebraically. The Schwinger model is described by fermionic excitations at short distances, while its asymptotic spectrum is the one of a bosonic theory. We show that the two-mode negativity detects this confining, fermion-to-boson transition, shifting from an algebraic decay to an exponential decay at distances of the order of the de Broglie wavelength of the first excited state. We derive analytical expressions in the massless Schwinger model and confront them with tensor network simulations. We also perform tensor network simulations in the massive model, which is not solvable analytically, and close to the Ising quantum critical point of the Schwinger model, where we show that the negativity behaves as its bosonic counterpart.
翻訳日:2023-12-12 21:49:44 公開日:2023-12-08
# aiコンペティションとベンチマーク: 挑戦とベンチマークのライフサイクル

AI Competitions and Benchmarks: The life cycle of challenges and benchmarks ( http://arxiv.org/abs/2312.05296v1 )

ライセンス: Link先を確認
Gustavo Stolovitzky, Julio Saez-Rodriguez, Julie Bletz, Jacob Albrecht, Gaia Andreoletti, James C. Costello, Paul Boutros(参考訳) データサイエンスの研究は、テクノロジーの変革的な力、インターネット、そしてますます増加する計算能力によって、革命を繰り広げている。 高度なアルゴリズムを開発できる速度は前例がないが、研究者がますます利用しやすくなっている大量のデータに圧倒されている。 ここでは、科学的研究とアルゴリズム開発コミュニティを堅牢なイノベーションの軸として創造的に活用する必要性を議論する。 科学的発見企業におけるこれらのコミュニティを、批判的な評価、コミュニティ実験、および/またはクラウドソーシングによって拡張することで、現在の関心事の基本的および応用的な問題に対する、新しいデータ駆動、再現可能、および十分にベンチマークされたアルゴリズムソリューションを開発する機会を倍増する。 高度に複雑で大規模なデータ分析におけるコミュニティの関与は、これらの課題に最も対処する堅牢な方法論を見つけるための一つのアプローチとして現れている。 コミュニティエンゲージメントが、課題としても知られる競争の形で実施される場合、分析手法の検証は本質的に対処され、パフォーマンスベンチマークが確立される。 最後に、大きな科学的ギャップに対処するために直接的または間接的に協力するコミュニティを作るために、複数の分野にわたるオープンイノベーションを育む。 参加者は共に、健康研究、気候変動、社会的平等など、さまざまな問題を解決することができる。 究極的には、複雑なデータの合成を、知識や行動可能な情報に触媒し、加速し、永続的な社会的および研究的な貢献をするための強力なツールと見なされるべきである。

Data Science research is undergoing a revolution fueled by the transformative power of technology, the Internet, and an ever increasing computational capacity. The rate at which sophisticated algorithms can be developed is unprecedented, yet they remain outpaced by the massive amounts of data that are increasingly available to researchers. Here we argue for the need to creatively leverage the scientific research and algorithm development community as an axis of robust innovation. Engaging these communities in the scientific discovery enterprise by critical assessments, community experiments, and/or crowdsourcing will multiply opportunities to develop new data driven, reproducible and well benchmarked algorithmic solutions to fundamental and applied problems of current interest. Coordinated community engagement in the analysis of highly complex and massive data has emerged as one approach to find robust methodologies that best address these challenges. When community engagement is done in the form of competitions, also known as challenges, the validation of the analytical methodology is inherently addressed, establishing performance benchmarks. Finally, challenges foster open innovation across multiple disciplines to create communities that collaborate directly or indirectly to address significant scientific gaps. Together, participants can solve important problems as varied as health research, climate change, and social equity. Ultimately, challenges can catalyze and accelerate the synthesis of complex data into knowledge or actionable information, and should be viewed a powerful tool to make lasting social and research contributions.
翻訳日:2023-12-12 21:49:26 公開日:2023-12-08
# テキスト記述によるアンタングル型アバター生成

Disentangled Clothed Avatar Generation from Text Descriptions ( http://arxiv.org/abs/2312.05295v1 )

ライセンス: Link先を確認
Jionghao Wang, Yuan Liu, Zhiyang Dou, Zhengming Yu, Yongqing Liang, Xin Li, Wenping Wang, Rong Xie, Li Song(参考訳) 本稿では,人体と衣服を別々に生成し,生成したアバターに高品質なアニメーションを可能にする新しいテキスト・アバター生成手法を提案する。 近年のテキストとアバターの生成は、テキストプロンプトから多様な人間のアバターを生み出しているが、これらの手法は典型的には、衣服、髪、ボディインボディーを1つの3D表現に組み合わせている。 このような絡み合ったアプローチは、編集やアニメーションといった下流タスクに課題をもたらす。 これらの制約を克服するため、SMPLモデルに基づくSequentially Offset-SMPL (SO-SMPL) と呼ばれる新しい3次元アバター表現を提案する。 SO-SMPLは、人体と服を2つの異なるメッシュで表現するが、体と服の間の物理的整合性を確保するためにオフセットを関連付ける。 次に,テキストプロンプトから提案したSO-SMPL表現を生成するために,スコア蒸留サンプリング(SDS)に基づく蒸留フレームワークを設計する。 既存のテキスト・トゥ・アバター法と比較して,本手法は,高い伸縮性と幾何学的品質とテキストプロンプトとのセマンティックアライメントの向上に加えて,文字アニメーション,仮想トライオン,アバター編集の視覚的品質を大幅に向上させる。 私たちのプロジェクトページはhttps://shanemankiw.github.io/SO-SMPL/です。

In this paper, we introduced a novel text-to-avatar generation method that separately generates the human body and the clothes and allows high-quality animation on the generated avatar. While recent advancements in text-to-avatar generation have yielded diverse human avatars from text prompts, these methods typically combine all elements-clothes, hair, and body-into a single 3D representation. Such an entangled approach poses challenges for downstream tasks like editing or animation. To overcome these limitations, we propose a novel disentangled 3D avatar representation named Sequentially Offset-SMPL (SO-SMPL), building upon the SMPL model. SO-SMPL represents the human body and clothes with two separate meshes, but associates them with offsets to ensure the physical alignment between the body and the clothes. Then, we design an Score Distillation Sampling(SDS)-based distillation framework to generate the proposed SO-SMPL representation from text prompts. In comparison with existing text-to-avatar methods, our approach not only achieves higher exture and geometry quality and better semantic alignment with text prompts, but also significantly improves the visual quality of character animation, virtual try-on, and avatar editing. Our project page is at https://shanemankiw.github.io/SO-SMPL/.
翻訳日:2023-12-12 21:49:01 公開日:2023-12-08
# glitchbench: 大規模マルチモーダルモデルはビデオゲームの不具合を検知できるのか?

GlitchBench: Can large multimodal models detect video game glitches? ( http://arxiv.org/abs/2312.05291v1 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Tianjun Feng, Cor-Paul Bezemer, Anh Nguyen(参考訳) 大規模マルチモーダルモデル (LMM) は大規模言語モデル (LLM) から進化し、視覚入力などの複数の入力モダリティを統合する。 この統合により、視覚的理解と推論を必要とするタスクに対するLLMの容量が増大する。 しかし、それらの強化能力の程度と限界は、特に現実世界のタスクに関して完全には理解されていない。 このギャップに対処するために,ゲーム品質保証タスクから派生した新しいベンチマークであるGlitchBenchを導入し,LMMの推論能力を検証・評価する。 我々のベンチマークは、ビデオゲームの様々な異常なシナリオから算出され、通常イベントの検出と解釈においてLMMの視覚的および言語的推論能力に挑戦することを目的としている。 我々は、複数の最先端LMMを評価し、GlitchBenchがこれらのモデルに新しい課題を示すことを示す。 コードとデータは、https://glitchbench.github.io/で入手できる。

Large multimodal models (LMMs) have evolved from large language models (LLMs) to integrate multiple input modalities, such as visual inputs. This integration augments the capacity of LLMs for tasks requiring visual comprehension and reasoning. However, the extent and limitations of their enhanced abilities are not fully understood, especially when it comes to real-world tasks. To address this gap, we introduce GlitchBench, a novel benchmark derived from video game quality assurance tasks, to test and evaluate the reasoning capabilities of LMMs. Our benchmark is curated from a variety of unusual and glitched scenarios from video games and aims to challenge both the visual and linguistic reasoning powers of LMMs in detecting and interpreting out-of-the-ordinary events. We evaluate multiple state-of-the-art LMMs, and we show that GlitchBench presents a new challenge for these models. Code and data are available at: https://glitchbench.github.io/
翻訳日:2023-12-12 21:48:35 公開日:2023-12-08
# スパイクニューラルネットワークにおける雑音適応

Noise Adaptor in Spiking Neural Networks ( http://arxiv.org/abs/2312.05290v1 )

ライセンス: Link先を確認
Chen Li, Bipin Rajendran(参考訳) 近年の低遅延スパイクニューラルネットワーク(SNN)アルゴリズムの進歩は、特にイベント駆動型コンピューティングの性質と高速推論能力により、大きな関心を集めている。 低遅延SNNを構築する最も効率的な方法の1つは、事前訓練された低ビット人工ニューラルネットワーク(ANN)をSNNに変換することである。 しかし、この変換プロセスは2つの大きな課題に直面している。 まず、低ビットのANNからSNNを変換すると、"occasional noise"(時折のノイズ)が発生する。 第二に、低遅延SNNは、最初は時間ステップで精度が向上するが、これらの精度はすぐに向上し、その結果、そのピーク精度は、高速よりも精度を優先する完全精度ANNと従来の 'long-latency SNN'' の両方に遅れる。 そこで本稿では,これら2つの課題に対して,`noise adaptor という新しい手法を提案する。 ノイズアダプタはトレーニング中に時々発生するノイズをモデル化し、特に高いシミュレーション時間にsnn精度を暗黙的に最適化することができる。 本研究ではResNetモデルを用いて低遅延SNNに対する雑音適応器の影響の包括的解析を行う。 その結果,提案手法は以前報告した量子ANN-SNN変換手法よりも優れていた。 我々は、ResNet-18を用いたCIFAR-10の4ステップで95.95\%、ResNet-50を用いたImageNetの64タイムステップで74.37\%の精度を達成した。 これらの結果は、負のスパイクや2段階のSNNシミュレーションなど、SNN推論中のノイズ補正手法を使わずに得られた。 提案手法により,低遅延SNNのピーク精度が大幅に向上し,完全精度ANNの精度と同等になる。 コードはオープンソースになる。

Recent strides in low-latency spiking neural network (SNN) algorithms have drawn significant interest, particularly due to their event-driven computing nature and fast inference capability. One of the most efficient ways to construct a low-latency SNN is by converting a pre-trained, low-bit artificial neural network (ANN) into an SNN. However, this conversion process faces two main challenges: First, converting SNNs from low-bit ANNs can lead to ``occasional noise" -- the phenomenon where occasional spikes are generated in spiking neurons where they should not be -- during inference, which significantly lowers SNN accuracy. Second, although low-latency SNNs initially show fast improvements in accuracy with time steps, these accuracy growths soon plateau, resulting in their peak accuracy lagging behind both full-precision ANNs and traditional ``long-latency SNNs'' that prioritize precision over speed. In response to these two challenges, this paper introduces a novel technique named ``noise adaptor.'' Noise adaptor can model occasional noise during training and implicitly optimize SNN accuracy, particularly at high simulation times $T$. Our research utilizes the ResNet model for a comprehensive analysis of the impact of the noise adaptor on low-latency SNNs. The results demonstrate that our method outperforms the previously reported quant-ANN-to-SNN conversion technique. We achieved an accuracy of 95.95\% within 4 time steps on CIFAR-10 using ResNet-18, and an accuracy of 74.37\% within 64 time steps on ImageNet using ResNet-50. Remarkably, these results were obtained without resorting to any noise correction methods during SNN inference, such as negative spikes or two-stage SNN simulations. Our approach significantly boosts the peak accuracy of low-latency SNNs, bringing them on par with the accuracy of full-precision ANNs. Code will be open source.
翻訳日:2023-12-12 21:48:18 公開日:2023-12-08
# Reddiment: Eine SvelteKit-とElasticSearch-basierte Reddit Sentiment-Analyse

Reddiment: Eine SvelteKit- und ElasticSearch-basierte Reddit Sentiment-Analyse ( http://arxiv.org/abs/2312.05289v1 )

ライセンス: Link先を確認
Tobias Bauer and Fabian Beer and Daniel Holl and Ardian Imeraj and Konrad Schweiger and Philipp Stangl and Wolfgang Weigl and Christoph P. Neumann(参考訳) Reddimentはウェブベースのダッシュボードで、サブレディットテキストの感情分析と株価を結びつける。 システムはバックエンド、フロントエンド、およびさまざまなサービスで構成される。 Node.jsのバックエンドはデータを管理し、Redditのコメントや株式市場のデータを集めるクローラーと通信する。 感性はVaderとTextBlobの助けを借りて分析される。 SvelteKitをベースとしたフロントエンドは、視覚化のためのダッシュボードを提供する。 ディストリビューションはDockerコンテナとDocker Composeを介して実行される。 このプロジェクトは、例えば暗号通貨レートの統合など、拡張オプションを提供している。 レディメントは、サブレディットデータから感情分析と株価分析を可能にする。

Reddiment is a web-based dashboard that links sentiment analysis of subreddit texts with share prices. The system consists of a backend, frontend and various services. The backend, in Node.js, manages the data and communicates with crawlers that collect Reddit comments and stock market data. Sentiment is analyzed with the help of Vader and TextBlob. The frontend, based on SvelteKit, provides users with a dashboard for visualization. The distribution is carried out via Docker containers and Docker Compose. The project offers expansion options, e.g. the integration of cryptocurrency rates. Reddiment enables the analysis of sentiment and share prices from subreddit data.
翻訳日:2023-12-12 21:47:44 公開日:2023-12-08
# MotionCrafter: 拡散モデルのワンショットモーションカスタマイズ

MotionCrafter: One-Shot Motion Customization of Diffusion Models ( http://arxiv.org/abs/2312.05288v1 )

ライセンス: Link先を確認
Yuxin Zhang, Fan Tang, Nisha Huang, Haibin Huang, Chongyang Ma, Weiming Dong, Changsheng Xu(参考訳) 動画の本質は、キャラクターの動き、オブジェクトの動き、カメラの動きなど、ダイナミックな動きにある。 近年,テキスト・ビデオ生成拡散モデルによる多様なコンテンツ作成が進んでいるが,テキスト・プロンプトによる特定の動作の制御は重要な課題である。 主な問題は外観と動きの結合であり、しばしば外観に過度に適合する。 この課題に対処するために、新しいワンショットインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用しているが、空間モジュールは文字やスタイル制御のために独立して調整されている。 動きと外観の絡み合いを高めるために, 動きの絡み合い損失と出現前強調戦略からなる, 革新的な二重分岐運動乱れアプローチを提案する。 トレーニング中、凍結ベースモデルは外観正規化を提供し、効果的に外観と動きを分離し、ダイバーシティを維持する。 総合的な量的および質的な実験とユーザ好みのテストにより、MotionCrafterは、幅広い外観生成機能を備えたベースモデルの一貫性と品質を維持しながら、動的モーションをうまく統合できることを示した。 コードはhttps://github.com/zyxElsa/MotionCrafter.comで入手できる。

The essence of a video lies in its dynamic motions, including character actions, object movements, and camera movements. While text-to-video generative diffusion models have recently advanced in creating diverse contents, controlling specific motions through text prompts remains a significant challenge. A primary issue is the coupling of appearance and motion, often leading to overfitting on appearance. To tackle this challenge, we introduce MotionCrafter, a novel one-shot instance-guided motion customization method. MotionCrafter employs a parallel spatial-temporal architecture that injects the reference motion into the temporal component of the base model, while the spatial module is independently adjusted for character or style control. To enhance the disentanglement of motion and appearance, we propose an innovative dual-branch motion disentanglement approach, comprising a motion disentanglement loss and an appearance prior enhancement strategy. During training, a frozen base model provides appearance normalization, effectively separating appearance from motion and thereby preserving diversity. Comprehensive quantitative and qualitative experiments, along with user preference tests, demonstrate that MotionCrafter can successfully integrate dynamic motions while preserving the coherence and quality of the base model with a wide range of appearance generation capabilities. Codes are available at https://github.com/zyxElsa/MotionCrafter.
翻訳日:2023-12-12 21:47:35 公開日:2023-12-08
# 類似性を考慮したNested Importance Smplingによるデータセットのクラスタ数の推定

Human in-the-Loop Estimation of Cluster Count in Datasets via Similarity-Driven Nested Importance Sampling ( http://arxiv.org/abs/2312.05287v1 )

ライセンス: Link先を確認
Gustavo Perez, Daniel Sheldon, Grant Van Horn, Subhransu Maji(参考訳) クラスタ数を特定することは、多くのデータ分析タスクの予備的な目標となる。 この問題に対する一般的なアプローチは、クラスタリングアルゴリズム(例えば、$k$-meansの 'k' など)のクラスタ数を変え、データを最もよく説明する値を選択することである。 しかし、特に画像類似性が低い場合には、カウント推定は信頼できない。 ペアの類似性に対する人間のフィードバックはクラスタリングを改善するために使用できるが、既存のアプローチでは正確なカウント推定を保証できない。 本研究では,大容量データセットにおけるクラスタ数の推定を近似的な相似性から推定する手法を提案する。 本フレームワークは,対の類似性によって導かれるエッジをサンプリングし,人間のフィードバックを収集し,クラスタ数を統計的に推定する。 技術的面では、人間の努力を導くための信頼区間を持つクラスタ数の(漸近的に)偏りのない見積を導出する、ネステッドな重要サンプリングアプローチを開発しました。 ナイーブサンプリングと比較すると、類似性に基づくサンプリングは、カウントの正確な推定と信頼区間の厳密化をもたらす。 提案手法は,ベースラインや代替アクティブクラスタリング手法と比較して,推定されたクラスタ数で誤差率の低い6つの細粒度画像分類データセットのベンチマークで評価した。

Identifying the number of clusters serves as a preliminary goal for many data analysis tasks. A common approach to this problem is to vary the number of clusters in a clustering algorithm (e.g., 'k' in $k$-means) and pick the value that best explains the data. However, the count estimates can be unreliable especially when the image similarity is poor. Human feedback on the pairwise similarity can be used to improve the clustering, but existing approaches do not guarantee accurate count estimates. We propose an approach to produce estimates of the cluster counts in a large dataset given an approximate pairwise similarity. Our framework samples edges guided by the pairwise similarity, and we collect human feedback to construct a statistical estimate of the cluster count. On the technical front we have developed a nested importance sampling approach that yields (asymptotically) unbiased estimates of the cluster count with confidence intervals which can guide human effort. Compared to naive sampling, our similarity-driven sampling produces more accurate estimates of counts and tighter confidence intervals. We evaluate our method on a benchmark of six fine-grained image classification datasets achieving low error rates on the estimated number of clusters with significantly less human labeling effort compared to baselines and alternative active clustering approaches.
翻訳日:2023-12-12 21:47:15 公開日:2023-12-08
# プレトレーニングシーンテキスト検出器のブリッジ合成と実世界

Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors ( http://arxiv.org/abs/2312.05286v1 )

ライセンス: Link先を確認
Tongkun Guan, Wei Shen, Xue Yang, Xuehui Wang, Xiaokang Yang(参考訳) 既存のシーンテキスト検出手法は通常、トレーニングのために広範囲な実データに依存する。 注釈付き実画像の欠如により、最近の研究はテキスト検出器の事前学習に大規模なラベル付き合成データ(LSD)を活用しようと試みている。 しかし、シンス・トゥ・リアル領域のギャップが出現し、テキスト検出器の性能がさらに制限される。 そこで,本研究では,lsdとunlabeled real data (urd)の両強みを補完する実領域協調事前学習パラダイムである \textbf{freereal} を提案する。 具体的には、プリトレーニングのための実世界と合成世界を橋渡しするために、新しいグリフベースの混合機構(グリフミクス)をテキストイメージ用に調整する。 GlyphMixは合成画像の文字構造を記述し、落書きのようなユニットを実際の画像に埋め込む。 実際のドメインドリフトを導入することなく、glyphmixは合成ラベルからのアノテーションで現実世界のイメージを自由に生成する。 さらに、GlyphMixは、自由なきめ細かい合成ラベルを与えられると、様々な言語で英語が支配するLSDからUDDへの言語領域ギャップを効果的に橋渡しすることができる。 ベルとホイッスルがなければ、freerealは、dbnet、panet、psenet、fcenetメソッドのパフォーマンスを改善するために、平均4.56\%、3.85\%、3.90\%、および1.7\%のゲインを達成し、それぞれ4つのパブリックデータセットにおいて、前回のプリトレーニングメソッドをかなりのマージンで上回っている。 コードはまもなくリリースされる。

Existing scene text detection methods typically rely on extensive real data for training. Due to the lack of annotated real images, recent works have attempted to exploit large-scale labeled synthetic data (LSD) for pre-training text detectors. However, a synth-to-real domain gap emerges, further limiting the performance of text detectors. Differently, in this work, we propose \textbf{FreeReal}, a real-domain-aligned pre-training paradigm that enables the complementary strengths of both LSD and unlabeled real data (URD). Specifically, to bridge real and synthetic worlds for pre-training, a novel glyph-based mixing mechanism (GlyphMix) is tailored for text images. GlyphMix delineates the character structures of synthetic images and embeds them as graffiti-like units onto real images. Without introducing real domain drift, GlyphMix freely yields real-world images with annotations derived from synthetic labels. Furthermore, when given free fine-grained synthetic labels, GlyphMix can effectively bridge the linguistic domain gap stemming from English-dominated LSD to URD in various languages. Without bells and whistles, FreeReal achieves average gains of 4.56\%, 3.85\%, 3.90\%, and 1.97\% in improving the performance of DBNet, PANet, PSENet, and FCENet methods, respectively, consistently outperforming previous pre-training methods by a substantial margin across four public datasets. Code will be released soon.
翻訳日:2023-12-12 21:46:53 公開日:2023-12-08
# 0.1%のデータでセグメンテーションが減る

0.1% Data Makes Segment Anything Slim ( http://arxiv.org/abs/2312.05284v1 )

ライセンス: Link先を確認
Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang(参考訳) SAM(Segment Anything Model)の恐ろしいモデルサイズと計算要求により、リソース制約のあるデバイスへのデプロイが困難になった。 sam圧縮に対する既存のアプローチは、通常、新しいネットワークをスクラッチからトレーニングすることであり、圧縮コストとモデルパフォーマンスのトレードオフとなる。 そこで本研究では,SlimSAMを提案する。SlimSAMは,訓練コストを著しく低減し,優れた性能を実現する新しいSAM圧縮手法である。 これは、統一プルーニング蒸留フレームワークによる事前訓練されたSAMの効率的な再利用によって達成される。 元のSAMからの知識継承を向上させるために,圧縮プロセスをプログレッシブな手順に分割する,革新的な代替スリム化戦略を採用した。 従来の刈り取り技術から切り離して, 精巧に熟成し, 脱カップリングモデル構造を交互に蒸留する。 さらに, プルーニング目標を最適化目標と整合させ, プルーニング後の蒸留を促進させる新たなラベルフリープルーニング基準も提案している。 SlimSAMは、既存の方法の10倍以上のトレーニングコストを必要とする一方で、大幅なパフォーマンス向上を実現している。 オリジナルのSAM-Hと比較しても、SlimSAMはパラメータカウントをわずか0.9% (5.7M)、MACを0.8% (21G)、SAMトレーニングデータの0.1% (10k) に減らしながら、接近性能を達成する。

The formidable model size and demanding computational requirements of Segment Anything Model (SAM) have rendered it cumbersome for deployment on resource-constrained devices. Existing approaches for SAM compression typically involve training a new network from scratch, posing a challenging trade-off between compression costs and model performance. To address this issue, this paper introduces SlimSAM, a novel SAM compression method that achieves superior performance with remarkably low training costs. This is achieved by the efficient reuse of pre-trained SAMs through a unified pruning-distillation framework. To enhance knowledge inheritance from the original SAM, we employ an innovative alternate slimming strategy that partitions the compression process into a progressive procedure. Diverging from prior pruning techniques, we meticulously prune and distill decoupled model structures in an alternating fashion. Furthermore, a novel label-free pruning criterion is also proposed to align the pruning objective with the optimization target, thereby boosting the post-distillation after pruning. SlimSAM yields significant performance improvements while demanding over 10 times less training costs than any other existing methods. Even when compared to the original SAM-H, SlimSAM achieves approaching performance while reducing parameter counts to merely 0.9% (5.7M), MACs to 0.8% (21G), and requiring only 0.1% (10k) of the SAM training data.
翻訳日:2023-12-12 21:46:07 公開日:2023-12-08
# エッジ上でのオンデバイス学習に向けて:予算制約下でニューロンを更新する方法

Towards On-device Learning on the Edge: Ways to Select Neurons to Update under a Budget Constraint ( http://arxiv.org/abs/2312.05282v1 )

ライセンス: Link先を確認
A\"el Qu\'elennec, Enzo Tartaglione, Pavlo Mozharovskyi and Van-Tam Nguyen(参考訳) 極端なメモリと計算の制約下での効率的なオンデバイス学習の領域では、成功するアプローチのかなりのギャップが続いている。 効率的な推論に多大な努力が注がれているが、効率的な学習の主な障害は、バックプロパゲーションの禁止コストである。 勾配の計算やネットワークパラメータの更新に必要なリソースは、厳格に制約されたメモリ予算の限界を超えることが多い。 本稿では,従来の知識に挑戦し,優れたサブネットワークの存在を明らかにする一連の実験を提案する。 さらに、ターゲットタスクを微調整する際の動的ニューロン選択戦略により、実質的な利得の可能性も示唆する。 我々の取り組みは、Bragagnolo et al. (NEq)によって先駆けられた最近の動的ニューロン選択戦略の適応にまで拡張され、最も厳密なシナリオにおけるその効果が明らかにされた。 実験では、平均の場合、ランダム選択よりもNEqにインスパイアされたアプローチの方が優れていることを示した。 この観測は、この地域のさらなる探検のための説得力のある道のりとなり、パラメーター更新選択を容易にするように設計された新しいタイプのアルゴリズムを設計する機会が浮き彫りになった。 本研究は,デバイス上での学習を極端に制限し,効率的な資源フレンドリーなモデル微調整のための革新的戦略の追求を促すものである。

In the realm of efficient on-device learning under extreme memory and computation constraints, a significant gap in successful approaches persists. Although considerable effort has been devoted to efficient inference, the main obstacle to efficient learning is the prohibitive cost of backpropagation. The resources required to compute gradients and update network parameters often exceed the limits of tightly constrained memory budgets. This paper challenges conventional wisdom and proposes a series of experiments that reveal the existence of superior sub-networks. Furthermore, we hint at the potential for substantial gains through a dynamic neuron selection strategy when fine-tuning a target task. Our efforts extend to the adaptation of a recent dynamic neuron selection strategy pioneered by Bragagnolo et al. (NEq), revealing its effectiveness in the most stringent scenarios. Our experiments demonstrate, in the average case, the superiority of a NEq-inspired approach over a random selection. This observation prompts a compelling avenue for further exploration in the area, highlighting the opportunity to design a new class of algorithms designed to facilitate parameter update selection. Our findings usher in a new era of possibilities in the field of on-device learning under extreme constraints and encourage the pursuit of innovative strategies for efficient, resource-friendly model fine-tuning.
翻訳日:2023-12-12 21:44:18 公開日:2023-12-08
# X2-Softmax:顔認識のためのMargin Adaptive Loss関数

X2-Softmax: Margin Adaptive Loss Function for Face Recognition ( http://arxiv.org/abs/2312.05281v1 )

ライセンス: Link先を確認
Jiamu Xu, Xiaoxiang Liu, Xinyuan Zhang, Yain-Whar Si, Xiaofan Li, Zheng Shi, Ke Wang, Xueyuan Gong(参考訳) 異なる顔の識別特性を学ぶことは、顔認識において重要なタスクである。 ニューラルネットワークで顔の特徴を抽出することにより、異なる顔画像の類似性を測定しやすくなり、顔認識が可能となる。 トレーニング中に角マージンを取り入れて、ニューラルネットワークの顔特徴分離性を高めることが一般的である。 最先端の損失関数 cosface と arcface はクラスの重み間に固定マージンを適用し、顔の特徴のクラス間分離を強化する。 トレーニングセット内のサンプルの分布は不均衡であるため、異なるアイデンティティ間の類似性は不等である。 したがって、不適切な固定角マージンを使用することで、モデルが収束しにくいか、顔の特徴が十分に判別できないという問題を引き起こす可能性がある。 マージンが角適応型であることは,クラス間の角度が大きくなるにつれて増加するかも知れない,という直観と一致しています。 本稿では,X2-Softmaxという新しい角縁損失を提案する。 x2-softmaxの損失は適応角マージンを持ち、異なるクラス間の角度が大きくなるにつれてマージンが増加する。 角適応マージンはモデルの柔軟性を確保し、顔認識の効果を効果的に改善する。 我々は、MS1Mv3データセット上でX2-Softmax損失でニューラルネットワークをトレーニングし、損失関数の有効性と優位性を示すために、いくつかの評価ベンチマークでテストした。 実験コードとトレーニングされたモデルはhttps://github.com/xujiamu123/X2-Softmax/tree/mainで公開されている。

Learning the discriminative features of different faces is an important task in face recognition. By extracting face features in neural networks, it becomes easy to measure the similarity of different face images, which makes face recognition possible. To enhance the neural network's face feature separability, incorporating an angular margin during training is common practice. State-of-the-art loss functions CosFace and ArcFace apply fixed margins between weights of classes to enhance the inter-class separation of face features. Since the distribution of samples in the training set is imbalanced, similarities between different identities are unequal. Therefore, using an inappropriately fixed angular margin may lead to the problem that the model is difficult to converge or the face features are not discriminative enough. It is more in line with our intuition that the margins are angular adaptive, which could increase with the angles between classes growing. In this paper, we propose a new angular margin loss named X2-Softmax. X2-Softmax loss has adaptive angular margins, which provide the margin that increases with the angle between different classes growing. The angular adaptive margin ensures model flexibility and effectively improves the effect of face recognition. We have trained the neural network with X2-Softmax loss on the MS1Mv3 dataset and tested it on several evaluation benchmarks to demonstrate the effectiveness and superiority of our loss function. The experimental code and trained model are published in https://github.com/xujiamu123/X2-Softmax/tree/main.
翻訳日:2023-12-12 21:43:30 公開日:2023-12-08
# 薄膜ニオブ酸リチウムフォトニクスによるヘラルド光子の時間的多重化

Temporal Multiplexing of Heralded Photons Based on Thin Film Lithium Niobate Photonics ( http://arxiv.org/abs/2312.05280v1 )

ライセンス: Link先を確認
Cagin Ekici, Yonghe Yu, Jeremy C. Adcock, Alif Laila Muthali, Mujtaba Zahidy, Heyun Tan, Zhongjin Lin, Hao Li, Leif K. Oxenl{\o}we, Xinlun Cai, and Yunhong Ding(参考訳) シリコン源からの有価光子は、薄膜ニオブ酸リチウムフォトニクスを用いて時間多重化される。 時間多重源はr = 62.2mhzで動作し、単一光子確率を3.25$\pm$ 0.05で高める。

Heralded photons from a silicon source are temporally multiplexed utilizing thin film lithium niobate photonics. The time-multiplexed source, operating at a rate of R = 62.2 MHz, enhances single photon probability by 3.25 $\pm$ 0.05.
翻訳日:2023-12-12 21:43:05 公開日:2023-12-08
# 新しい時空間畳み込みニューラルネットワークを用いた定量的灌流マップ

Quantitative perfusion maps using a novelty spatiotemporal convolutional neural network ( http://arxiv.org/abs/2312.05279v1 )

ライセンス: Link先を確認
Anbo Cao, Pin-Yu Le, Zhonghui Qie, Haseeb Hassan, Yingwei Guo, Asim Zaman, Jiaxi Lu, Xueqiang Zeng, Huihui Yang, Xiaoqiang Miao, Taiyu Han, Guangtao Huang, Yan Kang, Yu Luo and Jia Guo(参考訳) ダイナミック・サセプティビリティ・コントラスト磁気共鳴画像(DSC-MRI)は急性虚血性脳梗塞の評価に広く用いられている。 この目的のために、従来の手法では特異値分解のような非畳み込み手法を採用しており、ノイズに弱いことが知られており、派生した拡散パラメータを歪ませる可能性がある。 しかし、ディープラーニング技術はそれを活用し、従来の臨床アプローチと比較して正確に臨床灌流パラメータを推定することができる。 そこで本研究では,空間的・時間的情報を考慮した拡散パラメータ推定ネットワークである時空間ネットワーク(ST-Net)を初めて提案する。 提案するネットワークは、モデル性能をさらに高めるように設計された物理損失関数を含む。 その結果,脳血流量 (CBV), 脳血流量 (CBF), 残存機能 (Tmax) などの灌流パラメータを正確に推定できることが示唆された。 cbv, cbf, tmaxパラメータの構造類似度指数 (ssim) はそれぞれ0.952, 0.943, 0.863であった。 偽拡散領域のDICEスコアは0.859に達し、高い一貫性を示した。 提案モデルは時間効率も維持し、商用のゴールドスタンダードソフトウェアの性能に近づいた。

Dynamic susceptibility contrast magnetic resonance imaging (DSC-MRI) is widely used to evaluate acute ischemic stroke to distinguish salvageable tissue and infarct core. For this purpose, traditional methods employ deconvolution techniques, like singular value decomposition, which are known to be vulnerable to noise, potentially distorting the derived perfusion parameters. However, deep learning technology could leverage it, which can accurately estimate clinical perfusion parameters compared to traditional clinical approaches. Therefore, this study presents a perfusion parameters estimation network that considers spatial and temporal information, the Spatiotemporal Network (ST-Net), for the first time. The proposed network comprises a designed physical loss function to enhance model performance further. The results indicate that the network can accurately estimate perfusion parameters, including cerebral blood volume (CBV), cerebral blood flow (CBF), and time to maximum of the residual function (Tmax). The structural similarity index (SSIM) mean values for CBV, CBF, and Tmax parameters were 0.952, 0.943, and 0.863, respectively. The DICE score for the hypo-perfused region reached 0.859, demonstrating high consistency. The proposed model also maintains time efficiency, closely approaching the performance of commercial gold-standard software.
翻訳日:2023-12-12 21:42:58 公開日:2023-12-08
# ボリューム画像の非混合化のためのピクセル潜在変数のフィルタリング

Filtering Pixel Latent Variables for Unmixing Volumetric Images ( http://arxiv.org/abs/2312.05357v1 )

ライセンス: Link先を確認
Catherine Bouchard, Vincent Boulanger, Flavie Lavoie-Cardinal, and Christian Gagn\'e(参考訳) 異なる重なり合い成分の測定には、生の多次元計測を有用な不混合画像に変換するためのロバストな不混合アルゴリズムが必要である。 このようなアルゴリズムは、生信号が完全に解決されたときにコンポーネントを確実に分離し、生の分布に曲線を合わせるのに十分な情報を含む。 実験物理学では、測定はしばしばノイズ、アンサンプ、空間的またはスペクトル的に未解決である。 本稿では,多次元畳み込みニューラルネットワークの潜時空間に帯域通過フィルタを適用し,重なり合う信号成分を分離し,それぞれの相対的寄与を抽出する手法を提案する。 多次元の畳み込みカーネルで全ての次元を同時に処理することで、隣接するピクセルと時間またはスペクトルビンの情報を組み合わせて、個々のピクセルがよく解決された情報を欠いているインスタンスでのコンポーネント分離を容易にする。 本研究では,光ファイバーの蛍光寿命顕微鏡とモード分解による実実験物理問題への適用性を実証した。 測定分布の違いを特徴とする,これら2つの異なる実験例へのアプローチの応用の成功は,幅広い画像課題に対するアプローチの汎用性を強調している。

Measurements of different overlapping components require robust unmixing algorithms to convert the raw multi-dimensional measurements to useful unmixed images. Such algorithms perform reliable separation of the components when the raw signal is fully resolved and contains enough information to fit curves on the raw distributions. In experimental physics, measurements are often noisy, undersampled, or unresolved spatially or spectrally. We propose a novel method where bandpass filters are applied to the latent space of a multi-dimensional convolutional neural network to separate the overlapping signal components and extract each of their relative contributions. Simultaneously processing all dimensions with multi-dimensional convolution kernels empowers the network to combine the information from adjacent pixels and time- or spectral-bins, facilitating component separation in instances where individual pixels lack well-resolved information. We demonstrate the applicability of the method to real experimental physics problems using fluorescence lifetime microscopy and mode decomposition in optical fibers as test cases. The successful application of our approach to these two distinct experimental cases, characterized by different measured distributions, highlights the versatility of our approach in addressing a wide array of imaging tasks.
翻訳日:2023-12-12 21:35:31 公開日:2023-12-08
# 人工ニューラルネットと人間の概念の表現

Artificial Neural Nets and the Representation of Human Concepts ( http://arxiv.org/abs/2312.05337v1 )

ライセンス: Link先を確認
Timo Freiesleben(参考訳) ニューラルネットワーク(anns)は何を学ぶのか? 機械学習(ML)コミュニティは、ANNが複雑なタスクを実行するために抽象的なヒューマンコンセプトを開発する必要があるという物語を共有している。 さらに、これらの概念はネットワークの個々の単位に保存されていると考える人もいる。 現在の研究に基づいて,この物語の根底にある前提を体系的に検討する。 ANNは複雑な予測タスクを実際に実行でき、人間や非人間の概念を学習することができると結論付けます。 しかし、ANNは個々の単位においてこれらの概念を表現していないことを示す証拠がある。

What do artificial neural networks (ANNs) learn? The machine learning (ML) community shares the narrative that ANNs must develop abstract human concepts to perform complex tasks. Some go even further and believe that these concepts are stored in individual units of the network. Based on current research, I systematically investigate the assumptions underlying this narrative. I conclude that ANNs are indeed capable of performing complex prediction tasks, and that they may learn human and non-human concepts to do so. However, evidence indicates that ANNs do not represent these concepts in individual units.
翻訳日:2023-12-12 21:35:13 公開日:2023-12-08
# ダイヤモンドにおけるスズ空調色中心の音速特性の光学的探査

Optical probing of phononic properties of a tin-vacancy color center in diamond ( http://arxiv.org/abs/2312.05335v1 )

ライセンス: Link先を確認
Cem G\"uney Torun, Joseph H. D. Munns, Franziska Marie Herrmann, Viviana Villafane, Kai M\"uller, Andreas Thies, Tommaso Pregnolato, Gregor Pieplow, Tim Schr\"oder(参考訳) ダイヤモンド中のスズ空白色中心のコヒーレンス特性を、基底状態軌道レベル間のコヒーレント集団トラップと線幅拡大効果を含む光学的手段を用いて検討した。 軌道基底状態の大きなスピン軌道分裂のため、基底状態間の熱化は直接測定することができない速度で起こる。 ここで、スペクトル情報は共役変数時間に変換され、ピコ秒分解能を提供し、軌道偏極時間スケールが${\sim30{\rm~ps}}$となる。 解析されたダイナミクスの結果は、熱的効果によって制限されるスピン減衰時間の推定に使用される。

The coherence characteristics of a tin-vacancy color center in diamond are investigated through optical means including coherent population trapping between the ground state orbital levels and linewidth broadening effects. Due to the large spin-orbit splitting of the orbital ground states, thermalization between the ground states occurs at rates that are impractical to measure directly. Here, spectral information is transformed into its conjugate variable time, providing picosecond resolution and revealing an orbital depolarization timescale of ${\sim30{\rm~ps}}$. Consequences of the investigated dynamics are then used to estimate spin dephasing times limited by thermal effects.
翻訳日:2023-12-12 21:35:04 公開日:2023-12-08
# ProsDectNet: Transrectal B-mode Ultrasound Imaging による前立腺癌検出におけるギャップを埋める

ProsDectNet: Bridging the Gap in Prostate Cancer Detection via Transrectal B-mode Ultrasound Imaging ( http://arxiv.org/abs/2312.05334v1 )

ライセンス: Link先を確認
Sulaiman Vesal, Indrani Bhattacharya, Hassan Jahanandish, Xinran Li, Zachary Kornberg, Steve Ran Zhou, Elijah Richard Sommer, Moon Hyung Choi, Richard E. Fan, Geoffrey A. Sonn, Mirabela Rusu(参考訳) 従来のbモード超音波画像の解釈は、画像アーティファクト(シャドーイングやスペックルなど)によって困難になり、感度が低下し、診断精度が低下する。 磁気共鳴イメージング(MRI)は解決策として提案されているが、高価で広く利用できない。 さらに、ほとんどの生検は経直腸超音波(TRUS)だけでガイドされており、最大52%のがんを見逃し、ターゲティングの改善の必要性を強調している。 本稿では,Bモード超音波上で前立腺癌を局所化するマルチタスク深層学習手法ProsDectNetを提案する。 バイオプシー確認ラベルを用いて, 放射線技師ラベルデータを用いて事前トレーニングを行い, 微調整を行った。 ProsDectNetは病変検出とパッチ分類ヘッドを備えており、エントロピーによるモデル性能の向上と偽陽性予測の低減のために不確実性を最小化している。 MRI-TRUS 融合生検を施行した289例のコホートを用いてProsDectNetの訓練と評価を行った。 その後,41例の患者に対して,prosdectnetはbモード超音波画像による前立腺癌検出において,平均専門家臨床医よりも優れており,患者レベルのroc-aucは82%,感度は74%,特異度は67%であった。 以上の結果から,ProsDectNetは標的となる生検や治療計画を改善するコンピュータ支援診断システムとして利用できる可能性が示唆された。

Interpreting traditional B-mode ultrasound images can be challenging due to image artifacts (e.g., shadowing, speckle), leading to low sensitivity and limited diagnostic accuracy. While Magnetic Resonance Imaging (MRI) has been proposed as a solution, it is expensive and not widely available. Furthermore, most biopsies are guided by Transrectal Ultrasound (TRUS) alone and can miss up to 52% cancers, highlighting the need for improved targeting. To address this issue, we propose ProsDectNet, a multi-task deep learning approach that localizes prostate cancer on B-mode ultrasound. Our model is pre-trained using radiologist-labeled data and fine-tuned using biopsy-confirmed labels. ProsDectNet includes a lesion detection and patch classification head, with uncertainty minimization using entropy to improve model performance and reduce false positive predictions. We trained and validated ProsDectNet using a cohort of 289 patients who underwent MRI-TRUS fusion targeted biopsy. We then tested our approach on a group of 41 patients and found that ProsDectNet outperformed the average expert clinician in detecting prostate cancer on B-mode ultrasound images, achieving a patient-level ROC-AUC of 82%, a sensitivity of 74%, and a specificity of 67%. Our results demonstrate that ProsDectNet has the potential to be used as a computer-aided diagnosis system to improve targeted biopsy and treatment planning.
翻訳日:2023-12-12 21:34:52 公開日:2023-12-08
# 公共のev充電インフラを改善するためのデータ駆動フレームワーク:モデリングと予測

A Data-Driven Framework for Improving Public EV Charging Infrastructure: Modeling and Forecasting ( http://arxiv.org/abs/2312.05333v1 )

ライセンス: Link先を確認
Nassr Al-Dahabreh, Mohammad Ali Sayed, Khaled Sarieddine, Mohamed Elhattab, Maurice Khabbaz, Ribal Atallah, Chadi Assi(参考訳) 本研究は,一般電気自動車(ev)充電インフラストラクチャにおけるqoe(consumer-perceived quality-of-experience)に関する詳細な洞察をオペレータに提供することを目的とした,現実的なデータによる調査評価フレームワークを提案する。 前例のないev市場の成長に動機づけられて、既存の充電インフラはすぐに急速に増加する充電要求を維持できなくなり、現在採用されているアドホックなインフラストラクチャ拡張戦略は、この問題の深刻さを接線的に削減(ほぼ緩和)する、品質の高いサービスサステナビリティソリューションへの貢献には程遠いように思われる。 現在、適切なQoE指標がなければ、EV充電ステーション(EVCS)の性能を評価する上で、オペレーターは著しく困難に直面している。 本稿では,このギャップを,EVCS毎の動作動態を演算子に可視化し,各局の利用率を最適化する,新規かつオリジナルなQoEパフォーマンス指標の定式化を通じて埋めることを目的とする。 これらのメトリクスは、将来のEVCS負荷を予測するために、最近の現実世界のデータセットを使用して微調整され、訓練された機械学習モデルの入力として使用される。 これにより、EV充電の需要の増加に確実に対応し、許容できるQoEレベルを維持することができる、インフォームドEV充電インフラの拡張が可能になる。 モデルの精度を検証し, 上記の指標から得られた性能を評価するとともに, 推奨インフラ拡張の適合性を示すため, 広範囲なシミュレーションを行った。

This work presents an investigation and assessment framework, which, supported by realistic data, aims at provisioning operators with in-depth insights into the consumer-perceived Quality-of-Experience (QoE) at public Electric Vehicle (EV) charging infrastructures. Motivated by the unprecedented EV market growth, it is suspected that the existing charging infrastructure will soon be no longer capable of sustaining the rapidly growing charging demands; let alone that the currently adopted ad hoc infrastructure expansion strategies seem to be far from contributing any quality service sustainability solutions that tangibly reduce (ultimately mitigate) the severity of this problem. Without suitable QoE metrics, operators, today, face remarkable difficulty in assessing the performance of EV Charging Stations (EVCSs) in this regard. This paper aims at filling this gap through the formulation of novel and original critical QoE performance metrics that provide operators with visibility into the per-EVCS operational dynamics and allow for the optimization of these stations' respective utilization. Such metrics shall then be used as inputs to a Machine Learning model finely tailored and trained using recent real-world data sets for the purpose of forecasting future long-term EVCS loads. This will, in turn, allow for making informed optimal EV charging infrastructure expansions that will be capable of reliably coping with the rising EV charging demands and maintaining acceptable QoE levels. The model's accuracy has been tested and extensive simulations are conducted to evaluate the achieved performance in terms of the above listed metrics and show the suitability of the recommended infrastructure expansions.
翻訳日:2023-12-12 21:34:19 公開日:2023-12-08
# ギャップのブリッジ:モデル予測制御にインスパイアされた検証可能なモデルフリー二次プログラミングコントローラ

Bridging the Gaps: Learning Verifiable Model-Free Quadratic Programming Controllers Inspired by Model Predictive Control ( http://arxiv.org/abs/2312.05332v1 )

ライセンス: Link先を確認
Yiwen Lu, Zishuo Li, Yihan Zhou, Na Li, Yilin Mo(参考訳) 本稿では,モデル予測制御(MPC)からインスピレーションを得た新しいパラメータ化コントローラについて紹介する。 これらのコントローラは線形mpcに似た二次計画(qp)構造を採用し、問題パラメータはモデルからではなく学習される。 このアプローチは、多層パーセプトロン(MLP)アーキテクチャを用いて、説明可能性と性能保証の観点から、一般的に学習されるコントローラの限界に対処することができる。 学習したコントローラは、MPCに似た持続可能性や漸近安定性などの検証可能な特性を持つだけでなく、制御性能においてMPCとMLPとを経験的に一致させる。 さらに、mpcよりも計算効率が高く、mlpコントローラよりも学習可能なポリシーパラメータがかなり少ない。 実際の応用は、実際のシナリオでこれらのコントローラの可能性を示す車両ドリフト操作タスクを通じて実証される。

In this paper, we introduce a new class of parameterized controllers, drawing inspiration from Model Predictive Control (MPC). These controllers adopt a Quadratic Programming (QP) structure similar to linear MPC, with problem parameters being learned rather than derived from models. This approach may address the limitations of commonly learned controllers with Multi-Layer Perceptron (MLP) architecture in deep reinforcement learning, in terms of explainability and performance guarantees. The learned controllers not only possess verifiable properties like persistent feasibility and asymptotic stability akin to MPC, but they also empirically match MPC and MLP controllers in control performance. Moreover, they are more computationally efficient in implementation compared to MPC and require significantly fewer learnable policy parameters than MLP controllers. Practical application is demonstrated through a vehicle drift maneuvering task, showcasing the potential of these controllers in real-world scenarios.
翻訳日:2023-12-12 21:33:51 公開日:2023-12-08
# 3次元認識型生成型逆ネットワークのためのマルチビューインバージョン

Multi-view Inversion for 3D-aware Generative Adversarial Networks ( http://arxiv.org/abs/2312.05330v1 )

ライセンス: Link先を確認
Florian Barthel, Anna Hilsmann, Peter Eisert(参考訳) 人間の頭部に対する現在の3D GANインバージョン法は、通常、1つの正面像のみを使用して3Dヘッドモデルを再構築する。 これは、マルチビューデータや動的ビデオが利用可能であるときに意味のある情報を残す。 本手法は,既存の3次元ganインバージョン技術に基づき,同一主題の複数のビューの一貫性と同時インバージョンを可能にする。 動的顔ビデオに現れる不整合を処理し、シーケンスから一貫した3次元表現を再合成するために、マルチレイテンシ拡張を用いる。 本手法は対象物に関する追加情報を利用するため,特に広視野からのレンダリングにおいて,幾何学的精度と画質の両面での大幅な向上が見られた。 さらに,逆3次元レンダリングの編集性を示すとともに,NeRFに基づくシーン再構成と区別する。

Current 3D GAN inversion methods for human heads typically use only one single frontal image to reconstruct the whole 3D head model. This leaves out meaningful information when multi-view data or dynamic videos are available. Our method builds on existing state-of-the-art 3D GAN inversion techniques to allow for consistent and simultaneous inversion of multiple views of the same subject. We employ a multi-latent extension to handle inconsistencies present in dynamic face videos to re-synthesize consistent 3D representations from the sequence. As our method uses additional information about the target subject, we observe significant enhancements in both geometric accuracy and image quality, particularly when rendering from wide viewing angles. Moreover, we demonstrate the editability of our inverted 3D renderings, which distinguishes them from NeRF-based scene reconstructions.
翻訳日:2023-12-12 21:33:33 公開日:2023-12-08
# 量子電気回路に関する講義ノート

Lecture Notes on Quantum Electrical Circuits ( http://arxiv.org/abs/2312.05329v1 )

ライセンス: Link先を確認
Alessandro Ciani, David P. DiVincenzo, Barbara M. Terhal(参考訳) 過去30年間、超伝導量子プロセッサの探求によって刺激を受け、量子電気回路の理論が浮上し、この理論は回路量子電磁力学( circuit quantum electrodynamics)または回路qed( circuit-qed)の名前で呼ばれる。 この理論の目標は、最も関連する自由度に関する量子記述を提供することである。 研究の対象はラグランジアンとハミルトニアンであり、これらの自由度を統治している。 インピーダンスや散乱行列のような古典的ネットワーク理論の中心的な概念は、回路の損失のない(線形)部分に対するハミルトニアンおよびラグランジュの記述を得るために用いられる。 古典的および量子的解析法は、非相互回路に対しても開発することができる。 これらの講義ノートは、物理学や電気工学における理論指向の修士または博士課程の学生や、実験超伝導量子デバイスに携わるマスターと博士課程の学生に対して、このテーマの教育的概要を提供することを目的としている。

During the last 30 years, stimulated by the quest to build superconducting quantum processors, a theory of quantum electrical circuits has emerged and this theory goes under the name of circuit quantum electrodynamics or circuit-QED. The goal of the theory is to provide a quantum description of the most relevant degrees of freedom. The central objects to be derived and studied are the Lagrangian and the Hamiltonian governing these degrees of freedom. Central concepts in classical network theory such as impedance and scattering matrices can be used to obtain the Hamiltonian and Lagrangian description for the lossless (linear) part of the circuits. Methods of analysis, both classical and quantum, can also be developed for nonreciprocal circuits. These lecture notes aim at giving a pedagogical overview of this subject for theoretically-oriented Master or PhD students in physics and electrical engineering, as well as Master and PhD students who work on experimental superconducting quantum devices and wish to learn more theory.
翻訳日:2023-12-12 21:33:19 公開日:2023-12-08
# 悪い生徒は素晴らしい教師を作る:アクティブラーニングは大規模視覚理解を加速する

Bad Students Make Great Teachers:Active Learning Accelerates Large-Scale Visual Understanding ( http://arxiv.org/abs/2312.05328v1 )

ライセンス: Link先を確認
Talfan Evans, Shreya Pathak, Hamza Merzic, Jonathan Schwarz, Ryutaro Tanno, Olivier J. Henaff(参考訳) オンラインデータ選択ポリシーを用いた大規模事前学習の高速化手法を提案する。 モデルに基づくデータ選択は、一様サンプリングで訓練されたモデルの性能に到達するのに必要な計算量を削減できることを示す。 この“計算肯定的”なやり方を可能にする重要な洞察は、小さなモデルがより大きなモデルの損失に対して優れたプロキシを提供し、スコアリングに費やされる計算を学習者に与えられる効率向上を損なうことなく劇的に縮小できる、ということである。 これらのデータ選択ポリシーは、データセットやタスクをまたいで強く一般化し、オフザシェルフモデルとトレーニングシーケンスを再利用することによって、データのスコアリングのオーバーヘッドをさらに減らすための道を開く。 JFTの視覚分類器とALIGNのマルチモーダルモデルの視覚分類器の学習には,46%,51%のトレーニング更新が必要であり,最大25%の総計算量が必要であった。 最後に、我々のパラダイムは、大規模な画像テキストデータセットのキュレーションにシームレスに適用し、複数のマルチモーダル転送タスクと事前トレーニングレジームにおいて、新たな最先端技術を生み出します。

We propose a method for accelerating large-scale pre-training with online data selection policies. For the first time, we demonstrate that model-based data selection can reduce the total computation needed to reach the performance of models trained with uniform sampling. The key insight which enables this "compute-positive" regime is that small models provide good proxies for the loss of much larger models, such that computation spent on scoring data can be drastically scaled down without diminishing the efficiency gains afforded to the learner. These data selection policies also strongly generalize across datasets and tasks, opening an avenue for further amortizing the overhead of data scoring by re-using off-the-shelf models and training sequences. Our methods, ClassAct and ActiveCLIP, require 46% and 51% fewer training updates and up to 25% less total computation when training visual classifiers on JFT and multimodal models on ALIGN, respectively. Finally, our paradigm seamlessly applies to the curation of large-scale image-text datasets, yielding a new state-of-the-art in several multimodal transfer tasks and pre-training regimes.
翻訳日:2023-12-12 21:32:59 公開日:2023-12-08
# 地理空間リモートセンシングデータのためのデータ中心機械学習

Data-Centric Machine Learning for Geospatial Remote Sensing Data ( http://arxiv.org/abs/2312.05327v1 )

ライセンス: Link先を確認
Ribana Roscher and Marc Ru{\ss}wurm and Caroline Gevaert and Michael Kampffmeyer and Jefersson A. dos Santos and Maria Vakalopoulou and Ronny H\"ansch and Stine Hansen and Keiller Nogueira and Jonathan Prexl and Devis Tuia(参考訳) 最近の機械学習の発展と研究は、地理空間分野の大幅な改善をもたらした。 多くのディープラーニングモデルが提案されているが、その大半は、現実世界の強い妥当性に欠けるベンチマークデータセット上で開発されている。 さらに、これらのデータセットでは、多くのメソッドのパフォーマンスがすでに飽和している。 データ中心の観点に焦点を移すことは、エンドユーザアプリケーションにおける精度、一般化能力、実際の影響のさらなる改善を達成するために必要である。 本研究では,地理空間データの自動学習手法の定義と正確な分類を行う。 これは、より大きな機械学習デプロイメントサイクルにおけるモデル中心の学習に対するデータ中心学習の補完的な役割を強調している。 我々は,地理空間領域全体の論文をレビューし,それらを異なるグループに分類する。 代表的な実験のセットは具体的な実装例を示している。 これらの例は、データ中心の機械学習アプローチで地理空間データに作用する具体的なステップを提供する。

Recent developments and research in modern machine learning have led to substantial improvements in the geospatial field. Although numerous deep learning models have been proposed, the majority of them have been developed on benchmark datasets that lack strong real-world relevance. Furthermore, the performance of many methods has already saturated on these datasets. We argue that shifting the focus towards a complementary data-centric perspective is necessary to achieve further improvements in accuracy, generalization ability, and real impact in end-user applications. This work presents a definition and precise categorization of automated data-centric learning approaches for geospatial data. It highlights the complementary role of data-centric learning with respect to model-centric in the larger machine learning deployment cycle. We review papers across the entire geospatial field and categorize them into different groups. A set of representative experiments shows concrete implementation examples. These examples provide concrete steps to act on geospatial data with data-centric machine learning approaches.
翻訳日:2023-12-12 21:32:38 公開日:2023-12-08
# 焼成LMGモデルにおけるクリロフ複雑性と動的相転移

Krylov Complexity and Dynamical Phase Transition in the quenched LMG model ( http://arxiv.org/abs/2312.05321v1 )

ライセンス: Link先を確認
Pedro H. S. Bento, Adolfo del Campo, Lucas C. C\'eleri(参考訳) 量子システムにおける複雑性の時間発展の研究は、対応するヒルベルト空間における定義された基底を越えてシステムの状態の拡散を評価することを伴う。 近年、クリロフ基底はこの拡散を最小化するものとして特定されている。 本研究では,Lipkin-Meshkov-Glickモデルを用いて量子状態におけるクリロフ複雑性の数値的な探索を行う。 以上の結果から, クリーロフの長期平均複雑性は, クレンチがゼロ磁場から生じる場合の秩序パラメータとして機能することがわかった。 クエンチによって誘導される2つの動的位相を効果的に識別し、従来の順序パラメータと臨界点を共有する。 さらに,クリロフ基底とエネルギー基底の逆参加率とシャノンエントロピーについて検討した。 一致する動的挙動は、初期状態が特定の対称性を持つとき、両方の基底で観察される。 この挙動はkrylov基底とpre-quench energy eigenbasisの等価性を確立することによって解析的に解明される。

Investigating the time evolution of complexity in quantum systems entails evaluating the spreading of the system's state across a defined basis in its corresponding Hilbert space. Recently, the Krylov basis has been identified as the one that minimizes this spreading. In this study, we develop a numerical exploration of the Krylov complexity in quantum states following a quench in the Lipkin-Meshkov-Glick model. Our results reveal that the long-term averaged Krylov complexity acts as an order parameter when the quench originates from a zero magnetic field. It effectively discriminates between the two dynamic phases induced by the quench, sharing a critical point with the conventional order parameter. Additionally, we examine the inverse participation ratio and Shannon entropy in both the Krylov basis and the energy basis. A matching dynamic behavior is observed in both bases when the initial state possesses a specific symmetry. This behavior is analytically elucidated by establishing the equivalence between the Krylov basis and the pre-quench energy eigenbasis.
翻訳日:2023-12-12 21:32:27 公開日:2023-12-08
# 非定常拡散確率モデルを用いた翼流シミュレーションのための不確かさ回避サロゲートモデル

Uncertainty-aware Surrogate Models for Airfoil Flow Simulations with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.05320v1 )

ライセンス: Link先を確認
Qiang Liu, Nils Thuerey(参考訳) 乱流シミュレーションの代理モデルとしてニューラルネットワークを活用することは、関心が高まるトピックである。 同時に、代理モデルの予測にシミュレーションの本質的な不確かさを具現化することは非常に困難である。 本研究では,拡散確率モデル(DDPM)を用いて乱流シミュレーションのための不確実性を考慮した代理モデルの訓練を行う。 その頻度から, 様々な形状の翼まわりの流れ, レイノルズ数, 攻撃角度のシミュレーションが学習目的として選択される。 その結果,DDPMは解全体の分布を正確に把握でき,その結果,シミュレーションの不確かさを正確に推定できることがわかった。 DDPMの性能は、ベイズニューラルネットワークとヘテロスセダティックモデルという形で、様々なベースラインと比較される。 実験により、DDPMは様々な精度の指標に関して他の手法よりも優れていることが示された。 さらに、パラメータセットを提供するのではなく、不確実性の完全な分布へのアクセスを提供するという利点もある。 そのため、溶液の分布から現実的で詳細なサンプルが得られる。 この研究で使用されるソースコードとデータセットはすべて公開されています。

Leveraging neural networks as surrogate models for turbulence simulation is a topic of growing interest. At the same time, embodying the inherent uncertainty of simulations in the predictions of surrogate models remains very challenging. The present study makes a first attempt to use denoising diffusion probabilistic models (DDPMs) to train an uncertainty-aware surrogate model for turbulence simulations. Due to its prevalence, the simulation of flows around airfoils with various shapes, Reynolds numbers, and angles of attack is chosen as the learning objective. Our results show that DDPMs can successfully capture the whole distribution of solutions and, as a consequence, accurately estimate the uncertainty of the simulations. The performance of DDPMs is also compared with varying baselines in the form of Bayesian neural networks and heteroscedastic models. Experiments demonstrate that DDPMs outperform the other methods regarding a variety of accuracy metrics. Besides, it offers the advantage of providing access to the complete distributions of uncertainties rather than providing a set of parameters. As such, it can yield realistic and detailed samples from the distribution of solutions. All source codes and datasets utilized in this study are publicly available.
翻訳日:2023-12-12 21:32:14 公開日:2023-12-08
# トポロジーに適合する非エルミート皮膚効果

Topologically compatible non-Hermitian skin effect ( http://arxiv.org/abs/2312.05315v1 )

ライセンス: Link先を確認
Rijia Lin, Linhu Li(参考訳) バルク境界対応(BBC)は、ギャップ内境界モードとバルクトポロジカル不変量に関連する。 ある種の非エルミートトポロジカルシステムでは、通常のBBCは非エルミート皮膚効果(NHSE)の存在下では無効となり、これは周期的および開境界条件下で異なるエネルギースペクトルとして表される。 本研究では,従来のBBCの「トポロジカル互換型NHSE(TC-NHSE)」を破ることなくNHSEを誘導する手法を提案する。 一般の1次元2バンドモデルにおいて,任意の状況下で,あるいは特定のパラメータでのみ位相相転移点を変化させない2種類のtc-nhseを提示する。 モデルを2次元に拡張すると、TC-NHSEは、結果として生じる半金属系の異なるバンド間の異なるワイル点の異なる集合に選択的に適合し、その一部をフェルミ弧に変換し、残りは変化しない。 本研究は,非エルミート系におけるトポロジーとNHSEの複雑な相互作用を明らかにするのに役立ち,トポロジー特性とNHSEが干渉しない非エルミート系を設計するための汎用的なアプローチを提供する。

The bulk-boundary correspondence (BBC) relates in-gap boundary modes to bulk topological invariants. In certain non-Hermitian topological systems, conventional BBC becomes invalid in the presence of the non-Hermitian skin effect (NHSE), which manifests as distinct energy spectra under the periodic and open boundary conditions and massive eigenstate localization at boundaries. In this work, we introduce a scheme to induce NHSE without breaking conventional BBC, dubbed as the topologically compatible NHSE (TC-NHSE). In a general one dimensional two-band model, we unveil two types of TC-NHSE that do not alter topological phase transition points under any circumstance or only in a certain parameter regime, respectively. Extending our model into two dimension, we find that TC-NHSE can be selectively compatible to different sets of Weyl points between different bands of the resultant semimetallic system, turning some of them into bulk Fermi arcs while keeping the rest unchanged. Our work hence helps clarify the intricate interplay between topology and NHSE in non-Hermitian systems, and provides a versatile approach for designing non-Hermitian topological systems where topological properties and NHSE do not interfere each other.
翻訳日:2023-12-12 21:31:57 公開日:2023-12-08
# 360{\deg}ボリュームポートレートアバター

360{\deg} Volumetric Portrait Avatar ( http://arxiv.org/abs/2312.05311v1 )

ライセンス: Link先を確認
Jalees Nehvi, Berna Kabadayi, Julien Valentin, Justus Thies(参考訳) モノクロビデオ入力のみをベースとした360{\deg} Volumetric Portrait (3VP) Avatar(360{\deg} Photo-realistic portrait avatar)の再構築手法を提案する。 最先端のモノキュラーアバター再構成法は、安定した顔のパフォーマンスキャプチャに依存する。 しかし、3DMMベースの顔追跡の一般的な使用には限界があり、顔のランドマークや人間のパーシングマスクのような必要な入力が欠落しているため、サイドビューは捉えられにくく、特にバックビューでは失敗する。 これにより、前頭半球のみを覆う不完全なアバター再建が生じる。 これとは対照的に, 胴体, 頭, 顔の表情をテンプレートで追跡することで, 被験者の外観を全方向からカバーできる。 したがって、1台のカメラの前で回転している被写体のシーケンスを考慮し、神経放射場に基づく神経体積表現を訓練する。 この表現を構築するための重要な課題は、特に口領域(唇と歯)における外観変化のモデル化である。 そこで, 変形場に基づくブレンドベースを提案し, 異なる外観状態間を補間する。 本手法を実世界データを用いて評価し,最先端のモノクロ再構成法と比較した。 それらとは対照的に,本手法は360{\deg}アバター全体を再構成する最初の単眼的手法である。

We propose 360{\deg} Volumetric Portrait (3VP) Avatar, a novel method for reconstructing 360{\deg} photo-realistic portrait avatars of human subjects solely based on monocular video inputs. State-of-the-art monocular avatar reconstruction methods rely on stable facial performance capturing. However, the common usage of 3DMM-based facial tracking has its limits; side-views can hardly be captured and it fails, especially, for back-views, as required inputs like facial landmarks or human parsing masks are missing. This results in incomplete avatar reconstructions that only cover the frontal hemisphere. In contrast to this, we propose a template-based tracking of the torso, head and facial expressions which allows us to cover the appearance of a human subject from all sides. Thus, given a sequence of a subject that is rotating in front of a single camera, we train a neural volumetric representation based on neural radiance fields. A key challenge to construct this representation is the modeling of appearance changes, especially, in the mouth region (i.e., lips and teeth). We, therefore, propose a deformation-field-based blend basis which allows us to interpolate between different appearance states. We evaluate our approach on captured real-world data and compare against state-of-the-art monocular reconstruction methods. In contrast to those, our method is the first monocular technique that reconstructs an entire 360{\deg} avatar.
翻訳日:2023-12-12 21:31:32 公開日:2023-12-08
# シンプルになるための学習

Learning to be Simple ( http://arxiv.org/abs/2312.05299v1 )

ライセンス: Link先を確認
Yang-Hui He, Vishnu Jejjala, Challenger Mishra, Max Sharnoff(参考訳) 本研究では,有限群を含む構造的数学的データを理解し,有限単純群の生成器に必要な性質に関する定理を導出するために機械学習を用いる。 n-オブジェクト上の対称群の2つの生成部分群のデータベースを作成し、浅いフィードフォワードニューラルネットワークを用いて有限単純群の分類を行う。 このニューラルネットワーク分類器は、特徴によって異なる精度で単純さの特性を解読できることを示す。 ニューラルネットワークモデルでは,有限単純群の生成元に関する自然な予想が導かれる。 この予想は後に証明する。 この新しいおもちゃの定理は有限単純群の生成元に必要な性質についてコメントする。 結果が成立する散発群のクラスに対して、これを明示的に示す。 さらに,本研究は,純粋数学における代数構造を機械に動機づける研究であり,機械学習を用いて数学において新たな予想や定理を生成する可能性を強調している。

In this work we employ machine learning to understand structured mathematical data involving finite groups and derive a theorem about necessary properties of generators of finite simple groups. We create a database of all 2-generated subgroups of the symmetric group on n-objects and conduct a classification of finite simple groups among them using shallow feed-forward neural networks. We show that this neural network classifier can decipher the property of simplicity with varying accuracies depending on the features. Our neural network model leads to a natural conjecture concerning the generators of a finite simple group. We subsequently prove this conjecture. This new toy theorem comments on the necessary properties of generators of finite simple groups. We show this explicitly for a class of sporadic groups for which the result holds. Our work further makes the case for a machine motivated study of algebraic structures in pure mathematics and highlights the possibility of generating new conjectures and theorems in mathematics with the aid of machine learning.
翻訳日:2023-12-12 21:31:09 公開日:2023-12-08
# 合理的クリグ

Rational Kriging ( http://arxiv.org/abs/2312.05372v1 )

ライセンス: Link先を確認
V. Roshan Joseph(参考訳) 本稿では,有理形式を持つ新しいクリグを提案する。 有理クリグの平均の一般化最小二乗推定は、通常のクリグの平均よりもはるかにうまく振る舞うことが示されている。 ガウス過程の枠組みを用いて, 有理krigingのパラメータ推定と不確かさの定量化を提案する。 計算機モデルのエミュレーションと校正における潜在的な応用についても論じる。

This article proposes a new kriging that has a rational form. It is shown that the generalized least squares estimate of the mean from rational kriging is much more well behaved than that from ordinary kriging. Parameter estimation and uncertainty quantification for rational kriging are proposed using a Gaussian process framework. Its potential applications in emulation and calibration of computer models are also discussed.
翻訳日:2023-12-12 21:24:06 公開日:2023-12-08
# 繰り返し相互作用によるリンドブラジアンダイナミクスの量子シミュレーション

Quantum Simulation of Lindbladian Dynamics via Repeated Interactions ( http://arxiv.org/abs/2312.05371v1 )

ライセンス: Link先を確認
Matthew Pocrnic, Dvira Segal, Nathan Wiebe(参考訳) リンドブラッド方程式はschr\"{o}dinger方程式を散逸力学を受ける量子系に一般化する。 したがって、リンドブラッド力学の量子シミュレーションは非ユニタリであり、最先端の量子アルゴリズムのナイーブな応用を妨げている。 本稿では, 繰り返し相互作用 (ri) cptp マップに基づくリンドブラッド力学と進化の近似対応を用いて, リンドブラッド力学のハミルトン定式化を記述し, 主方程式に束縛された厳密な誤差を導出する。 具体的には、Liouvillian $e^{t\mathcal{L}}$を誤差$\epsilon$スケールでシミュレートするために必要な相互作用の数を示す: $\nu\in O(t^2\|\mathcal{L}\|_{1\rightarrow 1}^2/\epsilon)$。 これは、力学に対するリンドブラド近似における明示的な誤差境界が、開システムシミュレーションのための既存の量子アルゴリズムにおいて明示的に有界ではないため重要である。 次に、反復量子化法とトロッター・スズキの公式を用いてこれらの写像をシミュレートする量子アルゴリズムを提供し、反復量子化のためには、力学をシミュレートするのに必要な演算数(固定値$$\nu$)が弱結合極限において$O(\nu (t \alpha_0 + \log(1/\epsilon)/\log\log(1/\epsilon)))$$$\alpha_0$がシステムとバスハミルトニアンの係数1ドルノルムであることを示す。 このスケーリングは、$\nu$ の複雑さが考慮されていない場合、最適であると思われます。

The Lindblad equation generalizes the Schr\"{o}dinger equation to quantum systems that undergo dissipative dynamics. The quantum simulation of Lindbladian dynamics is therefore non-unitary, preventing a naive application of state-of-the-art quantum algorithms. Here, we make use of an approximate correspondence between Lindbladian dynamics and evolution based on Repeated Interaction (RI) CPTP maps to write down a Hamiltonian formulation of the Lindblad dynamics and derive a rigorous error bound on the master equation. Specifically, we show that the number of interactions needed to simulate the Liouvillian $e^{t\mathcal{L}}$ within error $\epsilon$ scales in a weak coupling limit as $\nu\in O(t^2\|\mathcal{L}\|_{1\rightarrow 1}^2/\epsilon)$. This is significant because explicit error bounds in the Lindbladian approximation to the dynamics are not explicitly bounded in existing quantum algorithms for open system simulations. We then provide quantum algorithms to simulate these maps using an iterative Qubitization approach and Trotter-Suzuki formulas and specifically show that for iterative qubitization the number of operations needed to simulate the dynamics (for a fixed value of $\nu$) scales in a weak coupling limit as $O(\nu (t \alpha_0 + \log(1/\epsilon)/\log\log(1/\epsilon)))$ where $\alpha_0$ is the coefficient $1$-norm for the system and bath Hamiltonians. This scaling would appear to be optimal if the complexity of $\nu$ is not considered, which underscores the importance of considering the error in the Liouvillian that we reveal in this work.
翻訳日:2023-12-12 21:24:01 公開日:2023-12-08
# 医療標準手順研究のためのスケーラブルで透明なマルチモーダル分析を目指して-手の動き・近視・視線データとのリンク

Toward Scalable and Transparent Multimodal Analytics to Study Standard Medical Procedures: Linking Hand Movement, Proximity, and Gaze Data ( http://arxiv.org/abs/2312.05368v1 )

ライセンス: Link先を確認
Ville Heilala, Sami Lehesvuori, Raija H\"am\"al\"ainen, Tommi K\"arkk\"ainen(参考訳) 本研究ではマルチモーダル学習分析(MMLA)を用いて,看護教育におけるABCDEにおける行動動態を解析し,視線エントロピー,手の動き速度,近接度に着目した。 加速度計と視線追跡技術を用いて、様々な手続き段階を描写する行動図が作成された。 その結果、視覚的注意パターン、手の動き、患者や楽器に近接する4つの一次段階が明らかとなった。 この結果から,MMLAは医学教育における手続き能力に関する貴重な洞察を得られることが示唆された。 本研究は,MMLAが臨床手順とその複雑さを詳細に客観的に評価する可能性を明らかにするものである。

This study employed multimodal learning analytics (MMLA) to analyze behavioral dynamics during the ABCDE procedure in nursing education, focusing on gaze entropy, hand movement velocities, and proximity measures. Utilizing accelerometers and eye-tracking techniques, behaviorgrams were generated to depict various procedural phases. Results identified four primary phases characterized by distinct patterns of visual attention, hand movements, and proximity to the patient or instruments. The findings suggest that MMLA can offer valuable insights into procedural competence in medical education. This research underscores the potential of MMLA to provide detailed, objective evaluations of clinical procedures and their inherent complexities.
翻訳日:2023-12-12 21:23:23 公開日:2023-12-08
# 自己監督型変換器における抽象表現の創発と機能

Emergence and Function of Abstract Representations in Self-Supervised Transformers ( http://arxiv.org/abs/2312.05361v1 )

ライセンス: Link先を確認
Quentin RV. Ferry, Joshua Ching, Takashi Kawai(参考訳) 人間の知性は、私たちの現実の隠された青写真を簡潔にキャプチャする抽象的な精神モデルを作成する脳の能力の一部に依存しています。 このような抽象的な世界モデルによって、先進的な知識を一般化することで、新しい状況を迅速にナビゲートすることができます。 しかし、近年の監視対象から自己監督対象への移行は、表現力のあるトランスフォーマーベースのアーキテクチャと相まって、幅広い下流タスクをサポートする多彩な表現を学習する強力な基礎モデルを生み出した。 この有望な開発は、シリコ抽象世界モデルでこのようなモデルが発展する可能性を高める。 簡単な青写真から生成された部分的にマスキングされた視覚シーンを再現するために訓練された小型トランスフォーマーの内部動作を研究することにより、この仮説を検証する。 ネットワークは、データセットのすべての意味的特徴を符号化する中間抽象表現(抽象表現)を開発する。 これらの抽象化は、意味論的に関連するトークンの埋め込みが過渡的に収束する低次元多様体として現れ、下流計算の一般化を可能にする。 正確な操作実験を用いて,抽象化がネットワークの意思決定プロセスの中心であることを実証する。 我々の研究は、これらの抽象化は構成的に構造化されており、データセットの構成的性質を反映する文脈的独立性や部分的全体的関係のような特徴を示すことを示唆している。 最後に、ネットワークがその計算を明瞭化するために設計された言語拡張アーキテクチャ(lea)を紹介する。 LEAは、容易に解釈できる抽象中心の言語を開発しており、ネットワークの意思決定プロセスに容易にアクセスし、管理することができます。

Human intelligence relies in part on our brains' ability to create abstract mental models that succinctly capture the hidden blueprint of our reality. Such abstract world models notably allow us to rapidly navigate novel situations by generalizing prior knowledge, a trait deep learning systems have historically struggled to replicate. However, the recent shift from supervised to self-supervised objectives, combined with expressive transformer-based architectures, have yielded powerful foundation models that appear to learn versatile representations that can support a wide range of downstream tasks. This promising development raises the intriguing possibility of such models developing in silico abstract world models. We test this hypothesis by studying the inner workings of small-scale transformers trained to reconstruct partially masked visual scenes generated from a simple blueprint. We show that the network develops intermediate abstract representations, or abstractions, that encode all semantic features of the dataset. These abstractions manifest as low-dimensional manifolds where the embeddings of semantically related tokens transiently converge, thus allowing for the generalization of downstream computations. Using precise manipulation experiments, we demonstrate that abstractions are central to the network's decision-making process. Our research also suggests that these abstractions are compositionally structured, exhibiting features like contextual independence and part-whole relationships that mirror the compositional nature of the dataset. Finally, we introduce a Language-Enhanced Architecture (LEA) designed to encourage the network to articulate its computations. We find that LEA develops an abstraction-centric language that can be easily interpreted, allowing us to more readily access and steer the network's decision-making process.
翻訳日:2023-12-12 21:23:09 公開日:2023-12-08
# RGB-Dビデオによる3次元粒子シミュレーションの学習

Learning 3D Particle-based Simulators from RGB-D Videos ( http://arxiv.org/abs/2312.05359v1 )

ライセンス: Link先を確認
William F. Whitney, Tatiana Lopez-Guevara, Tobias Pfaff, Yulia Rubanova, Thomas Kipf, Kimberly Stachenfeld, Kelsey R. Allen(参考訳) ロボット工学からアニメーションまで、応用には現実的なシミュレーションが不可欠である。 従来の解析シミュレータは、ロボット工学におけるよく知られた"sim-to-real"ギャップなどの問題につながる、十分に現実的なシミュレーションを捉えるのに苦労することがある。 学習シミュレータは、現実世界の物理力学をより正確に捉えるための代替手段として登場したが、精密な物体幾何学や粒子軌道のような特権的な基底物理情報にアクセスする必要がある。 本稿では,観測からシミュレータを直接学習する手法を提案する。 視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現、潜粒子ダイナミクスのニューラルシミュレータ、任意のビューからシーンの画像を生成するレンダラーを共同で学習する。 VPDは、提示されたRGB-Dビデオからエンドツーエンドを学習し、特権情報へのアクセスを必要としない。 既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。 これらの結果は、ビデオ編集からロボット計画まで、下流のアプリケーションへの道を開いた。

Realistic simulation is critical for applications ranging from robotics to animation. Traditional analytic simulators sometimes struggle to capture sufficiently realistic simulation which can lead to problems including the well known "sim-to-real" gap in robotics. Learned simulators have emerged as an alternative for better capturing real-world physical dynamics, but require access to privileged ground truth physics information such as precise object geometry or particle tracks. Here we propose a method for learning simulators directly from observations. Visual Particle Dynamics (VPD) jointly learns a latent particle-based representation of 3D scenes, a neural simulator of the latent particle dynamics, and a renderer that can produce images of the scene from arbitrary views. VPD learns end to end from posed RGB-D videos and does not require access to privileged information. Unlike existing 2D video prediction models, we show that VPD's 3D structure enables scene editing and long-term predictions. These results pave the way for downstream applications ranging from video editing to robotic planning.
翻訳日:2023-12-12 21:22:43 公開日:2023-12-08
# ニューロンパッチング:コード生成とLLMによるニューロンレベルのモデル編集

Neuron Patching: Neuron-level Model Editing on Code Generation and LLMs ( http://arxiv.org/abs/2312.05356v1 )

ライセンス: Link先を確認
Jian Gu, Chunyang Chen, Aldeida Aleti(参考訳) 大規模言語モデルはソフトウェア工学、特にコード生成においてうまく採用されている。 これらのモデルを新しい知識で更新することは、非常に高価であり、しばしばその価値を完全に実現するために必要となる。 本稿では,LLMをコーディングタスクに当てはめる新しい,効果的なモデル編集手法である「textsc{MENT}」を提案する。 生成LDMのメカニズムに基づいて、次のトーケン予測におけるモデル編集を可能にし、共通のコーディングタスクをさらにサポートする。 \textsc{ment} は効率的、効率的、信頼性がある。 1または2つのニューロンをパッチすることで神経モデルを修正することができる。 生成モデルのニューロンレベルモデル編集の先駆的研究として,編集過程を定式化し,関連する概念を紹介する。 また,その一般化能力を評価するための新しい尺度を導入し,さらなる研究のためのベンチマークを構築した。 提案手法は,API-seqレコメンデーション,行レベルのコード生成,擬似コード間トランザクションなど,3つのコーディングタスクで評価される。 効率性と効率性の両方において、最先端を著しく上回っている。 さらに,ソフトウェア工学における LLM 推論における \textsc{MENT} の使用例を示す。 LLMの知識をtextsc{MENT}で編集することで、直接的または間接的に依存する行動は、自動的に変化する。

Large Language Models are successfully adopted in software engineering, especially in code generation. Updating these models with new knowledge is very expensive, and is often required to fully realize their value. In this paper, we propose a novel and effective model editing approach, \textsc{MENT}, to patch LLMs in coding tasks. Based on the mechanism of generative LLMs, \textsc{MENT} enables model editing in next-token predictions, and further supports common coding tasks. \textsc{MENT} is effective, efficient, and reliable. It can correct a neural model by patching 1 or 2 neurons. As the pioneer work on neuron-level model editing of generative models, we formalize the editing process and introduce the involved concepts. Besides, we also introduce new measures to evaluate its generalization ability, and build a benchmark for further study. Our approach is evaluated on three coding tasks, including API-seq recommendation, line-level code generation, and pseudocode-to-code transaction. It outperforms the state-of-the-art by a significant margin on both effectiveness and efficiency measures. In addition, we demonstrate the usages of \textsc{MENT} for LLM reasoning in software engineering. By editing the LLM knowledge with \textsc{MENT}, the directly or indirectly dependent behaviors in the chain-of-thought change accordingly and automatically.
翻訳日:2023-12-12 21:22:24 公開日:2023-12-08
# 誇大宣伝もグルームもDNNの正義はなし

Neither hype nor gloom do DNNs justice ( http://arxiv.org/abs/2312.05355v1 )

ライセンス: Link先を確認
Felix A. Wichmann, Simon Kornblith, Robert Geirhos(参考訳) ディープニューラルネットワーク(DNN)に関する誇張された主張や、Bowers氏らがDNNを視覚科学の正義のモデルとして表現しているグルームには、その誇張が示されていない:DNNは急速に進化し、今日の制限は、しばしば明日の成功である。 さらに、説明と予測と画像計算性を提供するのはモデルデシダータであり、一方は他方を犠牲にして好まざるを得ない。

Neither the hype exemplified in some exaggerated claims about deep neural networks (DNNs), nor the gloom expressed by Bowers et al. do DNNs as models in vision science justice: DNNs rapidly evolve, and today's limitations are often tomorrow's successes. In addition, providing explanations as well as prediction and image-computability are model desiderata; one should not be favoured at the expense of the other.
翻訳日:2023-12-12 21:22:05 公開日:2023-12-08
# 2光子波束で駆動されるラムダ量子系の厳密解

Exact solution of a lambda quantum system driven by a two-photon wavepacket ( http://arxiv.org/abs/2312.05353v1 )

ライセンス: Link先を確認
Wendel Lopes da Silva and Daniel Valente(参考訳) ラムダ構成の3レベル原子は量子情報処理において多様な応用が見られ、量子状態を操作する有望な方法は導波路(理論上はjaynes-cummingsモデルの広帯域化と見なされる)で伝播する単一光子パルスである。 ここでは、2光子波束によって駆動されるラムダ原子の非摂動力学を解析的に発見し、1次元電磁環境下で伝播する。 応用例として,量子状態浄化のダイナミクスについて検討する。 2つのカスケード単一光子波束の近似モデルと比較することにより、2光子非線形性と励起放出が浄化に与える影響を示す。

Three-level atoms in lambda configuration find diverse applications in quantum information processing, and a promising way to manipulate their quantum states is with single-photon pulses propagating in a waveguide (which can be theoretically regarded as a highly broadband regime of the Jaynes-Cummings model). Here, we analytically find the non-perturbative dynamics of a lambda atom driven by a two-photon wavepacket, propagating in a one-dimensional electromagnetic environment. As an application, we study the dynamics of a quantum state purification. By comparing our exact model with an approximated model of two cascaded single-photon wavepackets, we show how two-photon nonlinearities and stimulated emission affect the purification.
翻訳日:2023-12-12 21:21:55 公開日:2023-12-08
# 映像解析システムに適用した機械学習手法のレビュー

A Review of Machine Learning Methods Applied to Video Analysis Systems ( http://arxiv.org/abs/2312.05352v1 )

ライセンス: Link先を確認
Marios S. Pattichis, Venkatesh Jatla, Alvaro E. Ullao Cerna(参考訳) 本稿では,ビデオ解析のための機械学習技術の開発に関する調査を行う。 この調査は、人間のアクティビティ認識に使用される最も人気のあるディープラーニング手法の概要を提供する。 一般的なアーキテクチャが標準データセット上でどのように機能するかを議論し、複数の参加者が長期間にわたって行う複数のアクティビティに支配される実生活データセットの違いを強調する。 実生活データセットでは、関連するオブジェクトが検出された後に単一のアクティビティを検出するように訓練された低パラメータモデル(200倍または1000倍のパラメータ)の使用について述べる。 その結果、少数のラベル付きビデオサンプルを扱うために特別に開発された機械学習手法の概要が明らかになった。 ここでの目標は、ビデオ分析システムのトレーニングとテストに必要な基礎的真実の量を最小限に抑えるように特別に設計されたモダンな技術を記述することです。 本稿では,自己教師付き学習,半教師付き学習,アクティブラーニング,ゼロショット学習の開発の概要をビデオ解析に応用する。 各方法に対して,代表的な例を示す。

The paper provides a survey of the development of machine-learning techniques for video analysis. The survey provides a summary of the most popular deep learning methods used for human activity recognition. We discuss how popular architectures perform on standard datasets and highlight the differences from real-life datasets dominated by multiple activities performed by multiple participants over long periods. For real-life datasets, we describe the use of low-parameter models (with 200X or 1,000X fewer parameters) that are trained to detect a single activity after the relevant objects have been successfully detected. Our survey then turns to a summary of machine learning methods that are specifically developed for working with a small number of labeled video samples. Our goal here is to describe modern techniques that are specifically designed so as to minimize the amount of ground truth that is needed for training and testing video analysis systems. We provide summaries of the development of self-supervised learning, semi-supervised learning, active learning, and zero-shot learning for applications in video analysis. For each method, we provide representative examples.
翻訳日:2023-12-12 21:21:40 公開日:2023-12-08
# PixLore:リッチイメージキャプションのためのデータセット駆動アプローチ

PixLore: A Dataset-driven Approach to Rich Image Captioning ( http://arxiv.org/abs/2312.05349v1 )

ライセンス: Link先を確認
Diego Bonilla(参考訳) 視覚言語統合の分野では、キュレートされたリッチデータセットがないため、詳細な画像キャプションを生成することが大きな課題となる。 本研究では,標準商用GPU上でのLoRa法を用いてBLIP-2モデルの微調整によりクエリ変換を行う新しい手法であるPixLoreを紹介する。 最先端のコンピュータビジョンモデルとchatgptを組み合わせることで、注意深く組み立てられたデータセットをトレーニングし、より小さなモデルのアンサンブルで複雑な画像理解を実現することができるかという疑問に答える。 GPT-4やGoogle Bardのような主要モデルとの比較評価では、PixLore-2.7Bはパラメータがかなり少ないにもかかわらず、既存のState-of-the-Artモデルよりも半分以上高く評価されている。 この研究は、画期的なアプローチを提示するだけでなく、より小さなモデルの性能向上における、十分に計算されたデータセットの重要性も強調する。

In the domain of vision-language integration, generating detailed image captions poses a significant challenge due to the lack of a curated and rich dataset. This study introduces PixLore, a novel method that leverages Querying Transformers through the fine-tuning of the BLIP-2 model using the LoRa method on a standard commercial GPU. Our approach, which involves training on a carefully assembled dataset from state-of-the-art Computer Vision models combined and augmented by ChatGPT, addresses the question of whether intricate image understanding can be achieved with an ensemble of smaller-scale models. Comparative evaluations against major models such as GPT-4 and Google Bard demonstrate that PixLore-2.7B, despite having considerably fewer parameters, is rated higher than the existing State-of-the-Art models in over half of the assessments. This research not only presents a groundbreaking approach but also highlights the importance of well-curated datasets in enhancing the performance of smaller models.
翻訳日:2023-12-12 21:21:24 公開日:2023-12-08
# トランスコーディング時間予測とプリセット選択による高品質ライブビデオストリーミング

High-Quality Live Video Streaming via Transcoding Time Prediction and Preset Selection ( http://arxiv.org/abs/2312.05348v1 )

ライセンス: Link先を確認
Zahra Nabizadeh Shahre-Babak, Nader Karimi, Krishna Rapaka, Tarek Amara, Shadrokh Samavi, Shahram Shirani(参考訳) ビデオストリーミングはしばしば、受信者のインターネット速度と画面能力に合うように、コンテンツを異なる解像度に変換しビットレートを必要とする。 x264のようなビデオエンコーダは様々なプリセットを提供しており、それぞれがトランスコーディング時間とレートディストリクト性能のトレードオフを持っている。 ビデオトランスコーディングに最適なプリセットを選択することは、特にライブストリーミングでは難しい。 1つの解決策は、各プリセットのトランスコーディング時間を予測し、ライブストリーミング時間の制約に固執しながら、最高の品質を保証するプリセットを選択することである。 ビデオトランスコーディング時間の予測は、ストリーミング遅延の最小化、リソース管理アルゴリズムのデプロイ、ロードバランシングにも重要である。 本稿では,各種プリセット間での動画のトランスコーディング時間を予測するための学習に基づくフレームワークを提案する。 ビデオトランスコーディング時間予測のための予測器の機能は主にヘッダやメタデータから取得したストリームから直接導き出します。 その結果、機能抽出には最小限の遅延しか発生せず、ライブストリーミングアプリケーションにとって理想的なアプローチです。 ビデオのデータセットを用いて学習に基づく符号化時間予測を評価した。 その結果,我々のフレームワークは,平均絶対パーセンテージ誤差(MAPE)を5.0%とすることで,異なるプリセットの変換時間を正確に予測できることがわかった。 これらの予測を活用して、ライブビデオストリーミングに最適なトランスコーディングプリセットを選択する。 符号化時間予測に基づくプリセット選択を利用して、ピーク信号対雑音比(PSNR)を最大5dBまで改善した。

Video streaming often requires transcoding content into different resolutions and bitrates to match the recipient's internet speed and screen capabilities. Video encoders like x264 offer various presets, each with different tradeoffs between transcoding time and rate-distortion performance. Choosing the best preset for video transcoding is difficult, especially for live streaming, as trying all the presets and choosing the best one is not feasible. One solution is to predict each preset's transcoding time and select the preset that ensures the highest quality while adhering to live streaming time constraints. Prediction of video transcoding time is also critical in minimizing streaming delays, deploying resource management algorithms, and load balancing. We propose a learning-based framework for predicting the transcoding time of videos across various presets. Our predictor's features for video transcoding time prediction are derived directly from the ingested stream, primarily from the header or metadata. As a result, only minimal additional delay is incurred for feature extraction, rendering our approach ideal for live-streaming applications. We evaluated our learning-based transcoding time prediction using a dataset of videos. The results demonstrate that our framework can accurately predict the transcoding time for different presets, with a mean absolute percentage error (MAPE) of nearly 5.0%. Leveraging these predictions, we then select the most suitable transcoding preset for live video streaming. Utilizing our transcoding time prediction-based preset selection improved Peak Signal-to-Noise Ratio (PSNR) of up to 5 dB.
翻訳日:2023-12-12 21:21:06 公開日:2023-12-08
# 核有効場理論シミュレーションのための量子アルゴリズム

Quantum Algorithms for Simulating Nuclear Effective Field Theories ( http://arxiv.org/abs/2312.05344v1 )

ライセンス: Link先を確認
James D. Watson, Jacob Bringewatt, Alexander F. Shaw, Andrew M. Childs, Alexey V. Gorshkov, Zohreh Davoudi(参考訳) 量子コンピュータは、古典的に難解な核過程をシミュレートする能力を提供する。 必要な量子資源を理解することを目的として、我々は最先端のハミルトンシミュレーション法を用いて、量子ビットとゲートコストを推定し、核物理学の低エネルギー有効場理論(EFT)をシミュレートする。 特に、核格子ETFの枠組みの中では、上位のピオンレスおよびピオンフルETFのシミュレーションコストを得る。 非相対論的核子に結合した相対論的ボゾン場で表される動的ピオンと核子間の1ピオン交換ポテンシャルで表される静的ピオンの両方を考える。 本研究では,時間的発展とエネルギー推定の作業に要する資源コストについて検討する。 本研究では, 1-pion-exchange EFT における長距離相互作用と, 動的ピオン EFT におけるピオンヒルベルト空間のいずれにも関係するモデル誤差と, 積形式近似および量子位相推定に関するアルゴリズム誤差について述べる。 以上の結果から, ピオンレスEDTはシミュレーションに最も費用がかかりにくく, 動的ピオン理論が最もコストがかかることが示された。 低エネルギー核ハミルトニアンの対称性を利用してシミュレーションアルゴリズムのより厳密な誤差境界を得る方法を示す。 量子ビットにマッピングする際の核子相互作用の局所性を保持することにより、回路深度の低減と実質並列化を実現する。 さらに,フェルミオン数を保存するフェルミオン・ハミルトニアンのクラスに対してアルゴリズム誤差をバインドする新たな手法を開発し,ハミルトニアン項の入れ子交換子を明示的に計算することにより,合理的にタイトなトロッター誤差境界を実現できることを示す。 この研究は、量子シミュレーションコストを減らすために物理学の洞察とアルゴリズムの進歩を組み合わせることの重要性を強調している。

Quantum computers offer the potential to simulate nuclear processes that are classically intractable. With the goal of understanding the necessary quantum resources, we employ state-of-the-art Hamiltonian-simulation methods, and conduct a thorough algorithmic analysis, to estimate the qubit and gate costs to simulate low-energy effective field theories (EFTs) of nuclear physics. In particular, within the framework of nuclear lattice EFT, we obtain simulation costs for the leading-order pionless and pionful EFTs. We consider both static pions represented by a one-pion-exchange potential between the nucleons, and dynamical pions represented by relativistic bosonic fields coupled to non-relativistic nucleons. We examine the resource costs for the tasks of time evolution and energy estimation for physically relevant scales. We account for model errors associated with truncating either long-range interactions in the one-pion-exchange EFT or the pionic Hilbert space in the dynamical-pion EFT, and for algorithmic errors associated with product-formula approximations and quantum phase estimation. Our results show that the pionless EFT is the least costly to simulate and the dynamical-pion theory is the costliest. We demonstrate how symmetries of the low-energy nuclear Hamiltonians can be utilized to obtain tighter error bounds on the simulation algorithm. By retaining the locality of nucleonic interactions when mapped to qubits, we achieve reduced circuit depth and substantial parallelization. We further develop new methods to bound the algorithmic error for classes of fermionic Hamiltonians that preserve the number of fermions, and demonstrate that reasonably tight Trotter error bounds can be achieved by explicitly computing nested commutators of Hamiltonian terms. This work highlights the importance of combining physics insights and algorithmic advancement in reducing quantum-simulation costs.
翻訳日:2023-12-12 21:20:42 公開日:2023-12-08
# ヘリカル点スプレッド関数工学による光学格子中の単一原子の3次元イメージング

Three-dimensional imaging of single atoms in an optical lattice via helical point-spread-function engineering ( http://arxiv.org/abs/2312.05341v1 )

ライセンス: Link先を確認
Tangi Legrand, Falk-Richard Winkelmann, Wolfgang Alt, Dieter Meschede, Andrea Alberti and Carrie A. Weidner(参考訳) 本稿では,位相のみの空間光変調器を用いた量子ガス顕微鏡システムにおける単一原子の3次元位置決定法を示し,高分解能イメージングシステムの点スプレッド関数を変化させる。 ここでは、単一原子が点源として生成する典型的な回折点を、撮像系の焦点面から原子の距離の関数として回転する二重点に修正する。 点スプレッド関数の回転角を焦点平面までの距離と結びつける簡単なモデルを提案し,数値的に検証した。 系内の収差が注意深く校正され補償される場合、この方法では1つの実験画像内の1つの格子内の原子の位置を決定でき、顕微鏡システムによる量子シミュレーションをさらに3次元の領域に拡張することができる。

We demonstrate a method for determining the three-dimensional location of single atoms in a quantum gas microscopy system using a phase-only spatial light modulator to modify the point-spread function of the high-resolution imaging system. Here, the typical diffracted spot generated by a single atom as a point source is modified to a double spot that rotates as a function of the atom's distance from the focal plane of the imaging system. We present and numerically validate a simple model linking the rotation angle of the point-spread function with the distance to the focal plane. We show that, when aberrations in the system are carefully calibrated and compensated for, this method can be used to determine an atom's position to within a single lattice site in a single experimental image, extending quantum simulation with microscopy systems further into the regime of three dimensions.
翻訳日:2023-12-12 21:19:57 公開日:2023-12-08
# ボルツマン発電機を用いたmcmc移動による遷移経路サンプリング

Transition Path Sampling with Boltzmann Generator-based MCMC Moves ( http://arxiv.org/abs/2312.05340v1 )

ライセンス: Link先を確認
Michael Plainer, Hannes St\"ark, Charlotte Bunne, Stephan G\"unnemann(参考訳) 分子系の2つの3次元状態間の全ての可能な遷移経路をサンプリングすることは、触媒設計から薬物発見まで様々な応用がある。 サンプル遷移経路に対する現在のアプローチはマルコフ連鎖モンテカルロを使い、時間集中型分子動力学シミュレーションを使って新しい経路を見つける。 本手法は,分子のボルツマン分布からガウス分布へ写像する正規化流れの潜在空間で動作し,分子シミュレーションを必要とせずに新たな経路を提案する。 アラニンジペプチドを用いて, 潜伏空間におけるメトロポリス・ハスティングの受容基準を精査し, 異なる潜伏提案機構について検討した。

Sampling all possible transition paths between two 3D states of a molecular system has various applications ranging from catalyst design to drug discovery. Current approaches to sample transition paths use Markov chain Monte Carlo and rely on time-intensive molecular dynamics simulations to find new paths. Our approach operates in the latent space of a normalizing flow that maps from the molecule's Boltzmann distribution to a Gaussian, where we propose new paths without requiring molecular simulations. Using alanine dipeptide, we explore Metropolis-Hastings acceptance criteria in the latent space for exact sampling and investigate different latent proposal mechanisms.
翻訳日:2023-12-12 21:19:32 公開日:2023-12-08
# 2相KLペナル化による信頼領域最適化

Guaranteed Trust Region Optimization via Two-Phase KL Penalization ( http://arxiv.org/abs/2312.05405v1 )

ライセンス: Link先を確認
K.R. Zentner, Ujjwal Puri, Zhehui Huang, Gaurav S. Sukhatme(参考訳) on-policy reinforcement learning(rl)はその計算効率と理論上の単純さから、シーケンシャルな意思決定問題を解決するための一般的なフレームワークとなっている。 いくつかのオンポリシー手法は、すべてのポリシー更新が、トレーニングの安定性を確保するために、事前のポリシーに対する信頼領域に制限されることを保証する。 これらの手法は、しばしば計算集約的な非線形最適化を必要とするか、特定の行動分布を必要とする。 本研究では,KL法の適用だけでは,そのような信頼領域を強制するのに十分であることを示す。 次に,「固定」フェーズの導入は,政策更新毎に信頼領域が強制されることを保証するのに十分であり,実際には5%未満の勾配ステップを追加しても十分であることを示す。 FixPOと呼ばれる結果のアルゴリズムは、さまざまなポリシーアーキテクチャやアクションスペースをトレーニングすることができ、実装が容易で、他の信頼できるリージョンメソッドと競合する結果を生成する。

On-policy reinforcement learning (RL) has become a popular framework for solving sequential decision problems due to its computational efficiency and theoretical simplicity. Some on-policy methods guarantee every policy update is constrained to a trust region relative to the prior policy to ensure training stability. These methods often require computationally intensive non-linear optimization or require a particular form of action distribution. In this work, we show that applying KL penalization alone is nearly sufficient to enforce such trust regions. Then, we show that introducing a "fixup" phase is sufficient to guarantee a trust region is enforced on every policy update while adding fewer than 5% additional gradient steps in practice. The resulting algorithm, which we call FixPO, is able to train a variety of policy architectures and action spaces, is easy to implement, and produces results competitive with other trust region methods.
翻訳日:2023-12-12 21:12:09 公開日:2023-12-08
# 因果推論におけるm-bias問題に取り組むための不連続潜在表現学習

Disentangled Latent Representation Learning for Tackling the Confounding M-Bias Problem in Causal Inference ( http://arxiv.org/abs/2312.05404v1 )

ライセンス: Link先を確認
Debo Cheng (1), Yang Xie (2), Ziqi Xu (1), Jiuyong Li (1), Lin Liu (1), Jixue Liu (1), Yinghao Zhang (2) and Zaiwen Feng (2) ((1) UniSA STEM, University of South Australia, Adelaide, Australia and (2) College of Informatics, Huazhong Agricultural University, Wuhan, China)(参考訳) 因果推論では、観測データから因果効果を推定することが基本的な課題である。 しかし、潜伏した共同設立者は、例えばバイアスとMバイアスの相違など、観察データにおける因果推論において大きな課題を提起する。 最近のデータ駆動因果効果推定器は、バランスの取れた表現学習を通じて、矛盾するバイアス問題に対処するが、システム内のMバイアスは想定しないため、Mバイアスの処理に失敗する。 本稿では,共起バイアスとMバイアスを同時に引き起こす変数によって生じる難解で未解決な問題を同定する。 この問題を解決するために、観測データから非バイアス因果効果推定(DLRCE)のためのプロキシ変数から潜在表現を学習するための、新しい非干渉潜在表現学習フレームワークを提案する。 具体的には、DLRCEは測定されたプロキシ変数から3つの潜在表現を学習し、境界バイアスとMバイアスを調整する。 合成データセットと3つの実世界のデータセットの大規模な実験により、DLRCEは共起バイアスとMバイアスの両方が存在する場合、最先端の推定値よりも著しく優れていることが示された。

In causal inference, it is a fundamental task to estimate the causal effect from observational data. However, latent confounders pose major challenges in causal inference in observational data, for example, confounding bias and M-bias. Recent data-driven causal effect estimators tackle the confounding bias problem via balanced representation learning, but assume no M-bias in the system, thus they fail to handle the M-bias. In this paper, we identify a challenging and unsolved problem caused by a variable that leads to confounding bias and M-bias simultaneously. To address this problem with co-occurring M-bias and confounding bias, we propose a novel Disentangled Latent Representation learning framework for learning latent representations from proxy variables for unbiased Causal effect Estimation (DLRCE) from observational data. Specifically, DLRCE learns three sets of latent representations from the measured proxy variables to adjust for the confounding bias and M-bias. Extensive experiments on both synthetic and three real-world datasets demonstrate that DLRCE significantly outperforms the state-of-the-art estimators in the case of the presence of both confounding bias and M-bias.
翻訳日:2023-12-12 21:11:54 公開日:2023-12-08
# 科学的推論によるテーブル・ツー・テキスト生成制御

Towards Controlled Table-to-Text Generation with Scientific Reasoning ( http://arxiv.org/abs/2312.05402v1 )

ライセンス: Link先を確認
Zhixin Guo, Jianping Zhou, Jiexing Qi, Mingxuan Yan, Ziwei He, Guanjie Zheng, Zhouhan Lin, Xinbing Wang, Chenghu Zhou(参考訳) 科学的実験結果の膨大な量と複雑な技術的ステートメントは、しばしば表形式で提示され、好みの情報を取得する個人にとって恐ろしい障壁となる。 ユーザの好みに従う科学的推論とコンテンツ生成の領域は、異なる課題に遭遇する。 本稿では,科学的な表データに対するユーザの嗜好に合致する,精巧で論理的な記述を生成し,科学的文書分析の自動化を目的とした新しいタスクを提案する。 この方向の研究を容易にするために,科学文献から抽出したテーブル記述ペアからなる新しい挑戦的データセットCTRLSciTabを構築し,強調されたセルとそれに対応するドメイン固有知識ベースを構築した。 我々は,一般的な事前学習型言語モデルを評価し,ベースラインを確立するとともに,競合するアプローチよりも優れた新しいアーキテクチャを提案する。 その結果、大きなモデルはユーザーの好みに合わせて正確なコンテンツを作るのに苦労していることがわかった。 まず第一に、我々の研究は科学的領域におけるさらなる研究を動機付けるべきである。

The sheer volume of scientific experimental results and complex technical statements, often presented in tabular formats, presents a formidable barrier to individuals acquiring preferred information. The realms of scientific reasoning and content generation that adhere to user preferences encounter distinct challenges. In this work, we present a new task for generating fluent and logical descriptions that match user preferences over scientific tabular data, aiming to automate scientific document analysis. To facilitate research in this direction, we construct a new challenging dataset CTRLSciTab consisting of table-description pairs extracted from the scientific literature, with highlighted cells and corresponding domain-specific knowledge base. We evaluated popular pre-trained language models to establish a baseline and proposed a novel architecture outperforming competing approaches. The results showed that large models struggle to produce accurate content that aligns with user preferences. As the first of its kind, our work should motivate further research in scientific domains.
翻訳日:2023-12-12 21:11:32 公開日:2023-12-08
# 人工知能を用いた通信システムのための生成ネットワーク層

Generative Network Layer for Communication Systems with Artificial Intelligence ( http://arxiv.org/abs/2312.05398v1 )

ライセンス: Link先を確認
Mathias Thorsager, Israel Leyva-Mayorga, Beatriz Soret, and Petar Popovski(参考訳) ネットワークレイヤの伝統的な役割は、中間ネットワークノードを介してソースから宛先へのパケットレプリカの転送である。 本稿では、中間またはエッジのネットワークノードで生成ai(genai)を使用して、そのネットワークに必要なデータレートへの影響を分析する生成ネットワーク層を提案する。 我々はGenAI支援ノードが実質的に圧縮された潜在表現からなるプロンプトから画像を生成するケーススタディを行う。 画像品質制約下でのネットワークフロー解析の結果から,生成ネットワーク層が要求されるデータレートで100%以上の改善を達成できることが示唆された。

The traditional role of the network layer is the transfer of packet replicas from source to destination through intermediate network nodes. We present a generative network layer that uses Generative AI (GenAI) at intermediate or edge network nodes and analyze its impact on the required data rates in the network. We conduct a case study where the GenAI-aided nodes generate images from prompts that consist of substantially compressed latent representations. The results from network flow analyses under image quality constraints show that the generative network layer can achieve an improvement of more than 100% in terms of the required data rate.
翻訳日:2023-12-12 21:11:17 公開日:2023-12-08
# ニューラルネットワークを用いた時間差学習の性能について

On the Performance of Temporal Difference Learning With Neural Networks ( http://arxiv.org/abs/2312.05397v1 )

ライセンス: Link先を確認
Haoxing Tian, Ioannis Ch. Paschalidis, Alex Olshevsky(参考訳) ニューラルテンポラル差分学習(Neural Temporal difference, TD)は、関数近似にニューラルネットワークを用いる政策評価の時間差分法である。 神経td学習の分析は困難であることが証明されている。 本稿では、初期点$\theta_0$ の周囲に固定半径$\omega$ の球体である$B(\theta_0, \omega)$ への射影を伴うニューラルTDラーニングの収束解析を行う。 ここでは、$O(\epsilon) + \tilde{O} (1/\sqrt{m})$ ここで、$\epsilon$は、最良のニューラルネットワークの近似品質である$B(\theta_0, \omega)$と$m$は、ネットワーク内のすべての隠された階層の幅である。

Neural Temporal Difference (TD) Learning is an approximate temporal difference method for policy evaluation that uses a neural network for function approximation. Analysis of Neural TD Learning has proven to be challenging. In this paper we provide a convergence analysis of Neural TD Learning with a projection onto $B(\theta_0, \omega)$, a ball of fixed radius $\omega$ around the initial point $\theta_0$. We show an approximation bound of $O(\epsilon) + \tilde{O} (1/\sqrt{m})$ where $\epsilon$ is the approximation quality of the best neural network in $B(\theta_0, \omega)$ and $m$ is the width of all hidden layers in the network.
翻訳日:2023-12-12 21:11:08 公開日:2023-12-08
# ノイズの多いAIエージェントのNTQR評価の論理:完全仮定と論理的に一貫した誤差相関

The logic of NTQR evaluations of noisy AI agents: Complete postulates and logically consistent error correlations ( http://arxiv.org/abs/2312.05392v1 )

ライセンス: Link先を確認
Andr\'es Corrada-Emmanuel(参考訳) プラートが「国家の船」("ship of state" allegory (\textit{republic}, book vi, 488)の中で疑問を呈している。 アレゴリーでは、単純多数決の手続きでは、投票員が無知あるいは偏っている場合、誰が船を操縦できるかを安全に判断できないと主張している。 我々は、教師なし設定でノイズの多いAIエージェントを監視するAI安全性の問題を考慮して、プラトンの懸念を形式化する。 ラベル付きデータを使用してAIエージェントを評価するアルゴリズムは、評価ジレンマの対象となる。 この無限の検証連鎖は、観測された応答の純粋に代数的関数を考えることで避けることができる。 任意の階調アルゴリズムの論理的一貫性を証明または否定できる以上の完全な仮定を構成できる。 完全な投稿は、それぞれ$r$の回答で$q$の質問で$t$のテストを受けた専門家を評価した場合に存在します。 単一テストを行ったバイナリ分類器の評価 - $(n,t=1,q,r=2)$ テストについて検討する。 ML文献において、仮定のいくつかが以前は認識されていたが、プラタニオスの「textbf{agreement equations}」と認識されていないことを示す。 ペア相関二分分類器の完全な仮定を考察し,誤差相関を高速に計算できることを示す。 アンサンブルが誤差独立であるという仮定に基づく代数的評価器を,\uciadult と \texttt{two-norm} データセットを用いた評価において,多数決による評価と比較した。 本稿では,AIアルゴリズムを用いた機械の安全性向上に寄与し,論理的整合性の代数的仮定による定式化を実証する。

In his "ship of state" allegory (\textit{Republic}, Book VI, 488) Plato poses a question -- how can a crew of sailors presumed to know little about the art of navigation recognize the true pilot among them? The allegory argues that a simple majority voting procedure cannot safely determine who is most qualified to pilot a ship when the voting members are ignorant or biased. We formalize Plato's concerns by considering the problem in AI safety of monitoring noisy AI agents in unsupervised settings. An algorithm evaluating AI agents using unlabeled data would be subject to the evaluation dilemma - how would we know the evaluation algorithm was correct itself? This endless validation chain can be avoided by considering purely algebraic functions of the observed responses. We can construct complete postulates than can prove or disprove the logical consistency of any grading algorithm. A complete set of postulates exists whenever we are evaluating $N$ experts that took $T$ tests with $Q$ questions with $R$ responses each. We discuss evaluating binary classifiers that have taken a single test - the $(N,T=1,Q,R=2)$ tests. We show how some of the postulates have been previously identified in the ML literature but not recognized as such - the \textbf{agreement equations} of Platanios. The complete postulates for pair correlated binary classifiers are considered and we show how it allows for error correlations to be quickly calculated. An algebraic evaluator based on the assumption that the ensemble is error independent is compared with grading by majority voting on evaluations using the \uciadult and and \texttt{two-norm} datasets. Throughout, we demonstrate how the formalism of logical consistency via algebraic postulates of evaluation can help increase the safety of machines using AI algorithms.
翻訳日:2023-12-12 21:10:42 公開日:2023-12-08
# セマンティックセグメンテーション時代の損失関数:調査と展望

Loss Functions in the Era of Semantic Segmentation: A Survey and Outlook ( http://arxiv.org/abs/2312.05391v1 )

ライセンス: Link先を確認
Reza Azad, Moein Heidary, Kadir Yilmaz, Michael H\"uttemann, Sanaz Karimijafarbigloo, Yuli Wu, Anke Schmeink, Dorit Merhof(参考訳) セマンティック画像分割(Semantic image segmentation)は、画像の各ピクセルを特定のクラスに分類するプロセスであり、多くの視覚的理解システムにおいて重要な役割を果たす。 統計モデルの性能を評価するための主要な基準として、損失関数は深層学習に基づくセグメンテーションアルゴリズムの構築と全体的な性能向上に不可欠である。 研究者が特定の用途に最適な損失関数を特定するのを助けるため、この調査は画像分割に使用される25ドルの損失関数の包括的かつ統一的なレビューを提供する。 我々は,これらの損失関数が画像分割においてどのようにカスタマイズ・活用されるか,その重要な特徴と応用を強調する体系的分類法について,新しい分類法と徹底的なレビューを行った。 さらに,本手法の有効性を現実のシナリオで評価するために,確立された医用・自然画像データセット上での明らかで有名な損失関数の偏りのない評価を提案する。 本稿では,現在の課題を特定し,今後の研究機会を明らかにすることで,このレビューを締めくくる。 最後に、GitHubページにオープンソース実装のレビューされた研究をまとめました。

Semantic image segmentation, the process of classifying each pixel in an image into a particular class, plays an important role in many visual understanding systems. As the predominant criterion for evaluating the performance of statistical models, loss functions are crucial for shaping the development of deep learning-based segmentation algorithms and improving their overall performance. To aid researchers in identifying the optimal loss function for their particular application, this survey provides a comprehensive and unified review of $25$ loss functions utilized in image segmentation. We provide a novel taxonomy and thorough review of how these loss functions are customized and leveraged in image segmentation, with a systematic categorization emphasizing their significant features and applications. Furthermore, to evaluate the efficacy of these methods in real-world scenarios, we propose unbiased evaluations of some distinct and renowned loss functions on established medical and natural image datasets. We conclude this review by identifying current challenges and unveiling future research opportunities. Finally, we have compiled the reviewed studies that have open-source implementations on our GitHub page.
翻訳日:2023-12-12 21:10:09 公開日:2023-12-08
# noiseclr:拡散モデルにおける解釈可能な方向の教師なし発見のためのコントラスト学習手法

NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion Models ( http://arxiv.org/abs/2312.05390v1 )

ライセンス: Link先を確認
Yusuf Dalva and Pinar Yanardag(参考訳) 近年、生成モデルは画像生成機能で非常に人気がある。 GANベースのモデルは、制御された画像編集の成功に寄与する重要な特徴である、切り離された潜在空間として高く評価されている。 一方,拡散モデルは高品質な画像を生成する強力なツールとして出現している。 しかし、拡散モデルの潜在空間は、あまり詳しく調べられ、理解されていない。 拡散モデルの潜在空間を探索する既存の方法は、通常テキストプロンプトに依存し、特定の意味をピンポイントする。 しかし、このアプローチは、芸術、ファッション、あるいは医学のような専門分野において、適切なテキストプロンプトが入手できない、あるいは、既存の作業の範囲が制限されるような領域で制限される可能性がある。 本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。 本手法は,顔や猫などの特定の領域からのラベルなし画像と事前学習された拡散モデルを取り,対照学習目的を用いて教師なしで多様な意味を探索する。 さらに、学習方向は、同一ドメイン内(様々な種類の顔編集など)と異なるドメイン間(例えば、猫と顔の編集を同一画像内で適用)のいずれかで、相互に干渉することなく同時に適用することができる。 提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れていることを示す。

Generative models have been very popular in the recent years for their image generation capabilities. GAN-based models are highly regarded for their disentangled latent space, which is a key feature contributing to their success in controlled image editing. On the other hand, diffusion models have emerged as powerful tools for generating high-quality images. However, the latent space of diffusion models is not as thoroughly explored or understood. Existing methods that aim to explore the latent space of diffusion models usually relies on text prompts to pinpoint specific semantics. However, this approach may be restrictive in areas such as art, fashion, or specialized fields like medicine, where suitable text prompts might not be available or easy to conceive thus limiting the scope of existing work. In this paper, we propose an unsupervised method to discover latent semantics in text-to-image diffusion models without relying on text prompts. Our method takes a small set of unlabeled images from specific domains, such as faces or cats, and a pre-trained diffusion model, and discovers diverse semantics in unsupervised fashion using a contrastive learning objective. Moreover, the learned directions can be applied simultaneously, either within the same domain (such as various types of facial edits) or across different domains (such as applying cat and face edits within the same image) without interfering with each other. Our extensive experiments show that our method achieves highly disentangled edits, outperforming existing approaches in both diffusion-based and GAN-based latent space editing methods.
翻訳日:2023-12-12 21:09:50 公開日:2023-12-08
# 材料の電荷密度予測のための高次等変ニューラルネットワーク

Higher-Order Equivariant Neural Networks for Charge Density Prediction in Materials ( http://arxiv.org/abs/2312.05388v1 )

ライセンス: Link先を確認
Teddy Koker, Keegan Quigley, Eric Taw, Kevin Tibbetts, Lin Li(参考訳) 密度汎関数理論(DFT)を用いた物質や分子の電子密度分布の計算は、その量子的およびマクロスケール特性の研究の中心であるが、物質科学の分野における長年の課題は、正確かつ効率的な計算である。 本稿では、原子系の電子密度を予測するためのe(3)同値グラフニューラルネットワーク charge3net を紹介する。 ChargE3Netは高階テンソル表現を用いて等分散を達成し、系の任意の点における電荷密度を直接予測する。 提案手法は,dftで計算可能なものよりも大規模で多様な分子や材料の先行研究よりも高い性能を実現し,大規模システムにスケールできることを示した。 予測された電子密度を初期化として、デフォルト初期化よりもDFTを収束させるためには、自己整合性の反復を少なくする必要があることを示す。 さらに, 予測電子密度を用いた非自己整合計算により, 物質の電子的および熱力学的特性をほぼDFT精度で予測できることを示す。

The calculation of electron density distribution using density functional theory (DFT) in materials and molecules is central to the study of their quantum and macro-scale properties, yet accurate and efficient calculation remains a long-standing challenge in the field of material science. This work introduces ChargE3Net, an E(3)-equivariant graph neural network for predicting electron density in atomic systems. ChargE3Net achieves equivariance through the use of higher-order tensor representations, and directly predicts the charge density at any arbitrary point in the system. We show that our method achieves greater performance than prior work on large and diverse sets of molecules and materials, and scales to larger systems than what is feasible to compute with DFT. Using predicted electron densities as an initialization, we show that fewer self-consistent iterations are required to converge DFT over the default initialization. In addition, we show that non-self-consistent calculations using the predicted electron densities can predict electronic and thermodynamic properties of materials at near-DFT accuracy.
翻訳日:2023-12-12 21:09:23 公開日:2023-12-08
# クロスドメイン生成拡張:潜在拡散モデルを用いたドメイン一般化

Cross Domain Generative Augmentation: Domain Generalization with Latent Diffusion Models ( http://arxiv.org/abs/2312.05387v1 )

ライセンス: Link先を確認
Sobhan Hemati, Mahdi Beitollahi, Amir Hossein Estiri, Bassel Al Omari, Xi Chen, Guojun Zhang(参考訳) ドメイン一般化のための新しい正則化器(DG)の開発に多大な努力を払っているにもかかわらず、ビシナルリスク最小化原理(VRM)の実践的な実装であるバニラERMに単純なデータ拡張を加え、提案された正則化器の多くと競争力を維持する。 vrmは、ポイントワイズカーネル推定をより正確な真のデータ分布の推定に置き換えることでermの推定誤差を低減し、データポイント \textbf{within each domain} 間のギャップを減少させる。 しかし、DG設定では、ERMによる真のデータ分布の推定誤差は主に分布シフト \textbf{between domain} によって引き起こされる。 VRMのこの制限に触発されて,ERMにおけるポイントワイドカーネル推定を,領域間のギャップをさらに小さくするために,新たな密度推定に置き換える,クロスドメイン生成拡張(CDGA)という新しいデータ拡張を提案する。 この目的のために、遅延拡散モデル(LDM)上に構築されたCDGAは、すべての領域間のギャップを埋める合成画像を生成し、その結果、非イディネスを低減する。 我々は,CDGAがDomainbedベンチマークでSOTA DG法より優れていることを示す。 cdgaの有効性を説明するために,500万以上の合成画像を生成し,データスケーリング則,分布可視化,ドメインシフト定量化,逆ロバスト性,ロスランドスケープ解析などの広範なアブレーション研究を行う。

Despite the huge effort in developing novel regularizers for Domain Generalization (DG), adding simple data augmentation to the vanilla ERM which is a practical implementation of the Vicinal Risk Minimization principle (VRM) \citep{chapelle2000vicinal} outperforms or stays competitive with many of the proposed regularizers. The VRM reduces the estimation error in ERM by replacing the point-wise kernel estimates with a more precise estimation of true data distribution that reduces the gap between data points \textbf{within each domain}. However, in the DG setting, the estimation error of true data distribution by ERM is mainly caused by the distribution shift \textbf{between domains} which cannot be fully addressed by simple data augmentation techniques within each domain. Inspired by this limitation of VRM, we propose a novel data augmentation named Cross Domain Generative Augmentation (CDGA) that replaces the pointwise kernel estimates in ERM with new density estimates in the \textbf{vicinity of domain pairs} so that the gap between domains is further reduced. To this end, CDGA, which is built upon latent diffusion models (LDM), generates synthetic images to fill the gap between all domains and as a result, reduces the non-iidness. We show that CDGA outperforms SOTA DG methods under the Domainbed benchmark. To explain the effectiveness of CDGA, we generate more than 5 Million synthetic images and perform extensive ablation studies including data scaling laws, distribution visualization, domain shift quantification, adversarial robustness, and loss landscape analysis.
翻訳日:2023-12-12 21:09:05 公開日:2023-12-08
# モデル抽出攻撃の再訪

Model Extraction Attacks Revisited ( http://arxiv.org/abs/2312.05386v1 )

ライセンス: Link先を確認
Jiacheng Liang, Ren Pang, Changjiang Li, Ting Wang(参考訳) モデル抽出(ME)攻撃は、ブラックボックスAPIをクエリすることで、機密機械学習モデルの機能を‘ステアリング’することで、MLaaSプラットフォームに対する大きな脅威のひとつだ。 ME攻撃が最初に概念化されてから7年以上が経過した。 この期間、ME攻撃とMLaaSプラットフォームの両方で大幅に進歩し、興味深い疑問が持ち上がった。 本研究では,この批判的質問に答えるために,詳細な調査を行う。 具体的には、攻撃戦略、学習技術、代理モデル設計、ベンチマークタスクを含む複数の視点から、現在のMLaaSプラットフォームの脆弱性をME攻撃に特徴付ける。 以上の結果から, ME 脆弱性の出現パターンが示唆された。 さらに、過去4年間の過去のデータセットを用いて、同じMLaaSプラットフォームの脆弱性を分析することで、時間とともにME脆弱性の進化を振り返り、興味深い結果の集合を導いた。 最後に、攻撃堅牢性の観点から、MLaaSの現在の実践を改善することを提案する。 本研究は,MEの脆弱性の現状に光を当て,今後の研究に期待できる方向をいくつか挙げる。

Model extraction (ME) attacks represent one major threat to Machine-Learning-as-a-Service (MLaaS) platforms by ``stealing'' the functionality of confidential machine-learning models through querying black-box APIs. Over seven years have passed since ME attacks were first conceptualized in the seminal work. During this period, substantial advances have been made in both ME attacks and MLaaS platforms, raising the intriguing question: How has the vulnerability of MLaaS platforms to ME attacks been evolving? In this work, we conduct an in-depth study to answer this critical question. Specifically, we characterize the vulnerability of current, mainstream MLaaS platforms to ME attacks from multiple perspectives including attack strategies, learning techniques, surrogate-model design, and benchmark tasks. Many of our findings challenge previously reported results, suggesting emerging patterns of ME vulnerability. Further, by analyzing the vulnerability of the same MLaaS platforms using historical datasets from the past four years, we retrospectively characterize the evolution of ME vulnerability over time, leading to a set of interesting findings. Finally, we make suggestions about improving the current practice of MLaaS in terms of attack robustness. Our study sheds light on the current state of ME vulnerability in the wild and points to several promising directions for future research.
翻訳日:2023-12-12 21:08:32 公開日:2023-12-08
# Apparate: MLにおける遅延スルートテンションの早期排除について

Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in ML Serving ( http://arxiv.org/abs/2312.05385v1 )

ライセンス: Link先を確認
Yinwei Dai, Rui Pan, Anand Iyer, Kai Li, Ravi Netravali(参考訳) マシンラーニング(ml)推論プラットフォームは、多くのリクエストに対して高いスループットを保証することと、インタラクティブなアプリケーションをサポートするために低レイテンシのレスポンスを提供することという、2つの競合する目標のバランスを担います。 残念なことに、既存のプラットフォームノブ(バッチサイズなど)は、この基本的な緊張を和らげることができず、一方のプロパティを他方と厳格にトレードオフできるのみである。 本稿では,推論を行う粒度を変化させることでスループット-レイテンシトレードオフに取り組むための代替戦略について検討する。 本稿では,MLモデルにおける早期出口(EE)を自動的に適用し,管理するシステムであるApparateについて述べる。 eeがもたらした時間的なオーバーヘッドと正確さの課題に対処するため、apparateはエグジットを再利用して、いくつかの新しいランタイム監視と適応戦略を駆動する継続的なフィードバックを提供する。 CVおよびNLPワークロードの中央値応答遅延を40.5-91.5%と10.0-24.2%に下げる。

Machine learning (ML) inference platforms are tasked with balancing two competing goals: ensuring high throughput given many requests, and delivering low-latency responses to support interactive applications. Unfortunately, existing platform knobs (e.g., batch sizes) fail to ease this fundamental tension, and instead only enable users to harshly trade off one property for the other. This paper explores an alternate strategy to taming throughput-latency tradeoffs by changing the granularity at which inference is performed. We present Apparate, a system that automatically applies and manages early exits (EEs) in ML models, whereby certain inputs can exit with results at intermediate layers. To cope with the time-varying overhead and accuracy challenges that EEs bring, Apparate repurposes exits to provide continual feedback that powers several novel runtime monitoring and adaptation strategies. Apparate lowers median response latencies by 40.5-91.5% and 10.0-24.2% for diverse CV and NLP workloads, respectively, without affecting throughputs or violating tight accuracy constraints.
翻訳日:2023-12-12 21:08:09 公開日:2023-12-08
# 連続時間パラメータ線形系の有限サンプル同定

Finite-sample Identification of Continuous-time Parameter-linear Systems ( http://arxiv.org/abs/2312.05382v1 )

ライセンス: Link先を確認
Simon Kuang, Xinfan Lin(参考訳) 通常の微分方程式に適合するために、雑音を区別する離散的な測定は、合理的に有効である。 二乗可積分ノイズと最小流れ正則性を仮定し,連続時間パラメータ線形系の有限差分微分フィルタとチホノフ正規化最小二乗推定器を構築し解析する。 これらの寄与を直列に組み合わせることで,推定の平均絶対誤差に基づく有限サンプル境界を得る。 副産物として, 確率的に摂動するムーア・ペンローズ擬逆解析法を提案する。

Differentiating noisy, discrete measurements in order to fit an ordinary differential equation can be unreasonably effective. Assuming square-integrable noise and minimal flow regularity, we construct and analyze a finite-difference differentiation filter and a Tikhonov-regularized least squares estimator for the continuous-time parameter-linear system. Combining these contributions in series, we obtain a finite-sample bound on mean absolute error of estimation. As a by-product, we offer a novel analysis of stochastically perturbed Moore-Penrose pseudoinverses.
翻訳日:2023-12-12 21:07:47 公開日:2023-12-08
# 雑音ラベルを用いたカリキュラム学習による強化学習におけるパリティ課題の探索

Exploring Parity Challenges in Reinforcement Learning through Curriculum Learning with Noisy Labels ( http://arxiv.org/abs/2312.05379v1 )

ライセンス: Link先を確認
Bei Zhou, Soren Riis(参考訳) 本稿では,戦略ゲームにおける強化学習(rl)の適用について,特にgoとチェスの特定の位置やより広い範囲の公平なゲームに見られるように,パリティチャレンジを特徴とするものについて述べる。 本研究では,カリキュラム学習フレームワーク内に構築され,ノイズラベルを付加したシミュレーション学習プロセスを提案し,自己学習シナリオの複雑さを反映する。 このアプローチは、ニューラルネットワーク(nn)が初等から複雑化するゲームポジションへの適応と進化を徹底的に分析する。 実験の結果,最小限のラベルノイズでもnnsの効果的な戦略を識別する能力は著しく阻害され,ゲーム位置の複雑さが増すにつれて難易度が高まることがわかった。 これらの知見は, 騒音評価による障害に対応するため, RLトレーニングにおける高度な方法論の必要性を浮き彫りにした。 このような手法の開発は、重要なパリティ要素を持つ戦略ゲームにおけるNN能力の向上だけでなく、多様な複雑な環境におけるRLシステムのレジリエンスと効率の向上にも不可欠である。

This paper delves into applying reinforcement learning (RL) in strategy games, particularly those characterized by parity challenges, as seen in specific positions of Go and Chess and a broader range of impartial games. We propose a simulated learning process, structured within a curriculum learning framework and augmented with noisy labels, to mirror the intricacies of self-play learning scenarios. This approach thoroughly analyses how neural networks (NNs) adapt and evolve from elementary to increasingly complex game positions. Our empirical research indicates that even minimal label noise can significantly impede NNs' ability to discern effective strategies, a difficulty that intensifies with the growing complexity of the game positions. These findings underscore the urgent need for advanced methodologies in RL training, specifically tailored to counter the obstacles imposed by noisy evaluations. The development of such methodologies is crucial not only for enhancing NN proficiency in strategy games with significant parity elements but also for broadening the resilience and efficiency of RL systems across diverse and complex environments.
翻訳日:2023-12-12 21:07:37 公開日:2023-12-08
# 量子熱機関における純脱落の熱力学的コスト:有限パワーにおける準静電効率

The Thermodynamic Costs of Pure Dephasing in Quantum Heat Engines: Quasistatic Efficiency at Finite Power ( http://arxiv.org/abs/2312.05375v1 )

ライセンス: Link先を確認
Raphael Weber, Susana F. Huelga, Martin B. Plenio(参考訳) 量子熱エンジンは準定常条件下での最適効率を達成すると考えられている。 しかし、有限の力で走ると、コヒーレンスの発生とエネルギー固有状態間の遷移により、効果的に摩擦する。 外部制御方式や適切な消音ノイズを用いて量子熱エンジンのパワーを増加させることが可能であることが注目された。 本稿では, 数値的および解析的手法を用いて, ノイズの低減に伴う熱力学的コストについて検討する。 その結果, 熱浴から疲労浴へ熱が流れ込むため, 一般的に熱力学的コストは発生しないことが明らかとなった。 これらの貢献はエンジン全体の効率を決定する際に適切に説明されなければならない。 興味深いことに、これらのコストが無視できる特定の作業体制を特定し、量子熱エンジンが任意のパワーでサイクル当たりの効率で動作可能であることを示す。

Quantum heat engines are commonly believed to achieve their optimal efficiency when operated under quasi-static conditions. However, when running at finite power, they suffer effective friction due to the generation of coherences and transitions between energy eigenstates. It was noted that it is possible to increase the power of a quantum heat engine using external control schemes or suitable dephasing noise. Here, we investigate the thermodynamic cost associated with dephasing noise schemes using both numerical and analytical methods. Our findings unveil that the observed gain in power is generally not free of thermodynamic costs, as it involves heat flows from thermal baths into the dephasing bath. These contributions must be duly accounted for when determining the engine's overall efficiency. Interestingly, we identify a particular working regime where these costs become negligible, demonstrating that quantum heat engines can be operated at any power with an efficiency per cycle that approaches arbitrarily closely that under quasistatic operation.
翻訳日:2023-12-12 21:07:17 公開日:2023-12-08
# テキスト音声合成のためのWavLMとBEST-RQを組み合わせたフレームワークの検討

An Experimental Study: Assessing the Combined Framework of WavLM and BEST-RQ for Text-to-Speech Synthesis ( http://arxiv.org/abs/2312.05415v1 )

ライセンス: Link先を確認
Via Nielson, Steven Hillis(参考訳) テキスト音声(TTS)モデルに適した新しいモデルアーキテクチャを提案する。 我々は,事前訓練された自己教師付き学習(SSL)音声モデルであるWavLMと,BEST-RQベクトル量子化フレームワークを組み合わせた。 よりタスクに依存しないWavLMと、より広範囲の下流タスクに対する単純化されたBEST-RQフレームワークの適合性が相まって、良好な結果が得られるかを評価する。 SUPERBベンチマークによるLibriSpeechデータセットの実験では、提案モデルの性能は著しく低下している。 この性能の根底にある理由は、生音声波形と量子化器を用いた分光器との相違にあると推測する。 TTSの今後の進歩を導くため,本手法の限界について論じる。

We propose a new model architecture specifically suited for text-to-speech (TTS) models. We combine WavLM, a pre-trained self-supervised learning (SSL) speech model, and the BEST-RQ vector quantization framework. We assess the extent to which the more task-agnostic WavLM, coupled with the superior suitability of the simplistic BEST-RQ framework for a wider array of downstream tasks, yields favorable outcomes. Experiments on the LibriSpeech dataset with SUPERB benchmarking assert that the proposed model significantly underperforms. We speculate the underlying reason for this performance is related to the difference between featurizing raw audio waveforms and spectrograms with a quantizer. We discuss the limitations of this approach to better guide future advancements in TTS.
翻訳日:2023-12-12 20:57:35 公開日:2023-12-08
# cmmd:ビデオ音声条件モデルのためのコントラストマルチモーダル拡散

CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling ( http://arxiv.org/abs/2312.05412v1 )

ライセンス: Link先を確認
Ruihan Yang, Hannes Gamper, Sebastian Braun(参考訳) ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。 マルチモーダル生成タスクにおける映像イベントと音声イベントの正確なアライメントの重要性を認識し,視覚と聴覚の同期性を高めるためのコントラスト学習ロスを提案する。 提案手法は,提案モデルの有効性を徹底的に評価するために,複数のデータセットに関する総合的な実験を行う。 様々な角度から生成品質とアライメント性能の評価を行い、客観的指標と主観的指標の両方を包含する。 本研究は,提案モデルがベースラインを上回り,その有効性と効率性を実証した。 特に,特に高相関映像音声生成タスクにおいて,コントラスト損失の取り込みにより音声・視覚アライメントが向上する。 これらの結果から,提案モデルがマルチモーダル生成の品質向上とアライメント向上のためのロバストなソリューションである可能性が示唆され,映像および音声条件生成システムの進歩に寄与した。

We introduce a multi-modal diffusion model tailored for the bi-directional conditional generation of video and audio. Recognizing the importance of accurate alignment between video and audio events in multi-modal generation tasks, we propose a joint contrastive training loss to enhance the synchronization between visual and auditory occurrences. Our research methodology involves conducting comprehensive experiments on multiple datasets to thoroughly evaluate the efficacy of our proposed model. The assessment of generation quality and alignment performance is carried out from various angles, encompassing both objective and subjective metrics. Our findings demonstrate that the proposed model outperforms the baseline, substantiating its effectiveness and efficiency. Notably, the incorporation of the contrastive loss results in improvements in audio-visual alignment, particularly in the high-correlation video-to-audio generation task. These results indicate the potential of our proposed model as a robust solution for improving the quality and alignment of multi-modal generation, thereby contributing to the advancement of video and audio conditional generation systems.
翻訳日:2023-12-12 20:57:20 公開日:2023-12-08
# 深部ベイズ因子

Deep Bayes Factors ( http://arxiv.org/abs/2312.05411v1 )

ライセンス: Link先を確認
Jungeum Kim and Veronika Rockova(参考訳) これはベイズ因子と同じくらい広く使われているベイズ統計学における他のモデルや仮説検証ツールではない。 確率のない生成モデルに焦点をあて、従ってベイズ因子(正準確率比)の計算は明らかになっていない。 確率比法を用いて2つの競合モデルのシミュレーションデータに基づくベイズ係数の深層学習推定器を提案する。 この推定器は要約統計を欠き、ABCモデル選択の難しさのいくつかを排除している。 我々は,Deep Bayes Factor 推定器の整合性およびモデル選択ツールとしての整合性について十分な条件を確立する。 本研究では,推定とモデル決定精度に関する幅広い品質指標を用いて,様々な実例における推定器の性能について検討した。 学習後,我々はベイズ因子推定器を,観測データであるY_0$だけでなく,いずれかの仮説モデルから到着した架空のデータに対して迅速に評価することが可能となる。 これにより、2つのモデルの下でベイズ因子の分布全体を検査し、これらの分布からベイズ因子の相対的な位置を$Y_0$で評価することができる。 このような尾部評価はベイズ係数推定器が$Y_0$に調整する場合には不可能である。 我々は,確率関数の知識を必要とする既存のmcmc技術と競合する深いベイズ因子の性能を見出した。 また,背後および内在的ベイズ因子推定の変種についても検討する。 認知バイアスを決定するための比較的高次元実データ例に対して,本手法の有用性を示す。

The is no other model or hypothesis verification tool in Bayesian statistics that is as widely used as the Bayes factor. We focus on generative models that are likelihood-free and, therefore, render the computation of Bayes factors (marginal likelihood ratios) far from obvious. We propose a deep learning estimator of the Bayes factor based on simulated data from two competing models using the likelihood ratio trick. This estimator is devoid of summary statistics and obviates some of the difficulties with ABC model choice. We establish sufficient conditions for consistency of our Deep Bayes Factor estimator as well as its consistency as a model selection tool. We investigate the performance of our estimator on various examples using a wide range of quality metrics related to estimation and model decision accuracy. After training, our deep learning approach enables rapid evaluations of the Bayes factor estimator at any fictional data arriving from either hypothesized model, not just the observed data $Y_0$. This allows us to inspect entire Bayes factor distributions under the two models and to quantify the relative location of the Bayes factor evaluated at $Y_0$ in light of these distributions. Such tail area evaluations are not possible for Bayes factor estimators tailored to $Y_0$. We find the performance of our Deep Bayes Factors competitive with existing MCMC techniques that require the knowledge of the likelihood function. We also consider variants for posterior or intrinsic Bayes factors estimation. We demonstrate the usefulness of our approach on a relatively high-dimensional real data example about determining cognitive biases.
翻訳日:2023-12-12 20:57:02 公開日:2023-12-08
# 再考する材料シミュレーション:ニューラル演算子を用いた直接数値シミュレーション

Rethinking materials simulations: Blending direct numerical simulations with neural operators ( http://arxiv.org/abs/2312.05410v1 )

ライセンス: Link先を確認
Vivek Oommen, Khemraj Shukla, Saaketh Desai, Remi Dingreville, George Em Karniadakis(参考訳) 直接数値シミュレーション(DNS)は、基礎となる進化方程式の複雑さ、マルチスケールの時空間相互作用の性質、長期の統合の必要性により、時間スケールの材料進化を予測するのに正確だが計算コストがかかる。 このようなシミュレーションを高速化するために,数値解法とニューラルネットワークをブレンドする新しい手法を開発した。 本手法は, コミュニティ数値解法とu-netニューラルネットワークの統合を基礎とし, 正確な外挿と効率的な解法予測を可能にする時間条件機構により拡張した。 相場法による物理気相沈着過程の微構造変化シミュレーションにおける本フレームワークの有効性を実証する。 このようなシミュレーションは、遅い物質と速い物質が同時進行する異なる物質相の共進化によって高い空間勾配を示す。 DNSと比較して最大16.5$\times$スピードアップで結合した解の正確な外挿を確立する。 この方法論は、固体力学、流体力学、地球物理学、気候など、幅広い進化モデルに一般化することができる。

Direct numerical simulations (DNS) are accurate but computationally expensive for predicting materials evolution across timescales, due to the complexity of the underlying evolution equations, the nature of multiscale spatio-temporal interactions, and the need to reach long-time integration. We develop a new method that blends numerical solvers with neural operators to accelerate such simulations. This methodology is based on the integration of a community numerical solver with a U-Net neural operator, enhanced by a temporal-conditioning mechanism that enables accurate extrapolation and efficient time-to-solution predictions of the dynamics. We demonstrate the effectiveness of this framework on simulations of microstructure evolution during physical vapor deposition modeled via the phase-field method. Such simulations exhibit high spatial gradients due to the co-evolution of different material phases with simultaneous slow and fast materials dynamics. We establish accurate extrapolation of the coupled solver with up to 16.5$\times$ speed-up compared to DNS. This methodology is generalizable to a broad range of evolutionary models, from solid mechanics, to fluid dynamics, geophysics, climate, and more.
翻訳日:2023-12-12 20:56:42 公開日:2023-12-08
# ウェアラブルバイオシグナールの基礎モデルの大規模学習

Large-scale Training of Foundation Models for Wearable Biosignals ( http://arxiv.org/abs/2312.05409v1 )

ライセンス: Link先を確認
Salar Abbaspourazad, Oussama Elachqar, Andrew C. Miller, Saba Emrani, Udhyakumar Nallasamy, Ian Shapiro(参考訳) バイオシグナーの追跡は、健康の監視と重度の医療疾患の予防に不可欠である。 今日では、ウェアラブルデバイスは様々な生体信号を記録するのに便利であり、日常の習慣を乱すことなく健康状態を監視することができる。 ウェアラブルデバイスや既存のデジタルバイオマーカーが広く使用されているにもかかわらず、注釈付き医療ラベルによるキュレートされたデータがないことは、一般的な健康状態を測定するための新しいバイオマーカーの開発を妨げる。 実際、医療データセットは、他の領域と比較して通常小さく、生体信号のためのニューラルネットワークモデルを開発する上で障害となる。 この課題に対処するために,大縦型apple heart and movement study (ahms) からインフォームドコンセントで収集されたラベル付きセンサデータを用いて自己教師付き学習を行い,apple watchに記録された2つの共通生体信号であるphotoplethysmography (ppg) と心電図 (ecg) の基礎モデルを訓練した。 約3年間の約141Kの参加者のデータを含むAPGとECGデータセットをAHMSから収集した。 自己教師付き学習フレームワークには, 参加者レベルの正のペア選択, 確率的拡張モジュール, 運動量トレーニングに最適化された正規化コントラスト損失が含まれ, ppg と ecg のモダリティをよく一般化する。 事前学習された基礎モデルは,参加者の人口動態や健康状態に関する情報を容易にエンコードできることを示す。 我々の知る限り、この研究はウェアラブル・コンシューマー・デバイスを介して収集された大規模PSGおよびECGデータを用いて基礎モデルを構築する最初の研究である。 PPGとECGファウンデーションモデルは、ラベル付きデータへの依存を減らし、ユーザの健康改善を支援する可能性を秘めることで、将来のウェアラブルデバイスを強化することができると考えています。

Tracking biosignals is crucial for monitoring wellness and preempting the development of severe medical conditions. Today, wearable devices can conveniently record various biosignals, creating the opportunity to monitor health status without disruption to one's daily routine. Despite widespread use of wearable devices and existing digital biomarkers, the absence of curated data with annotated medical labels hinders the development of new biomarkers to measure common health conditions. In fact, medical datasets are usually small in comparison to other domains, which is an obstacle for developing neural network models for biosignals. To address this challenge, we have employed self-supervised learning using the unlabeled sensor data collected under informed consent from the large longitudinal Apple Heart and Movement Study (AHMS) to train foundation models for two common biosignals: photoplethysmography (PPG) and electrocardiogram (ECG) recorded on Apple Watch. We curated PPG and ECG datasets from AHMS that include data from ~141K participants spanning ~3 years. Our self-supervised learning framework includes participant level positive pair selection, stochastic augmentation module and a regularized contrastive loss optimized with momentum training, and generalizes well to both PPG and ECG modalities. We show that the pre-trained foundation models readily encode information regarding participants' demographics and health conditions. To the best of our knowledge, this is the first study that builds foundation models using large-scale PPG and ECG data collected via wearable consumer devices $\unicode{x2013}$ prior works have commonly used smaller-size datasets collected in clinical and experimental settings. We believe PPG and ECG foundation models can enhance future wearable devices by reducing the reliance on labeled data and hold the potential to help the users improve their health.
翻訳日:2023-12-12 20:56:26 公開日:2023-12-08
# アクティブラーニングガイド付きオンライン適応:医療画像セグメンテーションへの応用

Active Learning Guided Federated Online Adaptation: Applications in Medical Image Segmentation ( http://arxiv.org/abs/2312.05407v1 )

ライセンス: Link先を確認
Md Shazid Islam, Sayak Nag, Arindam Dutta, Miraj Ahmed, Fahim Faisal Niloy, Amit K.Roy-Chowdhury(参考訳) データプライバシ、ストレージ、分散シフトは、医療画像解析の主要なボトルネックである。 プライバシ上の懸念から、データは患者、医師、施設間で共有することはできない。 しかし, 医療施設にまたがる知識の蓄積を生かして, 医師のフィードバックを取り入れつつ, ますます多くの患者のデータを分析し, 正確性の向上を図りたい。 そこで本研究では,各入力データバッチ(オンライン適応)に適応し,アクティブラーニングによる医師のフィードバックを取り入れ,施設間での知識の同一化を行う医用画像分割手法を提案する。 テスト時のオンライン適応スキームと効率的なサンプリング戦略と予算付きアノテーションを組み合わせることで、ターゲットドメインデータのソースと受信ストリームのギャップを埋めることができる。 フェデレーション設定は、異なるモデル間でデータを共有することなく、異なる分散モデル間の知識の協調的な集約を可能にする。 これにより、ユーザ間で知識を蓄積することで、時間とともにパフォーマンスの向上が促進される。 これらの目標を達成するために,フェデレーション学習を用いてオンラインにモデルを適用し,医師からのフィードバックをループに反映する,計算能力の高いプライバシー保全型イメージセグメンテーション手法である \textbf{drfroda} を提案する。 公開データセットを用いた実験では,提案手法が教師なしオンライン適応法を上回っており,オフラインアクティブラーニングに基づく適応法と競合する結果を示す。

Data privacy, storage, and distribution shifts are major bottlenecks in medical image analysis. Data cannot be shared across patients, physicians, and facilities due to privacy concerns, usually requiring each patient's data to be analyzed in a discreet setting at a near real-time pace. However, one would like to take advantage of the accumulated knowledge across healthcare facilities as the computational systems analyze data of more and more patients while incorporating feedback provided by physicians to improve accuracy. Motivated by these, we propose a method for medical image segmentation that adapts to each incoming data batch (online adaptation), incorporates physician feedback through active learning, and assimilates knowledge across facilities in a federated setup. Combining an online adaptation scheme at test time with an efficient sampling strategy with budgeted annotation helps bridge the gap between the source and the incoming stream of target domain data. A federated setup allows collaborative aggregation of knowledge across distinct distributed models without needing to share the data across different models. This facilitates the improvement of performance over time by accumulating knowledge across users. Towards achieving these goals, we propose a computationally amicable, privacy-preserving image segmentation technique \textbf{DrFRODA} that uses federated learning to adapt the model in an online manner with feedback from doctors in the loop. Our experiments on publicly available datasets show that the proposed distributed active learning-based online adaptation method outperforms unsupervised online adaptation methods and shows competitive results with offline active learning-based adaptation methods.
翻訳日:2023-12-12 20:55:52 公開日:2023-12-08
# ディープフェイク検出モデルを用いたeXplainable AI評価のための逆攻撃手法

An adversarial attack approach for eXplainable AI evaluation on deepfake detection models ( http://arxiv.org/abs/2312.06627v1 )

ライセンス: Link先を確認
Balachandar Gowrisankar, Vrizlynn L.L. Thing(参考訳) モデルの解釈可能性に対する懸念が高まっているため、ディープフェイク検出モデルへのeXplainable AI(XAI)ツールの適用が近年関心を集めている。 画像分類タスクでは、XAIツールはモデルが与える決定に影響を与えるピクセルをハイライトする。 これにより、モデルのトラブルシュートやパラメータのさらなるチューニングが必要な領域の決定に役立ちます。 様々なツールが市場に出回っているため、モデルに適したツールを選択する必要がある。 さまざまなツールを評価し、その中の最高のパフォーマンスを決定する必要があります。 汎用的なxai評価手法であるsaient pixels/segmentsの挿入や削除は一般的な画像分類タスクに適用できるが、機能上、deepfake検出モデルに適用すると意味の薄い結果をもたらす可能性がある。 本稿では,汎用的なxai評価手法がディープフェイク検出モデルには適さないことを示す実験を行う。 また,深度検出モデルに適したXAI評価手法を提案し,実装した。

With the rising concern on model interpretability, the application of eXplainable AI (XAI) tools on deepfake detection models has been a topic of interest recently. In image classification tasks, XAI tools highlight pixels influencing the decision given by a model. This helps in troubleshooting the model and determining areas that may require further tuning of parameters. With a wide range of tools available in the market, choosing the right tool for a model becomes necessary as each one may highlight different sets of pixels for a given image. There is a need to evaluate different tools and decide the best performing ones among them. Generic XAI evaluation methods like insertion or removal of salient pixels/segments are applicable for general image classification tasks but may produce less meaningful results when applied on deepfake detection models due to their functionality. In this paper, we perform experiments to show that generic removal/insertion XAI evaluation methods are not suitable for deepfake detection models. We also propose and implement an XAI evaluation approach specifically suited for deepfake detection models.
翻訳日:2023-12-12 14:18:57 公開日:2023-12-08
# ガウス過程による人口・環境観測からの平均場ゲームデコード

Decoding Mean Field Games from Population and Environment Observations By Gaussian Processes ( http://arxiv.org/abs/2312.06625v1 )

ライセンス: Link先を確認
Jinyan Guo, Chenchen Mou, Xianjin Yang, Chao Zhou(参考訳) 本稿では、平均フィールドゲーム(MFG)における逆問題に対処するため、回帰および分類タスクに対して広く認識されている非パラメトリック手法であるガウス過程(GP)フレームワークを提案する。 gpsを活用することで,エージェントの集団と環境の設定に関する部分的および騒がしい観察から,エージェントの戦略行動と環境構成を回復することを目指している。 本手法は,mfgsにおけるエージェントの挙動を,包括的データセットがアクセス不能あるいはノイズによって汚染された場合のデータから推定する確率的ツールである。

This paper presents a Gaussian Process (GP) framework, a non-parametric technique widely acknowledged for regression and classification tasks, to address inverse problems in mean field games (MFGs). By leveraging GPs, we aim to recover agents' strategic actions and the environment's configurations from partial and noisy observations of the population of agents and the setup of the environment. Our method is a probabilistic tool to infer the behaviors of agents in MFGs from data in scenarios where the comprehensive dataset is either inaccessible or contaminated by noises.
翻訳日:2023-12-12 14:18:40 公開日:2023-12-08
# 近似対称性と量子誤差補正

Approximate symmetries and quantum error correction ( http://arxiv.org/abs/2111.06355v4 )

ライセンス: Link先を確認
Zi-Wen Liu and Sisi Zhou(参考訳) 量子誤差補正(QEC)は、物理学の多くの分野と同様に、量子計算における重要な概念である。 連続対称性とQECの間には根本的な緊張関係がある。 1つの重要な状況は、逆連続対称性の作用(変換)を許容するQEC符号の存在を禁ずるEastin-Knill定理によって展開される。 本稿では,連続対称性とQECの競合を定量的に研究する。 まず、異なる視点から動機付けられた近似対称性の一連の有意義な測度を定義し、次に複数の異なる手法を用いてそれらの間のトレードオフ境界とQEC精度を確立する。 注目すべきことに、この結果は、フォールトトレラント量子計算における重要なトピックである、超実装可能な論理ゲートの一般的な量的制限を導出することができる。 具体的な例として、量子リード・ミュラー符号と熱力学符号から得られた2種類の明示的な量子符号を示し、境界をほぼ飽和させる。 最後に、物理学における結果の潜在的な応用について論じる。

Quantum error correction (QEC) is a key concept in quantum computation as well as many areas of physics. There are fundamental tensions between continuous symmetries and QEC. One vital situation is unfolded by the Eastin--Knill theorem, which forbids the existence of QEC codes that admit transversal continuous symmetry actions (transformations). Here, we systematically study the competition between continuous symmetries and QEC in a quantitative manner. We first define a series of meaningful measures of approximate symmetries motivated from different perspectives, and then establish a series of trade-off bounds between them and QEC accuracy utilizing multiple different methods. Remarkably, the results allow us to derive general quantitative limitations of transversally implementable logical gates, an important topic in fault-tolerant quantum computation. As concrete examples, we showcase two explicit types of quantum codes, obtained from quantum Reed--Muller codes and thermodynamic codes, respectively, that nearly saturate our bounds. Finally, we discuss several potential applications of our results in physics.
翻訳日:2023-12-11 19:46:52 公開日:2023-12-08
# 一般化量子計測による情報抽出

Quantifying Information Extraction using Generalized Quantum Measurements ( http://arxiv.org/abs/2007.07246v5 )

ライセンス: Link先を確認
Dominik \v{S}afr\'anek and Juzar Thingna(参考訳) 観測エントロピーは観測者が系と関連付ける不確実性として解釈される。 これまでのところ、そのような解釈を可能にする性質は理想的な射影測度の仮定に依存している。 一般化された測度を考えると、同じ性質が成り立つことを示す。 観測エントロピーは、与えられた一連の測定がいかに情報抽出に影響を及ぼすかを決定する、明確に定義された量子化子である。 この一般化されたフレームワークは、プローブを用いた間接的な測定方式の性能の研究を可能にする。 この枠組みを用いて,まず有限次元プローブの限界を解析する。 次に、フォン・ノイマン測度スキームのいくつかのシナリオについて検討し、プローブはその位置によって特徴づけられる古典的な粒子である。 最後に、量子状態推論のツールとしての観測エントロピーについて論じる。 さらに開発されたこのフレームワークは、量子情報処理に応用できる。 例えば、量子メモリから最高の読み出し手順を決定するのに役立ち、量子状態トモグラフィーの代わりに適応的な測定戦略を提供する。

Observational entropy is interpreted as the uncertainty an observer making measurements associates with a system. So far, properties that make such an interpretation possible rely on the assumption of ideal projective measurements. We show that the same properties hold even when considering generalized measurements. Thus, the interpretation still holds: Observational entropy is a well-defined quantifier determining how influential a given series of measurements is in information extraction. This generalized framework allows for the study of the performance of indirect measurement schemes, which are those using a probe. Using this framework, we first analyze the limitations of a finite-dimensional probe. Then we study several scenarios of the von Neumann measurement scheme, in which the probe is a classical particle characterized by its position. Finally, we discuss observational entropy as a tool for quantum state inference. Further developed, this framework could find applications in quantum information processing. For example, it could help in determining the best read-out procedures from quantum memories and to provide adaptive measurement strategies alternative to quantum state tomography.
翻訳日:2023-12-11 19:45:16 公開日:2023-12-08
# 量子計算の古典的検証

Classical Verification of Quantum Computations ( http://arxiv.org/abs/1804.01082v3 )

ライセンス: Link先を確認
Urmila Mahadev(参考訳) 古典的コンピュータが効率的な量子計算の結果を対話的に検証できる最初のプロトコルを提案する。 従来の検証者が信頼できる測定装置として量子証明器を使用できる計測プロトコルを構築してこれを実現する。 証明者は自分の選択した n キュービットの状態を構築し、検証者によって指示されたアダマールまたは標準基底における各キュービットを測定し、測定結果を検証者に報告しなければならない。 このプロトコルの健全性は、エラーのある学習は効率的な量子マシンでは計算が難しいという仮定に基づいている。

We present the first protocol allowing a classical computer to interactively verify the result of an efficient quantum computation. We achieve this by constructing a measurement protocol, which enables a classical verifier to use a quantum prover as a trusted measurement device. The protocol forces the prover to behave as follows: the prover must construct an n qubit state of his choice, measure each qubit in the Hadamard or standard basis as directed by the verifier, and report the measurement results to the verifier. The soundness of this protocol is enforced based on the assumption that the learning with errors problem is computationally intractable for efficient quantum machines.
翻訳日:2023-12-11 19:44:34 公開日:2023-12-08
# 量子回路の古典的ホモモルフィック暗号化

Classical Homomorphic Encryption for Quantum Circuits ( http://arxiv.org/abs/1708.02130v5 )

ライセンス: Link先を確認
Urmila Mahadev(参考訳) 量子回路における古典鍵を用いた完全同型暗号方式について述べる。 このスキームにより、古典的なクライアントは量子計算を量子サーバーに盲目的に委譲することができる: 正直なサーバは計算を実行でき、悪意のあるサーバは計算に関する情報を学べない。 このようなスキームを、特定の性質を持つ量子セキュアな古典的同型暗号スキームから直接構築できることを示す。 最後に,所要特性を持つ古典的同型暗号スキームは,誤り問題による学習から構築可能であることを示す。

We present the first leveled fully homomorphic encryption scheme for quantum circuits with classical keys. The scheme allows a classical client to blindly delegate a quantum computation to a quantum server: an honest server is able to run the computation while a malicious server is unable to learn any information about the computation. We show that it is possible to construct such a scheme directly from a quantum secure classical homomorphic encryption scheme with certain properties. Finally, we show that a classical homomorphic encryption scheme with the required properties can be constructed from the learning with errors problem.
翻訳日:2023-12-11 19:44:22 公開日:2023-12-08
# Z-BERT-A:未知物体検出のためのゼロショットパイプライン

Z-BERT-A: a zero-shot Pipeline for Unknown Intent detection ( http://arxiv.org/abs/2208.07084v3 )

ライセンス: Link先を確認
Daniele Comi, Dimitrios Christofidellis, Pier Francesco Piazza and Matteo Manica(参考訳) インテント発見は自然言語処理において重要なタスクであり、様々な産業応用に益々関係している。 ユーザ入力から新規で目に見えないインテントを特定することは、この分野で最大の課題の1つです。 本稿では,トランスフォーマーアーキテクチャに基づく多言語インテント発見のための2段階法であるzero-shot-bert-adaptersを提案する。 自然言語推論モデル(NLI)を訓練し、後に複数の言語に対してゼロショット設定で未知の意図分類を行う。 本評価では,既知のクラスにおける適応的微調整後,まずモデル品質を分析する。 次に,NLIタスクとしてキャスティング意図分類の性能を評価する。 最後に,unseenクラス上でモデルのゼロショット性能をテストし,ゼロショットベルト適応器が意味的に類似したインテントを生成してインテント発見を効果的に行う方法を示した。 実験の結果,Zero-Shot-BERT-Adaptersは2つのゼロショットセッティングにおいて,様々なベースラインよりも優れていることがわかった。 提案するパイプラインは,広範なカスタマケア応用の可能性を持っている。 これは、大きな言語モデルとは異なり、さまざまなビジネスシナリオで容易にデプロイおよびスケールできる軽量モデルを使用して、動的トリアージを自動化する。 Zero-Shot-BERT-Adaptersは、意図発見のための革新的な多言語アプローチであり、新しい意図のオンライン生成を可能にする。 パイプラインを実装したPythonパッケージと、私たちがコンパイルした新しいデータセットは、以下のリンクで利用できる。

Intent discovery is a crucial task in natural language processing, and it is increasingly relevant for various of industrial applications. Identifying novel, unseen intents from user inputs remains one of the biggest challenges in this field. Herein, we propose Zero-Shot-BERT-Adapters, a two-stage method for multilingual intent discovery relying on a Transformer architecture, fine-tuned with Adapters. We train the model for Natural Language Inference (NLI) and later perform unknown intent classification in a zero-shot setting for multiple languages. In our evaluation, we first analyze the quality of the model after adaptive fine-tuning on known classes. Secondly, we evaluate its performance in casting intent classification as an NLI task. Lastly, we test the zero-shot performance of the model on unseen classes, showing how Zero-Shot-BERT-Adapters can effectively perform intent discovery by generating semantically similar intents, if not equal, to the ground-truth ones. Our experiments show how Zero-Shot-BERT-Adapters outperforms various baselines in two zero-shot settings: known intent classification and unseen intent discovery. The proposed pipeline holds the potential for broad application in customer care. It enables automated dynamic triage using a lightweight model that can be easily deployed and scaled in various business scenarios, unlike large language models. Zero-Shot-BERT-Adapters represents an innovative multi-language approach for intent discovery, enabling the online generation of novel intents. A Python package implementing the pipeline and the new datasets we compiled are available at the following link: https://github.com/GT4SD/zero-shot-bert-adapters.
翻訳日:2023-12-11 19:40:35 公開日:2023-12-08
# 画像品質評価: モデル中心とデータ中心のアプローチの統合

Image Quality Assessment: Integrating Model-Centric and Data-Centric Approaches ( http://arxiv.org/abs/2207.14769v2 )

ライセンス: Link先を確認
Peibei Cao, Dingquan Li, and Kede Ma(参考訳) 学習ベースの画像品質評価(iqa)は過去10年間で著しく進歩したが、ほぼ全員が、モデルとデータという2つの重要なコンポーネントを分離している。 具体的には、モデル中心のIQAは、修正および広範囲に再利用されたデータセットに対する‘better’の客観的な品質手法の開発に重点を置いている。 データ中心のIQAは、“‘better’’という人間の注釈付きデータセットを構築するための心理物理学的な実験を行う。 本稿では,モデルとデータの分離がIQAのさらなる進歩を妨げることを計算学的に探索する一連の実験を最初に設計する。 次に、モデル中心およびデータ中心IQAを統合する計算フレームワークについて述べる。 具体的な例として,候補画像のサンプリング適性を定量化するための計算モジュールを設計した。 実験結果から,提案モジュールは,次世代データセットに含まれる価値のあるサンプルである,検査対象のIQAモデルの多種多様な故障を検出できた。

Learning-based image quality assessment (IQA) has made remarkable progress in the past decade, but nearly all consider the two key components -- model and data -- in isolation. Specifically, model-centric IQA focuses on developing ``better'' objective quality methods on fixed and extensively reused datasets, with a great danger of overfitting. Data-centric IQA involves conducting psychophysical experiments to construct ``better'' human-annotated datasets, which unfortunately ignores current IQA models during dataset creation. In this paper, we first design a series of experiments to probe computationally that such isolation of model and data impedes further progress of IQA. We then describe a computational framework that integrates model-centric and data-centric IQA. As a specific example, we design computational modules to quantify the sampling-worthiness of candidate images. Experimental results show that the proposed sampling-worthiness module successfully spots diverse failures of the examined blind IQA models, which are indeed worthy samples to be included in next-generation datasets.
翻訳日:2023-12-11 19:40:09 公開日:2023-12-08
# ブラインド顔復元のためのニューラルネットワークによるマルチパラメータ学習

Multi-Prior Learning via Neural Architecture Search for Blind Face Restoration ( http://arxiv.org/abs/2206.13962v2 )

ライセンス: Link先を確認
Yanjiang Yu, Puyang Zhang, Kaihao Zhang, Wenhan Luo, Changsheng Li, Ye Yuan, Guoren Wang(参考訳) Blind Face Restoration (BFR)は、低品質の顔画像から高品質な顔画像を復元することを目的としている。 しかし、現在の手法は2つの大きな困難を抱えている。 1) 大規模ハンドチューニングを伴わない強力なネットワークアーキテクチャの導出方法 2) 複数の顔前兆から補完情報を1つのネットワークで取得して復元性能を向上させる方法。 そこで本研究では,特定の検索空間内で適切な特徴抽出アーキテクチャを適応的に探索する顔復元検索ネットワーク(frsnet)を提案する。 frsnetを基盤として,マルチプライオリエント学習方式による複数顔先行探索ネットワーク(mfpsnet)を更に設計する。 mfpsnetは、多様な顔からの情報を最適に抽出し、その情報を画像特徴に融合し、外部ガイダンスと内部特徴の両方が保存されるようにする。 このようにして、MFPSNetは意味レベル(パーシングマップ)、幾何学レベル(顔熱マップ)、参照レベル(顔辞書)、ピクセルレベル(劣化画像)の情報を完全に活用し、忠実でリアルな画像を生成する。 定量的および定性的実験により、MFPSNetは最先端のBFR法に対して、合成データセットと実世界のデータセットの両方で好適に機能することが示された。 コードはhttps://github.com/YYJ1anG/MFPSNet.comで公開されている。

Blind Face Restoration (BFR) aims to recover high-quality face images from low-quality ones and usually resorts to facial priors for improving restoration performance. However, current methods still suffer from two major difficulties: 1) how to derive a powerful network architecture without extensive hand tuning; 2) how to capture complementary information from multiple facial priors in one network to improve restoration performance. To this end, we propose a Face Restoration Searching Network (FRSNet) to adaptively search the suitable feature extraction architecture within our specified search space, which can directly contribute to the restoration quality. On the basis of FRSNet, we further design our Multiple Facial Prior Searching Network (MFPSNet) with a multi-prior learning scheme. MFPSNet optimally extracts information from diverse facial priors and fuses the information into image features, ensuring that both external guidance and internal features are reserved. In this way, MFPSNet takes full advantage of semantic-level (parsing maps), geometric-level (facial heatmaps), reference-level (facial dictionaries) and pixel-level (degraded images) information and thus generates faithful and realistic images. Quantitative and qualitative experiments show that MFPSNet performs favorably on both synthetic and real-world datasets against the state-of-the-art BFR methods. The codes are publicly available at: https://github.com/YYJ1anG/MFPSNet.
翻訳日:2023-12-11 19:39:49 公開日:2023-12-08
# 多周波数共同コミュニティ検出と位相同期

Multi-Frequency Joint Community Detection and Phase Synchronization ( http://arxiv.org/abs/2206.12276v3 )

ライセンス: Link先を確認
Lingda Wang and Zhizhen Zhao(参考訳) 本稿では,各ノードが未知の位相角に関連付けられているような,相対位相付きtextit{stochastic block modelにおける共同コミュニティ検出と位相同期問題について検討する。 この問題は、様々な実世界の応用で、クラスタ構造と関連する位相角を同時に回復することを目的としている。 この問題は, 最大推定値 (MLE) の定式化を徹底的に検討することで, textit{``multi- frequency''} 構造を示すが, 既存の手法はこの観点からは導出されていない。 この目的のために、mleの定式化を活用し、複数の周波数にまたがる情報から恩恵を受ける2つの単純かつ効率的なアルゴリズムを提案する。 前者は、新しい多周波カラム分割qr因子分解に基づくスペクトル法である。 観測行列のトップ固有ベクトルに適用された分解は、クラスター構造と関連する位相角に関する重要な情報を提供する。 第二のアプローチは反復的多周波一般化電力法であり、各反復は行列乗算-テーン射影法で推定を更新する。 数値実験により,提案手法は,最先端のアルゴリズムと比較して,クラスタ構造を正確に復元する能力と推定位相角の精度が有意に向上することを示した。

This paper studies the joint community detection and phase synchronization problem on the \textit{stochastic block model with relative phase}, where each node is associated with an unknown phase angle. This problem, with a variety of real-world applications, aims to recover the cluster structure and associated phase angles simultaneously. We show this problem exhibits a \textit{``multi-frequency''} structure by closely examining its maximum likelihood estimation (MLE) formulation, whereas existing methods are not originated from this perspective. To this end, two simple yet efficient algorithms that leverage the MLE formulation and benefit from the information across multiple frequencies are proposed. The former is a spectral method based on the novel multi-frequency column-pivoted QR factorization. The factorization applied to the top eigenvectors of the observation matrix provides key information about the cluster structure and associated phase angles. The second approach is an iterative multi-frequency generalized power method, where each iteration updates the estimation in a matrix-multiplication-then-projection manner. Numerical experiments show that our proposed algorithms significantly improve the ability of exactly recovering the cluster structure and the accuracy of the estimated phase angles, compared to state-of-the-art algorithms.
翻訳日:2023-12-11 19:39:24 公開日:2023-12-08
# 1次元可逆状態における$G$-charge Thoulessポンプの分類

A classification of $G$-charge Thouless pumps in 1D invertible states ( http://arxiv.org/abs/2204.03763v2 )

ライセンス: Link先を確認
Sven Bachmann, Wojciech De Roeck, Martin Fraas and Tijl Jappens(参考訳) 近年、対称性保護トポロジカル(SPT)量子状態の巡回過程を分類する理論が提案されている。 スピン鎖、すなわち 1 次元ボソニック SPT の場合、この理論は循環過程が 0 次元 SPT によって分類されることを意味する。 これはThoulessポンプの一般化としてしばしば説明され、元々のThoulessポンプは対称性群が$U(1)$で、ポンプはサイクル毎にポンプされた電荷に対応する整数によって分類される場合に対応する。 本稿では、この一次元理論を明示的かつ厳密な設定で検討し、コンパクト対称性群 $g$ に対する提案された分類の完全性を証明する。

Recently, a theory has been proposed that classifies cyclic processes of symmetry protected topological (SPT) quantum states. For the case of spin chains, i.e.\ one-dimensional bosonic SPT's, this theory implies that cyclic processes are classified by zero-dimensional SPT's. This is often described as a generalization of Thouless pumps, with the original Thouless pump corresponding to the case where the symmetry group is $U(1)$ and pumps are classified by an integer that corresponds to the charge pumped per cycle. In this paper, we review this one-dimensional theory in an explicit and rigorous setting and we provide a proof for the completeness of the proposed classification for compact symmetry groups $G$.
翻訳日:2023-12-11 19:38:49 公開日:2023-12-08
# 理想ボース気体による量子場の有限位相コヒーレンス時間

Finite phase coherence time of a quantum field created by an ideal Bose gas ( http://arxiv.org/abs/2204.01730v5 )

ライセンス: Link先を確認
Alexej Schelle(参考訳) 非常に弱い相互作用を持つ希薄ボース気体に対する定量的量子場アプローチを示す。 正準アンサンブルにおける定数平均エネルギーでの粒子数保存の制約を仮定したモデルの中で、ボース=アインシュタイン凝縮体の原子雲によって生成された量子場のコヒーレンスと量子コヒーレンスの減衰時間の両方を、一意な複素時間変数と、場の振動とデコヒーレンスのために2つの異なる特性周波数によって同時にモデル化する。 Within the present theory, it is illustrated that the occurrence of coherence and a macroscopic ground state population has its origin in finite coherence times of the ensemble of quantum particles in the Bose gas, whichin contrast to the incoherent interactions between the different particlesleads to the preparation of a thermodynamically stable many-body quantum state with coherent superpositions of discrete and quantized condensate and non-condensate atom number states at constant total atom number.

A quantitative quantum field approach for a very weakly interacting, dilute Bose gas is presented. Within the presented model, which assumes the constraint of particle number conservation at constant average energy in the canonical ensemble, both coherent oscillations, as well as decay times of quantum coherence for a quantum field created by the atomic cloud of a Bose-Einstein condensate, are modeled simultaneously by a unique complex time variable and two different characteristic frequencies for the oscillation and decoherence of the field. Within the present theory, it is illustrated that the occurrence of coherence and a macroscopic ground state population has its origin in finite coherence times of the ensemble of quantum particles in the Bose gas, which - in contrast to the incoherent interactions between the different particles - leads to the preparation of a thermodynamically stable many-body quantum state with coherent superpositions of discrete and quantized condensate and non-condensate atom number states at constant total atom number.
翻訳日:2023-12-11 19:38:34 公開日:2023-12-08
# 機械意識と人工超知能の認知的アーキテクチャ:作業記憶の反復的更新によって思考が構造化される

A Cognitive Architecture for Machine Consciousness and Artificial Superintelligence: Thought Is Structured by the Iterative Updating of Working Memory ( http://arxiv.org/abs/2203.17255v5 )

ライセンス: Link先を確認
Jared Edward Reser(参考訳) 本稿では,人間の思考過程をコンピュータ内でシミュレートするための分析フレームワークを提供する。 注意と記憶がどのように構造化され、更新され、思考の流れに連想的な付加物を探すために利用されるかを記述する。 哺乳類の作業記憶系を複製することに焦点を当てており、持続的発射(秒の順序に関する情報を保存する)とシナプス増強(数分から数時間の情報を保存する)の2つの形態を特徴としている。 この記事は40以上の原図を用いて、これらのワーキングメモリストアの反復的な更新が、思考と意識に機能的構造を提供する方法を体系的に実証している。 aiの実装では、これら2つのストアは連続的に更新され、反復的に更新される必要がある。 したがって、ワーキングメモリの概念は時間とともに徐々に進化していく。 これにより、各状態は前の状態の修正イテレーションとなり、連続した状態はそれらに含まれる情報に対して重複し、ブレンドされる。 状態間の遷移は、持続的な活動が階層ネットワーク全体に活性化エネルギーを広げ、グローバルワークスペースに追加される最も適切な表現のために長期記憶を探索するときに起こる。 その結果、解または目標に向かって進むことができる結合的に連結された中間状態の連鎖となる。 反復的な更新は、情報処理戦略、ワーキングメモリのモデル、意識の理論、人工知能の設計とプログラミングのためのアルゴリズムとして概念化されている。

This article provides an analytical framework for how to simulate human-like thought processes within a computer. It describes how attention and memory should be structured, updated, and utilized to search for associative additions to the stream of thought. The focus is on replicating the mammalian working memory system, which features two forms of persistent activity: sustained firing (preserving information on the order of seconds) and synaptic potentiation (preserving information from minutes to hours). The article uses a series of over 40 original figures to systematically demonstrate how the iterative updating of these working memory stores provides functional structure to thought and consciousness. In an AI implementation, these two stores should be updated continuously and in an iterative fashion, meaning each state should preserve a proportion of the coactive representations from the state before it. Thus, the set of concepts in working memory will evolve gradually and incrementally over time. This makes each state a revised iteration of the preceding state and causes successive states to overlap and blend with respect to the information they contain. Transitions between states happen as persistent activity spreads activation energy throughout the hierarchical network searching long-term memory for the most appropriate representation to be added to the global workspace. The result is a chain of associatively linked intermediate states capable of advancing toward a solution or goal. Iterative updating is conceptualized here as an information processing strategy, a model of working memory, a theory of consciousness, and an algorithm for designing and programming artificial general intelligence.
翻訳日:2023-12-11 19:38:17 公開日:2023-12-08
# 単一量子ビットゲート近似による短い量子回路

Shorter quantum circuits via single-qubit gate approximation ( http://arxiv.org/abs/2203.10064v2 )

ライセンス: Link先を確認
Vadym Kliuchnikov, Kristin Lauter, Romy Minko, Adam Paetznick, Christophe Petit(参考訳) 有限な普遍ゲート集合から一般の単一ビットユニタリを近似するための新しい手順を、問題を新しい等級近似問題に還元し、7/9の係数で直列長を即時改善する。 arXiv:1612.01011 と arXiv:1612.02689 を拡張して、フォールバック(arXiv:1409.3552)を解決するためのチャネルの確率的混合(arXiv:1409。 特に、Clifford+$\sqrt{\mathrm{T}}$ ゲートセットでは、平均的な非クリフォードゲートカウントが$0.23\log_2(1/\varepsilon)+2.13$およびTカウントが$0.56\log_2(1/\varepsilon)+5.3$となり、ダイヤモンドノルムの精度は$\varepsilon$となる。 本稿では,これらの新たな知見に加えて,ゲート近似の全体像を提供する。 四元数代数に関連する一般ゲート集合に対する終端近似手順を与え、一般的なフォールトトレラントゲート集合 (v, clifford+t and clifford+$\sqrt{\mathrm{t}}$) を用いた教育的例を与える。 また、Clifford+T と Clifford+$\sqrt{\mathrm{T}}$ gate に対して詳細な数値結果を提供する。 論文の自己完結性を維持するため,整数点列挙法と相対ノルム方程式解法について,関連するアルゴリズムの概要を述べる。 我々はさらに, 等級近似問題に対する多くの応用と, 正確な合成のための改良されたアルゴリズムを付録に記載する。

We give a novel procedure for approximating general single-qubit unitaries from a finite universal gate set by reducing the problem to a novel magnitude approximation problem, achieving an immediate improvement in sequence length by a factor of 7/9. Extending the works arXiv:1612.01011 and arXiv:1612.02689, we show that taking probabilistic mixtures of channels to solve fallback (arXiv:1409.3552) and magnitude approximation problems saves factor of two in approximation costs. In particular, over the Clifford+$\sqrt{\mathrm{T}}$ gate set we achieve an average non-Clifford gate count of $0.23\log_2(1/\varepsilon)+2.13$ and T-count $0.56\log_2(1/\varepsilon)+5.3$ with mixed fallback approximations for diamond norm accuracy $\varepsilon$. This paper provides a holistic overview of gate approximation, in addition to these new insights. We give an end-to-end procedure for gate approximation for general gate sets related to some quaternion algebras, providing pedagogical examples using common fault-tolerant gate sets (V, Clifford+T and Clifford+$\sqrt{\mathrm{T}}$). We also provide detailed numerical results for Clifford+T and Clifford+$\sqrt{\mathrm{T}}$ gate sets. In an effort to keep the paper self-contained, we include an overview of the relevant algorithms for integer point enumeration and relative norm equation solving. We provide a number of further applications of the magnitude approximation problems, as well as improved algorithms for exact synthesis, in the Appendices.
翻訳日:2023-12-11 19:37:51 公開日:2023-12-08
# 古典的レート理論におけるキャビティ誘起分岐

Cavity-induced bifurcation in classical rate theory ( http://arxiv.org/abs/2202.12182v5 )

ライセンス: Link先を確認
Kalle S. U. Kansanen and Tero T. Heikkil\"a(参考訳) 双安定系のアンサンブルと共振器場との結合が、このアンサンブルの集合確率的挙動にどのように影響するかを示す。 特に、空洞はシステム間の効果的な相互作用を提供し、準安定状態間の遷移率をパラメトリック的に調節する。 我々は空洞がシステム数に線形に依存する臨界温度で集合相転移を引き起こすことを予測した。 これは双安定系の定常状態が分岐する自発的対称性の破れとして現れる。 遷移速度は相転移とは無関係に低下するが, 共振器の乱れに対応して, 系の共振器結合の符号を交互に変化させる速度変化は消失する。 この結果は、キャビティの存在が化学反応に影響を与えることが示唆された分極化学において特に関係している。

We show how coupling an ensemble of bistable systems to a common cavity field affects the collective stochastic behavior of this ensemble. In particular, the cavity provides an effective interaction between the systems, and parametrically modifies the transition rates between the metastable states. We predict that the cavity induces a collective phase transition at a critical temperature which depends linearly on the number of systems. It shows up as a spontaneous symmetry breaking where the stationary states of the bistable system bifurcate. We observe that the transition rates slow down independently of the phase transition, but the rate modification vanishes for alternating signs of the system-cavity couplings, corresponding to a disordered ensemble of dipoles. Our results are of particular relevance in polaritonic chemistry where the presence of a cavity has been suggested to affect chemical reactions.
翻訳日:2023-12-11 19:37:11 公開日:2023-12-08
# PointMatch: 3Dポイントクラウドの弱い修正セマンティックセグメンテーションのための一貫性トレーニングフレームワーク

PointMatch: A Consistency Training Framework for Weakly Supervised Semantic Segmentation of 3D Point Clouds ( http://arxiv.org/abs/2202.10705v3 )

ライセンス: Link先を確認
Yushuang Wu, Zizheng Yan, Shengcai Cai, Guanbin Li, Yizhou Yu, Xiaoguang Han, Shuguang Cui(参考訳) 点雲のセマンティックセグメンテーションは、通常、枯渇しコストがかかるような密集したアノテーションに依存しているため、疎点のみを注釈付けした弱教師付きスキームの解を広く注目する。 既存の作業は、与えられたラベルから始まり、高度に関連があるがラベルのない点へと伝播し、例えば、点内関係のようなデータの誘導を行う。 しかし、それは苦しむ。 (i)データ情報の非効率的な活用 (II)より少ないアノテーションを付与するとラベルへの強い依存が容易に抑制される。 そこで本稿では,データ自体から情報を十分に探索するために整合性正規化を適用し,弱いラベルを補助として活用することで,データとラベルの両方に立つ新しいフレームワークであるPointMatchを提案する。 これにより、データとラベルの両方から有意義な情報を学び、より良い表現学習を行うことができる。 提案されたPointMatchは、ScanNet-v2データセットとS3DISデータセットの両方で、それぞれ0.01%と0.1%のScanNet-v2設定でSQNを21.2%以上、17.2%超えるような、非常にスパースなラベル設定で、様々な弱い教師付きスキームの下で、最先端のパフォーマンスを実現する。

Semantic segmentation of point cloud usually relies on dense annotation that is exhausting and costly, so it attracts wide attention to investigate solutions for the weakly supervised scheme with only sparse points annotated. Existing works start from the given labels and propagate them to highly-related but unlabeled points, with the guidance of data, e.g. intra-point relation. However, it suffers from (i) the inefficient exploitation of data information, and (ii) the strong reliance on labels thus is easily suppressed when given much fewer annotations. Therefore, we propose a novel framework, PointMatch, that stands on both data and label, by applying consistency regularization to sufficiently probe information from data itself and leveraging weak labels as assistance at the same time. By doing so, meaningful information can be learned from both data and label for better representation learning, which also enables the model more robust to the extent of label sparsity. Simple yet effective, the proposed PointMatch achieves the state-of-the-art performance under various weakly-supervised schemes on both ScanNet-v2 and S3DIS datasets, especially on the settings with extremely sparse labels, e.g. surpassing SQN by 21.2% and 17.2% on the 0.01% and 0.1% setting of ScanNet-v2, respectively.
翻訳日:2023-12-11 19:36:58 公開日:2023-12-08
# 多レベルセマンティック情報を利用した画像の無線伝送

Wireless Transmission of Images With The Assistance of Multi-level Semantic Information ( http://arxiv.org/abs/2202.04754v2 )

ライセンス: Link先を確認
Zhenguo Zhang, Qianqian Yang, Shibo He, Mingyang Sun, Jiming Chen(参考訳) セマンティクス指向通信は、データのセマンティクスのみを送信することで帯域幅効率を高めることが期待されている。 本稿では、ディープラーニング技術に基づき、エンドツーエンドに訓練された無線画像伝送用マルチレベル意味認識通信システムmlsc-imageを提案する。 特に,提案モデルでは,テキスト意味論やセグメンテーション意味論などのハイレベル意味情報と,画像の局所的空間的詳細などの低レベル意味情報の両方を抽出する多レベル意味特徴抽出器を含む。 テキストセマンティクスをキャプチャするために事前訓練された画像キャプションと、そのセマンティクスを得るために事前訓練された画像セマンティクスモデルを用いる。 これらのハイレベルと低レベルのセマンティクス機能は、ジョイントセマンティクスとチャネルエンコーダによって結合され、物理チャネル経由で送信されるシンボルにエンコードされる。 提案手法の有効性と効率を,特に画像圧縮における高レベルな意味論の利点を示す帯域幅制限条件下で検証した。

Semantic-oriented communication has been considered as a promising to boost the bandwidth efficiency by only transmitting the semantics of the data. In this paper, we propose a multi-level semantic aware communication system for wireless image transmission, named MLSC-image, which is based on the deep learning techniques and trained in an end to end manner. In particular, the proposed model includes a multilevel semantic feature extractor, that extracts both the highlevel semantic information, such as the text semantics and the segmentation semantics, and the low-level semantic information, such as local spatial details of the images. We employ a pretrained image caption to capture the text semantics and a pretrained image segmentation model to obtain the segmentation semantics. These high-level and low-level semantic features are then combined and encoded by a joint semantic and channel encoder into symbols to transmit over the physical channel. The numerical results validate the effectiveness and efficiency of the proposed semantic communication system, especially under the limited bandwidth condition, which indicates the advantages of the high-level semantics in the compression of images.
翻訳日:2023-12-11 19:36:24 公開日:2023-12-08
# U(1) ビットからの場:D-理論代数によるアプローチ

U(1) Fields from Qubits: an Approach via D-theory Algebra ( http://arxiv.org/abs/2201.02412v2 )

ライセンス: Link先を確認
David Berenstein, Richard Brower, Hiroki Kawai(参考訳) 格子量子色力学(QCD)ハミルトニアンに対して新しい量子リンク構造が提案され、ウィルソンゲージリンクをフェルミオン量子ビットの双線型に置き換え、後にD理論へと一般化した。 この形式主義は、量子コンピューティングのための格子場理論アルゴリズムを構築するための一般的なフレームワークを提供する。 我々は、主に単一のコンパクトな u(1)$ フィールドに対する量子ローターの最も単純な場合に焦点を当てる。 また、非アベリアセットアップについてもいくつかの進歩をしており、$U(1)$のケースで開発されたアイデアが他のグループに拡張されることを明確にしている。 これらは、1 + 0$-dimensional (1 + 0$-d) 行列モデル、 1 + 1$-d シグマモデル、非可換ゲージ理論のための2+1$と3+1$次元のブロックである。 U(1)$ 場の複数のフレーバーを導入することで、フレーバー対称性を測ることができ、フレーバーを増す量子 $O(2)$ ローターの無限次元ヒルベルト空間に効率的にアプローチすることができる。 この方法の重点は、シグマ行列(またはハードボソン)によってフェルミオン量子ビットを交換するシンプレクティック代数を保存し、格子 qcd や他の非可換 1 + 1$-d シグマモデルや 3 + 3$-d ゲージ理論に対して$su(3)$ に一般化できる形式的戦略を開発することである。 U(1)$の場合、離散的な1+1$-D Sine-Gordon方程式の研究のためのキュービットアルゴリズムを簡潔に議論する。

A new quantum link microstructure was proposed for the lattice quantum chromodynamics (QCD) Hamiltonian, replacing the Wilson gauge links with a bilinear of fermionic qubits, later generalized to D-theory. This formalism provides a general framework for building lattice field theory algorithms for quantum computing. We focus mostly on the simplest case of a quantum rotor for a single compact $U(1)$ field. We also make some progress for non-Abelian setups, making it clear that the ideas developed in the $U(1)$ case extend to other groups. These in turn are building blocks for $1 + 0$-dimensional ($1 + 0$-D) matrix models, $1 + 1$-D sigma models and non-Abelian gauge theories in $2+1$ and $3+1$ dimensions. By introducing multiple flavors for the $U(1)$ field, where the flavor symmetry is gauged, we can efficiently approach the infinite-dimensional Hilbert space of the quantum $O(2)$ rotor with increasing flavors. The emphasis of the method is on preserving the symplectic algebra exchanging fermionic qubits by sigma matrices (or hard bosons) and developing a formal strategy capable of generalization to $SU(3)$ field for lattice QCD and other non-Abelian $1 + 1$-D sigma models or $3 +3$-D gauge theories. For $U(1)$, we discuss briefly the qubit algorithms for the study of the discrete $1+1$-D Sine-Gordon equation.
翻訳日:2023-12-11 19:36:05 公開日:2023-12-08
# ドメイン対応連続ゼロショット学習

Domain-Aware Continual Zero-Shot Learning ( http://arxiv.org/abs/2112.12989v2 )

ライセンス: Link先を確認
Kai Yi, Paul Janson, Wenxuan Zhang, Mohamed Elhoseiny(参考訳) 連続的ゼロショット学習は、目に見えるクラスを段階的に学習し、目立たないクラスやまだ目立たないクラスを認識する能力を向上させる。 種の発見を加速するなど、現実世界のビジョンタスクに広く応用できる可能性がある。 しかし、これらのシナリオでは、環境条件の変化は、私たちがドメインシフトと呼ぶキャプチャ画像の提示に変化をもたらし、タスクに複雑さをもたらします。 本稿では,目に見えないカテゴリのイメージを視覚的に認識するタスクである,DACZSL(Domain Aware Continual Zero-Shot Learning)を紹介する。 DACZSLの課題に対処するため,ドメイン不変ネットワーク(DIN)を提案する。 我々は,ドミアン病原体とタスク不変の機能に対するグローバルな共有ネットとタスク特化機能に対するタスク毎のプライベートネットからなる,忘れを緩和する要因付き特徴を学習するための二重ネットワーク構造を具体化する。 さらに,より優れたクラスレベルのテキスト表現を得るために,クラスレベルで学習可能なプロンプトを導入する。 DACZSLを評価するために、DomainNet-CZSLとiWildCam-CZSLの2つのベンチマークを導入する。 以上の結果から,DINは既存のベースラインを著しく上回り,新たな最先端を実現していることがわかった。

Continual zero-shot learning involves learning seen classes incrementally while improving the ability to recognize unseen or yet-to-be-seen classes. It has a broad range of potential applications in real-world vision tasks, such as accelerating species discovery. However, in these scenarios, the changes in environmental conditions cause shifts in the presentation of captured images, which we refer to as domain shift, and adds complexity to the tasks. In this paper, we introduce Domain Aware Continual Zero-Shot Learning (DACZSL), a task that involves visually recognizing images of unseen categories in unseen domains continually. To address the challenges of DACZSL, we propose a Domain-Invariant Network (DIN). We empoly a dual network structure to learn factorized features to alleviate forgetting, where consists of a global shared net for domian-invirant and task-invariant features, and per-task private nets for task-specific features. Furthermore, we introduce a class-wise learnable prompt to obtain better class-level text representation, which enables zero-shot prediction of future unseen classes. To evaluate DACZSL, we introduce two benchmarks: DomainNet-CZSL and iWildCam-CZSL. Our results show that DIN significantly outperforms existing baselines and achieves a new state-of-the-art.
翻訳日:2023-12-11 19:35:35 公開日:2023-12-08
# 量子誤差補正は連続対称性を満たす:基本的なトレードオフとケーススタディ

Quantum error correction meets continuous symmetries: fundamental trade-offs and case studies ( http://arxiv.org/abs/2111.06360v4 )

ライセンス: Link先を確認
Zi-Wen Liu and Sisi Zhou(参考訳) 量子エラー補正(QEC)と連続対称性(量子情報と物理における2つの重要な概念)の基本的な競合を定量的に研究する。 量子チャネルおよび特にQEC符号における近似対称性の3つの有意義な測度は、それぞれ、対称性群全体または局所点における共分散条件の違反と電荷保存の違反に基づいて導入され、研究される。 各測度は、概共変符号の対応するキャラクタリゼーションを誘導する。 我々は、QEC不正確性とすべての対称性違反対策の間の様々な形態のトレードオフ関係を導出できる様々なアイデアとテクニックのホストを抽出する。 具体的には、電荷ゆらぎとゲート実装の誤りの概念に基づいて、トレードオフを理解するための2つのフレームワークを紹介し、Knill--Laflamme条件や、導出のための量子メートル法、量子リソース理論などの手法を用いる。 From the perspective of fault-tolerant quantum computing, our bounds on symmetry violation indicate limitations on the precision or density of transversally implementable logical gates for general QEC codes, refining the Eastin--Knill theorem. To exemplify nontrivial approximately covariant codes and understand the achievability of the above fundamental limits, we analyze the behaviors of two explicit types of codes: a parametrized extension of the thermodynamic code (which gives a construction of a code family that continuously interpolates between exact QEC and exact symmetry), and the quantum Reed--Muller codes. 両符号は, グループ・グローバル共分散と電荷保存の漸近的に境界のスケーリングを飽和させ, これらの境界と符号のほぼ最適性を示す。

We systematically study the fundamental competition between quantum error correction (QEC) and continuous symmetries, two key notions in quantum information and physics, in a quantitative manner. Three meaningful measures of approximate symmetries in quantum channels and in particular QEC codes, respectively based on the violation of covariance conditions over the entire symmetry group or at a local point, and the violation of charge conservation, are introduced and studied. Each measure induces a corresponding characterization of approximately covariant codes. We explicate a host of different ideas and techniques that enable us to derive various forms of trade-off relations between the QEC inaccuracy and all symmetry violation measures. More specifically, we introduce two frameworks for understanding and establishing the trade-offs respectively based on the notions of charge fluctuation and gate implementation error, and employ methods including the Knill--Laflamme conditions as well as quantum metrology and quantum resource theory for the derivation. From the perspective of fault-tolerant quantum computing, our bounds on symmetry violation indicate limitations on the precision or density of transversally implementable logical gates for general QEC codes, refining the Eastin--Knill theorem. To exemplify nontrivial approximately covariant codes and understand the achievability of the above fundamental limits, we analyze the behaviors of two explicit types of codes: a parametrized extension of the thermodynamic code (which gives a construction of a code family that continuously interpolates between exact QEC and exact symmetry), and the quantum Reed--Muller codes. We show that both codes can saturate the scaling of the bounds for group-global covariance and charge conservation asymptotically, indicating the near-optimality of these bounds and codes.
翻訳日:2023-12-11 19:35:14 公開日:2023-12-08
# 脳波による早期パーキンソン病の解釈学的分類

Interpretable Classification of Early Stage Parkinson's Disease from EEG ( http://arxiv.org/abs/2301.09568v2 )

ライセンス: Link先を確認
Amarpal Sahota, Amber Roguski, Matthew W. Jones, Michal Rolinski, Alan Whone, Raul Santos-Rodriguez, Zahraa S. Abdallah(参考訳) 脳波データを用いたパーキンソン病の早期発見は重要な課題である。 本稿では,脳波データをバンドパワーとピーク周波数値/効率の15変量列として表現する新しい手法を提案する。 この表現は脳波信号から本質的な情報を取り込み、疾患の検出を改善するという仮説である。 この表現から抽出された統計的特徴は、解釈可能な機械学習モデル、特に決定木とAdaBoost分類器の入力として利用される。 分類パイプラインを提案フレームワーク内に配置することで,分類のための高重要データ型と脳領域を識別できる。 解析の結果,N1睡眠データ型は早期パーキンソン病分類において統計的に有意な予測力 (p < 0.01) を示した。 N1データ型でトレーニングされたAdaBoost分類器は、ベースラインモデルよりも一貫して優れており、80%以上の精度とリコールを実現している。 当社の分類パイプラインは,有用な情報を得たことを示すベースラインモデルを統計的に有意に上回っている。 パイプラインの解釈可能性(機能の重要度を見る能力)と相まって、初期のParkinsonとN1モデルの分類に関する有意義な洞察を得られるようになります。 この論文で示された結果は、パーキンソンの4つの初期段階のケースのうち3つ以上がパイプラインでキャプチャされることを示している。

Detecting Parkinson's Disease in its early stages using EEG data presents a significant challenge. This paper introduces a novel approach, representing EEG data as a 15-variate series of bandpower and peak frequency values/coefficients. The hypothesis is that this representation captures essential information from the noisy EEG signal, improving disease detection. Statistical features extracted from this representation are utilised as input for interpretable machine learning models, specifically Decision Tree and AdaBoost classifiers. Our classification pipeline is deployed within our proposed framework which enables high-importance data types and brain regions for classification to be identified. Interestingly, our analysis reveals that while there is no significant regional importance, the N1 sleep data type exhibits statistically significant predictive power (p < 0.01) for early-stage Parkinson's Disease classification. AdaBoost classifiers trained on the N1 data type consistently outperform baseline models, achieving over 80% accuracy and recall. Our classification pipeline statistically significantly outperforms baseline models indicating that the model has acquired useful information. Paired with the interpretability (ability to view feature importance's) of our pipeline this enables us to generate meaningful insights into the classification of early stage Parkinson's with our N1 models. In Future, these models could be deployed in the real world - the results presented in this paper indicate that more than 3 in 4 early-stage Parkinson's cases would be captured with our pipeline.
翻訳日:2023-12-11 19:28:28 公開日:2023-12-08
# DSI++: 新しいドキュメントでトランスフォーマーメモリを更新

DSI++: Updating Transformer Memory with New Documents ( http://arxiv.org/abs/2212.09744v3 )

ライセンス: Link先を確認
Sanket Vaibhav Mehta, Jai Gupta, Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Jinfeng Rao, Marc Najork, Emma Strubell, Donald Metzler(参考訳) Differentiable Search Indices (DSI)は、文書のコーパスをモデルパラメータにエンコードし、同じモデルを使用してユーザクエリに直接応答する。 DSIモデルの性能は高いが、コーパスを再インデックスするにはモデルを再トレーニングする必要があるため、コーパスが時間とともに変化する状況にデプロイする。 そこで本研究では,DSI++を提案する。DSIが新たなドキュメントをインクリメンタルにインデクシングする上で,従来と新たにインデックス付けされたドキュメントの両方に関するクエリに回答することができる。 異なるモデルスケールと文書識別子の表現において、新しい文書の連続的なインデックス付けは、以前インデックスされた文書をかなり忘れてしまうことを示す。 また、モデルがトレーニング中にイベントを忘れていることを仮定し、検証することで、不安定な学習につながります。 これらの問題を緩和するため、我々は2つのアプローチを調査した。 ひとつは、トレーニングダイナミクスの変更だ。 フラットなミニマは暗黙的に忘れを和らげるので、よりフラットな損失盆地を最適化し、モデルがもっとドキュメントを安定して記憶することを示す(+12\%$)。 次に,文書の疑似クエリをサンプリングし,連続インデックス化時に補完する生成メモリを導入し,検索タスクの忘れることを防止する。 NQ (Natural Questions) とMS MARCO (MS MARCO) に基づく新しい連続的索引付けベンチマークの広範な実験により,提案手法は忘れを著しく軽減することを示した。 具体的には、NQの競争ベースラインよりも平均Hits@10を$+21.1\%改善し、シーケンス内の5つのコーパスをインクリメンタルにインデックスするDSIモデルを再トレーニングするのに比べて6倍のモデル更新が必要になる。

Differentiable Search Indices (DSIs) encode a corpus of documents in model parameters and use the same model to answer user queries directly. Despite the strong performance of DSI models, deploying them in situations where the corpus changes over time is computationally expensive because reindexing the corpus requires re-training the model. In this work, we introduce DSI++, a continual learning challenge for DSI to incrementally index new documents while being able to answer queries related to both previously and newly indexed documents. Across different model scales and document identifier representations, we show that continual indexing of new documents leads to considerable forgetting of previously indexed documents. We also hypothesize and verify that the model experiences forgetting events during training, leading to unstable learning. To mitigate these issues, we investigate two approaches. The first focuses on modifying the training dynamics. Flatter minima implicitly alleviate forgetting, so we optimize for flatter loss basins and show that the model stably memorizes more documents ($+12\%$). Next, we introduce a generative memory to sample pseudo-queries for documents and supplement them during continual indexing to prevent forgetting for the retrieval task. Extensive experiments on novel continual indexing benchmarks based on Natural Questions (NQ) and MS MARCO demonstrate that our proposed solution mitigates forgetting significantly. Concretely, it improves the average Hits@10 by $+21.1\%$ over competitive baselines for NQ and requires $6$ times fewer model updates compared to re-training the DSI model for incrementally indexing five corpora in a sequence.
翻訳日:2023-12-11 19:27:55 公開日:2023-12-08
# 共有プリミティブを用いたベイズデータ融合

Bayesian data fusion with shared priors ( http://arxiv.org/abs/2212.07311v2 )

ライセンス: Link先を確認
Peng Wu, Tales Imbiriba, Victor Elvira, Pau Closas(参考訳) データと知識の統合はデータ融合として知られている。 データが分散形式でのみ利用可能である場合や、異なるセンサーを使用して興味を推測する場合、データ融合が必須となる。 ベイズの設定では、未知量の事前情報が利用可能であり、おそらく異なる分散推定器の中に存在している。 局所的な推定が融合されると、いくつかの局所的な後方構造を構築するのに使われる事前の知識は、融合ノードがそれを説明し修正しない限り、過剰に使用される可能性がある。 本稿では,ベイズデータ融合の文脈における共有プライオリティの効果を分析する。 異なる共通融合ルールによっては, 協調エージェントの数の関数として, および, 異なる種類の事前の関数として, 性能挙動を理解するのに有用である。 解析はベイズ推論に共通する2つの発散を用いて行われ、結果の一般性から非常に一般的な分布を解析できる。 これらの理論結果は、線形および非線形モデルを含む様々な推定および分類問題および連合学習スキームの実験を通じて裏付けられる。

The integration of data and knowledge from several sources is known as data fusion. When data is only available in a distributed fashion or when different sensors are used to infer a quantity of interest, data fusion becomes essential. In Bayesian settings, a priori information of the unknown quantities is available and, possibly, present among the different distributed estimators. When the local estimates are fused, the prior knowledge used to construct several local posteriors might be overused unless the fusion node accounts for this and corrects it. In this paper, we analyze the effects of shared priors in Bayesian data fusion contexts. Depending on different common fusion rules, our analysis helps to understand the performance behavior as a function of the number of collaborative agents and as a consequence of different types of priors. The analysis is performed by using two divergences which are common in Bayesian inference, and the generality of the results allows to analyze very generic distributions. These theoretical results are corroborated through experiments in a variety of estimation and classification problems, including linear and nonlinear models, and federated learning schemes.
翻訳日:2023-12-11 19:27:22 公開日:2023-12-08
# RITA:リアルな対話型交通流を用いた運転シミュレータ

RITA: Boost Driving Simulators with Realistic Interactive Traffic Flow ( http://arxiv.org/abs/2211.03408v5 )

ライセンス: Link先を確認
Zhengbang Zhu, Shenyu Zhang, Yuzheng Zhuang, Yuecheng Liu, Minghuan Liu, Liyuan Mao, Ziqin Gong, Shixiong Kai, Qiang Gu, Bin Wang, Siyuan Cheng, Xinyu Wang, Jianye Hao and Yong Yu(参考訳) 高品質な交通フロー生成は、自動運転シミュレータ構築における中核モジュールである。 しかし、利用可能なシミュレータのほとんどは、実世界のデータの様々な特徴を正確に反映したトラフィックパターンを複製することができず、テストされたオートパイロット駆動戦略に対する人間のような反応をシミュレートすることができない。 このような問題に対処するために,既存の運転シミュレータの統合コンポーネントとしてRealistic Interactive TrAffic Flow (RITA)を提案する。 RITAは3つの重要な特徴、すなわち忠実さ、多様性、制御性を考慮して開発され、RITABackendとRITAKitと呼ばれる2つのコアモジュールで構成されている。 RITABackendは実世界のデータセットからトラフィック生成モデルを提供するために構築されており、RITAKitはRITABackendを介して制御可能なトラフィック生成のための使いやすいインターフェースで開発されている。 本稿では,多種多様かつ高忠実な交通シミュレーションを実現するRITAの能力について述べる。 実験の結果, 生成したRITAトラヒックフローは3つの重要な特徴を全て示し, 運転戦略評価の完全性を高めた。 さらに、RITAトラフィックフローを用いたオンライン微調整によるベースライン戦略の改善の可能性を示す。

High-quality traffic flow generation is the core module in building simulators for autonomous driving. However, the majority of available simulators are incapable of replicating traffic patterns that accurately reflect the various features of real-world data while also simulating human-like reactive responses to the tested autopilot driving strategies. Taking one step forward to addressing such a problem, we propose Realistic Interactive TrAffic flow (RITA) as an integrated component of existing driving simulators to provide high-quality traffic flow for the evaluation and optimization of the tested driving strategies. RITA is developed with consideration of three key features, i.e., fidelity, diversity, and controllability, and consists of two core modules called RITABackend and RITAKit. RITABackend is built to support vehicle-wise control and provide traffic generation models from real-world datasets, while RITAKit is developed with easy-to-use interfaces for controllable traffic generation via RITABackend. We demonstrate RITA's capacity to create diversified and high-fidelity traffic simulations in several highly interactive highway scenarios. The experimental findings demonstrate that our produced RITA traffic flows exhibit all three key features, hence enhancing the completeness of driving strategy evaluation. Moreover, we showcase the possibility for further improvement of baseline strategies through online fine-tuning with RITA traffic flows.
翻訳日:2023-12-11 19:26:24 公開日:2023-12-08
# 文脈自由文法に基づく階層型ニューラルネットワーク探索空間の構築

Construction of Hierarchical Neural Architecture Search Spaces based on Context-free Grammars ( http://arxiv.org/abs/2211.01842v3 )

ライセンス: Link先を確認
Simon Schrodi, Danny Stoll, Binxin Ru, Rhea Sukthanker, Thomas Brox, Frank Hutter(参考訳) 単純なビルディングブロックからニューラルアーキテクチャを発見することは、Neural Architecture Search(NAS)の長年の目標である。 階層型検索空間は、この目標に向けて有望なステップであるが、統一型検索空間設計フレームワークがなく、アーキテクチャの限られた側面のみを検索する。 本研究では,文脈自由文法に基づく統一的な探索空間設計フレームワークを提案する。このフレームワークは,文献から得られる共通空間よりも100桁大きい表現的階層的探索空間を自然かつコンパクトに生成することができる。 それらの特性の強化と利用により、アーキテクチャ全体の検索を効果的に可能とし、規則性を育むことができる。 さらに,このような巨大な空間を効率的に探索するためのベイズ最適化探索戦略のための効率的な階層的カーネル設計を提案する。 我々は,検索空間設計フレームワークの汎用性を実証し,検索戦略が既存のnasアプローチよりも優れていることを示す。 コードはhttps://github.com/automl/hierarchical_nas_constructionで入手できる。

The discovery of neural architectures from simple building blocks is a long-standing goal of Neural Architecture Search (NAS). Hierarchical search spaces are a promising step towards this goal but lack a unifying search space design framework and typically only search over some limited aspect of architectures. In this work, we introduce a unifying search space design framework based on context-free grammars that can naturally and compactly generate expressive hierarchical search spaces that are 100s of orders of magnitude larger than common spaces from the literature. By enhancing and using their properties, we effectively enable search over the complete architecture and can foster regularity. Further, we propose an efficient hierarchical kernel design for a Bayesian Optimization search strategy to efficiently search over such huge spaces. We demonstrate the versatility of our search space design framework and show that our search strategy can be superior to existing NAS approaches. Code is available at https://github.com/automl/hierarchical_nas_construction.
翻訳日:2023-12-11 19:25:34 公開日:2023-12-08
# 運転場面における行動意図予測 : アンケート調査

Behavioral Intention Prediction in Driving Scenes: A Survey ( http://arxiv.org/abs/2211.00385v3 )

ライセンス: Link先を確認
Jianwu Fang, Fan Wang, Jianru Xue, and Tat-seng Chua(参考訳) 運転シーンでは、通常、道路エージェントは周囲の頻繁な相互作用と意図的な理解を行う。 ego-agent(各ロードエージェント自身)は、常に他のロードユーザが関与する振る舞いを予測し、安全な動きに対する共有かつ一貫した理解を期待する。 行動意図予測(BIP)は、そのような人間の思考過程をシミュレートし、特定の行動の早期予測を満たす。 軌道予測のような他の予測タスクと同様に、データ駆動型ディープラーニング手法が研究の主要なパイプラインとなっている。 BIPの急速な開発は必然的に、新しい問題や課題に繋がる。 今後の研究を促進するために、この研究は利用可能なデータセット、重要な要因と課題、歩行者中心および車両中心のBIPアプローチ、およびBIP対応アプリケーションからのBIPの包括的なレビューを提供する。 この調査に基づいて、データ駆動型ディープラーニングアプローチが主要なパイプラインになっている。 行動意図型は、このフィールドにおける歩行者と車線変更(lc)のための、ほとんどの現在のデータセットと手法(例えば、交差(c)と通過(nc))において依然として単調である。 さらに、安全クリティカルなシナリオ(例えば、ほぼ破壊的な状況)については、現在の研究は限られている。 本研究では,行動意図予測におけるオープンな問題を特定し,今後の研究の可能性を示唆する。

In the driving scene, the road agents usually conduct frequent interactions and intention understanding of the surroundings. Ego-agent (each road agent itself) predicts what behavior will be engaged by other road users all the time and expects a shared and consistent understanding for safe movement. Behavioral Intention Prediction (BIP) simulates such a human consideration process and fulfills the early prediction of specific behaviors. Similar to other prediction tasks, such as trajectory prediction, data-driven deep learning methods have taken the primary pipeline in research. The rapid development of BIP inevitably leads to new issues and challenges. To catalyze future research, this work provides a comprehensive review of BIP from the available datasets, key factors and challenges, pedestrian-centric and vehicle-centric BIP approaches, and BIP-aware applications. Based on the investigation, data-driven deep learning approaches have become the primary pipelines. The behavioral intention types are still monotonous in most current datasets and methods (e.g., Crossing (C) and Not Crossing (NC) for pedestrians and Lane Changing (LC) for vehicles) in this field. In addition, for the safe-critical scenarios (e.g., near-crashing situations), current research is limited. Through this investigation, we identify open issues in behavioral intention prediction and suggest possible insights for future research.
翻訳日:2023-12-11 19:25:13 公開日:2023-12-08
# マスク識別による少数撮影画像生成

Few-shot Image Generation via Masked Discrimination ( http://arxiv.org/abs/2210.15194v3 )

ライセンス: Link先を確認
Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan(参考訳) 少数ショット画像生成は、限られたデータで高品質で多彩な画像を生成することを目的としている。 しかし、現代のGANでは、少数の画像でしか訓練しない場合、過度な適合を避けることは困難である。 判別器は、すべてのトレーニングサンプルを記憶し、ジェネレータに複製を誘導し、深刻な多様性の低下を引き起こすことができる。 大規模なソースドメインで事前訓練されたGANを、限られた実サンプルを用いてターゲットドメインに適応させることにより、オーバーフィッティングを緩和するいくつかの手法が提案されている。 本研究は,マスク付き識別による少数ショットGAN適応を実現するための新しいアプローチを提案する。 入力画像から判別器によって抽出された特徴に対してランダムマスクを適用する。 本研究の目的は,学習サンプルと共通する特徴を一部共有する様々なイメージをリアルに判断することである。 それに対応して、ジェネレータは、トレーニングサンプルを複製する代わりに、多様な画像を生成するようにガイドされる。 さらに,その特徴空間内で生成したサンプル間の相対距離を保持するために,判別器に対するクロスドメイン一貫性損失を用いる。 グローバルイメージの識別を強化し、より高品質な画像のためにソースドメインから学ぶより多くの情報を保存するためにganを導入した。 本手法の有効性は,従来の手法よりも質的かつ定量的に,高品質で多彩な数発画像生成タスクにおいて示される。

Few-shot image generation aims to generate images of high quality and great diversity with limited data. However, it is difficult for modern GANs to avoid overfitting when trained on only a few images. The discriminator can easily remember all the training samples and guide the generator to replicate them, leading to severe diversity degradation. Several methods have been proposed to relieve overfitting by adapting GANs pre-trained on large source domains to target domains using limited real samples. This work presents a novel approach to realize few-shot GAN adaptation via masked discrimination. Random masks are applied to features extracted by the discriminator from input images. We aim to encourage the discriminator to judge various images which share partially common features with training samples as realistic. Correspondingly, the generator is guided to generate diverse images instead of replicating training samples. In addition, we employ a cross-domain consistency loss for the discriminator to keep relative distances between generated samples in its feature space. It strengthens global image discrimination and guides adapted GANs to preserve more information learned from source domains for higher image quality. The effectiveness of our approach is demonstrated both qualitatively and quantitatively with higher quality and greater diversity on a series of few-shot image generation tasks than prior methods.
翻訳日:2023-12-11 19:24:51 公開日:2023-12-08
# 神経固有関数は構造化表現学習者である

Neural Eigenfunctions Are Structured Representation Learners ( http://arxiv.org/abs/2210.12637v3 )

ライセンス: Link先を確認
Zhijie Deng, Jiaxin Shi, Hao Zhang, Peng Cui, Cewu Lu, Jun Zhu(参考訳) 本稿では,neural eigenmapと呼ばれる構造的,適応的長大な深層表現について述べる。 Laplacian Eigenmapのような従来のスペクトル法とは異なり、Neural EigenmapはNeuralEFを利用してニューラルネットワークを用いて固有関数をパラメトリックにモデル化する。 固有関数がデータ拡張設定における正の関係から導出される場合、NeuralEFを適用すると、一般的な自己教師付き学習手法に類似した目的関数が得られ、特徴が重要度によって順序づけられる「emph{structured"表現につながる追加の対称性破壊特性が現れる。 画像検索システムにおいて,適応長符号のような表現を用いることを実証する。 特徴量に応じて切り詰めることにより,本手法は,検索性能を向上するために,指導的自己指導学習よりも最大16\times$短い表現長を必要とする。 さらに,この手法をグラフデータに適用し,100万以上のノードを有するノード表現学習ベンチマークで強い結果を報告する。

This paper introduces a structured, adaptive-length deep representation called Neural Eigenmap. Unlike prior spectral methods such as Laplacian Eigenmap that operate in a nonparametric manner, Neural Eigenmap leverages NeuralEF to parametrically model eigenfunctions using a neural network. We show that, when the eigenfunction is derived from positive relations in a data augmentation setup, applying NeuralEF results in an objective function that resembles those of popular self-supervised learning methods, with an additional symmetry-breaking property that leads to \emph{structured} representations where features are ordered by importance. We demonstrate using such representations as adaptive-length codes in image retrieval systems. By truncation according to feature importance, our method requires up to $16\times$ shorter representation length than leading self-supervised learning ones to achieve similar retrieval performance. We further apply our method to graph data and report strong results on a node representation learning benchmark with more than one million nodes.
翻訳日:2023-12-11 19:24:31 公開日:2023-12-08
# 一次元アノンにおける量子錬金術と普遍直交カタストロフィー

Quantum Alchemy and Universal Orthogonality Catastrophe in One-Dimensional Anyons ( http://arxiv.org/abs/2210.10776v2 )

ライセンス: Link先を確認
Naim E. Mackel, Jing Yang, Adolfo del Campo(参考訳) 中間正準交換統計を持つ多粒子量子系は1つの空間次元で支持される。 この文脈では、anyon-anyonマッピングは、統計パラメータ$\kappa$のシフトを生成する連続変換として再キャストされる。 我々は、$\kappa$の異なる値、すなわち異なる量子統計量に関連する量子状態の幾何学を特徴づける。 ボソニック部分空間とフェルミオン部分空間の状態は常に直交的であるが、エノン状態の間の重なりは一般に有限であり、微視的ハミルトニアンとは独立に、基本統計因子によって制御される直交性カタストロフィーの普遍的な形を示す。 我々は、$\kappa$の流れの量子速度制限を用いてこの減衰を特徴づけ、ハードコア・エノンのモデルで結果を説明し、量子シミュレーションで可能な実験について議論する。

Many-particle quantum systems with intermediate anyonic exchange statistics are supported in one spatial dimension. In this context, the anyon-anyon mapping is recast as a continuous transformation that generates shifts of the statistical parameter $\kappa$. We characterize the geometry of quantum states associated with different values of $\kappa$, i.e., different quantum statistics. While states in the bosonic and fermionic subspaces are always orthogonal, overlaps between anyonic states are generally finite and exhibit a universal form of the orthogonality catastrophe governed by a fundamental statistical factor, independent of the microscopic Hamiltonian. We characterize this decay using quantum speed limits on the flow of $\kappa$, illustrate our results with a model of hard-core anyons, and discuss possible experiments in quantum simulation.
翻訳日:2023-12-11 19:24:15 公開日:2023-12-08
# PyTheusを用いた100種類の量子実験のデジタル発見

Digital Discovery of 100 diverse Quantum Experiments with PyTheus ( http://arxiv.org/abs/2210.09980v2 )

ライセンス: Link先を確認
Carlos Ruiz-Gonzalez, S\"oren Arlt, Jan Petermann, Sharareh Sayyad, Tareq Jaouni, Ebrahim Karimi, Nora Tischler, Xuemei Gu, Mario Krenn(参考訳) 光子は、量子力学の基礎の実験的なテストを行うための物理的なシステムである。 さらに、フォトニック量子技術は第2次量子革命の主要なプレイヤーであり、より良いセンサー、安全な通信、量子エンハンス計算の開発を約束している。 これらの取り組みは、特定の量子状態を生成するか、効率的に量子タスクを実行する必要がある。 対応する光学実験の設計は歴史的に人間の創造性に支えられていたが、近年は高度なコンピュータアルゴリズムと人工知能で自動化されている。 いくつかのコンピュータによる実験が実験的に実現されているが、このアプローチは幅広いフォトニック量子光学コミュニティにはまだ広く採用されていない。 主な障害は、ほとんどのシステムはクローズドソース、非効率、あるいは一般化が難しい非常に特殊なユースケースをターゲットにしている。 そこで我々は,これらの問題を高効率でオープンソースのデジタル発見フレームワークpytheusで解決する。 これには、高絡み合った量子状態の発見、量子測定スキーム、量子通信プロトコル、多粒子量子ゲート、および量子実験または量子状態の連続的および離散的性質の最適化が含まれる。 PyTheusは、人間の研究者が容易に概念化できる複雑な実験的な問題に対する解釈可能な設計を生成する。 pytheusは、科学における人工知能の中核的目標の一つである科学的発見につながる強力なフレームワークの例である。 量子光学の開発を加速させ、量子ハードウェアとテクノロジーの新しいアイデアを提供することを期待している。

Photons are the physical system of choice for performing experimental tests of the foundations of quantum mechanics. Furthermore, photonic quantum technology is a main player in the second quantum revolution, promising the development of better sensors, secure communications, and quantum-enhanced computation. These endeavors require generating specific quantum states or efficiently performing quantum tasks. The design of the corresponding optical experiments was historically powered by human creativity but is recently being automated with advanced computer algorithms and artificial intelligence. While several computer-designed experiments have been experimentally realized, this approach has not yet been widely adopted by the broader photonic quantum optics community. The main roadblocks consist of most systems being closed-source, inefficient, or targeted to very specific use-cases that are difficult to generalize. Here, we overcome these problems with a highly-efficient, open-source digital discovery framework PyTheus, which can employ a wide range of experimental devices from modern quantum labs to solve various tasks. This includes the discovery of highly entangled quantum states, quantum measurement schemes, quantum communication protocols, multi-particle quantum gates, as well as the optimization of continuous and discrete properties of quantum experiments or quantum states. PyTheus produces interpretable designs for complex experimental problems which human researchers can often readily conceptualize. PyTheus is an example of a powerful framework that can lead to scientific discoveries -- one of the core goals of artificial intelligence in science. We hope it will help accelerate the development of quantum optics and provide new ideas in quantum hardware and technology.
翻訳日:2023-12-11 19:23:58 公開日:2023-12-08
# BAFFLE:オフライン強化学習データセットでバックドアを守る

BAFFLE: Hiding Backdoors in Offline Reinforcement Learning Datasets ( http://arxiv.org/abs/2210.04688v4 )

ライセンス: Link先を確認
Chen Gong, Zhou Yang, Yunpeng Bai, Junda He, Jieke Shi, Kecen Li, Arunesh Sinha, Bowen Xu, Xinwen Hou, David Lo, Tianhao Wang(参考訳) 強化学習(rl)は,環境とのインタラクション中に収集した試行錯誤からエージェントを学習させる。 近年、オフラインRLは環境との相互作用を省くため、人気のあるRLパラダイムとなっている。 オフラインのRLでは、データプロバイダは大規模なプレコンパイルデータセットを共有し、他のプロバイダは環境と対話することなく高品質なエージェントをトレーニングできる。 このパラダイムは、ロボット制御や自律運転など、重要なタスクにおいて有効性を示している。 しかし、オフラインのRLシステムに対するセキュリティ脅威の調査には注意が払われていない。 本稿ではバックドア攻撃(バックドアアタック)に焦点をあて、通常の観測では、エージェントが高反発作用をとり、トリガーによって注入された観察に対する低反発作用を観測データ(観測)に追加する。 本稿では,オフラインrlデータセットを汚染することにより,バックドアをrlエージェントに自動的に埋め込む手法であるbaffle(backdoor attack for offline reinforcement learning)を提案し,異なるオフラインrlアルゴリズムがこの攻撃に対してどのように反応するかを評価する。 4つのタスクと4つのオフラインRLアルゴリズムで実施した実験では,既存のオフラインRLアルゴリズムはいずれも,そのようなバックドア攻撃に対して無害である,という不合理な事実が明らかになった。 具体的には、Baffleは4つのタスク(3つのロボット制御と1つの自律運転)のデータセットの10%を修正している。 有毒データセットでトレーニングされたエージェントは、通常の設定でうまく動作します。 しかし、トリガーが提示されると、エージェントのパフォーマンスは平均して63.2\%、53.9\%、64.7\%、47.4\%と劇的に低下する。 バックドアは、清潔なデータセットに汚染物質を微調整した後も継続する。 また,一般的な防御手法では挿入バックドアの検出が困難であることを示す。 本稿では,オープンソースオフラインRLデータセットのより効果的な保護開発に注目する。

Reinforcement learning (RL) makes an agent learn from trial-and-error experiences gathered during the interaction with the environment. Recently, offline RL has become a popular RL paradigm because it saves the interactions with environments. In offline RL, data providers share large pre-collected datasets, and others can train high-quality agents without interacting with the environments. This paradigm has demonstrated effectiveness in critical tasks like robot control, autonomous driving, etc. However, less attention is paid to investigating the security threats to the offline RL system. This paper focuses on backdoor attacks, where some perturbations are added to the data (observations) such that given normal observations, the agent takes high-rewards actions, and low-reward actions on observations injected with triggers. In this paper, we propose Baffle (Backdoor Attack for Offline Reinforcement Learning), an approach that automatically implants backdoors to RL agents by poisoning the offline RL dataset, and evaluate how different offline RL algorithms react to this attack. Our experiments conducted on four tasks and four offline RL algorithms expose a disquieting fact: none of the existing offline RL algorithms is immune to such a backdoor attack. More specifically, Baffle modifies 10\% of the datasets for four tasks (3 robotic controls and 1 autonomous driving). Agents trained on the poisoned datasets perform well in normal settings. However, when triggers are presented, the agents' performance decreases drastically by 63.2\%, 53.9\%, 64.7\%, and 47.4\% in the four tasks on average. The backdoor still persists after fine-tuning poisoned agents on clean datasets. We further show that the inserted backdoor is also hard to be detected by a popular defensive method. This paper calls attention to developing more effective protection for the open-source offline RL dataset.
翻訳日:2023-12-11 19:23:34 公開日:2023-12-08
# 分布外画像を用いた高密度深度蒸留

Dense Depth Distillation with Out-of-Distribution Simulated Images ( http://arxiv.org/abs/2208.12464v3 )

ライセンス: Link先を確認
Junjie Hu and Chenyou Fan and Mete Ozay and Hualie Jiang and Tin Lun Lam(参考訳) 本研究では,単眼深度推定(MDE)のためのデータフリー知識蒸留(KD)について検討し,実世界の深度知覚タスクの軽量モデルについて,教師モデルから圧縮し,対象領域のトレーニングデータを欠いたまま学習する。 画像分類と濃厚回帰には本質的な差異があるため,mdeには従来データフリーkdの手法は適用できない。 本稿では,実世界の課題に適用性を高めるため,kdを分散シミュレーション画像に適用することを提案する。 解決すべき主な課題は 一 実世界の訓練データのシーン構成に関する事前情報がないこと。 二 シミュレーション画像と実世界の画像との領域シフト これらの問題に対処するため, 深度蒸留に適した枠組みを提案する。 このフレームワークは、ターゲットドメインに複数の可能なオブジェクト配置を受け入れるための新しいトレーニングサンプルを生成し、変換ネットワークを利用して教師モデルに保存された特徴統計に効率的に適応する。 様々な深度推定モデルと2つの異なるデータセットに関する広範な実験により,本手法はベースラインKDよりも良好なマージンを達成し,トレーニング画像の1/6までをわずかに向上させ,明らかな優位性を示した。

We study data-free knowledge distillation (KD) for monocular depth estimation (MDE), which learns a lightweight model for real-world depth perception tasks by compressing it from a trained teacher model while lacking training data in the target domain. Owing to the essential difference between image classification and dense regression, previous methods of data-free KD are not applicable to MDE. To strengthen its applicability in real-world tasks, in this paper, we propose to apply KD with out-of-distribution simulated images. The major challenges to be resolved are i) lacking prior information about scene configurations of real-world training data and ii) domain shift between simulated and real-world images. To cope with these difficulties, we propose a tailored framework for depth distillation. The framework generates new training samples for embracing a multitude of possible object arrangements in the target domain and utilizes a transformation network to efficiently adapt them to the feature statistics preserved in the teacher model. Through extensive experiments on various depth estimation models and two different datasets, we show that our method outperforms the baseline KD by a good margin and even achieves slightly better performance with as few as 1/6 of training images, demonstrating a clear superiority.
翻訳日:2023-12-11 19:23:03 公開日:2023-12-08
# 分散データにおける協調因果推論

Collaborative causal inference on distributed data ( http://arxiv.org/abs/2208.07898v4 )

ライセンス: Link先を確認
Yuji Kawamata, Ryoki Motai, Yukihiko Okada, Akira Imakura, Tetsuya Sakurai(参考訳) 近年,分散データのプライバシ保護に伴う因果推論技術の発展が注目されている。 既存の分散データの方法の多くは、被験者の欠如(サンプル)を解決することに集中しており、治療効果の推定においてランダムなエラーを減らすことしかできない。 本研究では,データ協調実験(DC-QE)を提案し,被験者と共変者の両方の欠如を解消し,ランダムな誤差と推定の偏りを低減させる。 本手法は,ローカルパーティの個人データから次元的に縮小した中間表現を構築し,プライバシ保存のためにプライベートデータの代わりに中間表現を共有すること,共有中間表現からプロパシティスコアを推定すること,最後にプロパサリティスコアから治療効果を推定することを含む。 実世界の人工データと実世界のデータの両方に関する数値実験により,本手法が個人分析よりも優れた推定結果をもたらすことを確認した。 次元減少は,個人データ内の情報を失い,性能低下を引き起こすが,中間表現の共有によって被検者不足を解消し,共変量化によって性能が改善され,次元減少に起因する劣化を克服できる。 外的妥当性は必ずしも保証されていないが,本研究の結果はDC-QEが有望な方法であることを示している。 この手法を広く利用することで、中間表現をオープンデータとして公開することで、研究者が因果関係を発見し、知識ベースを蓄積するのに役立つ。

In recent years, the development of technologies for causal inference with privacy preservation of distributed data has gained considerable attention. Many existing methods for distributed data focus on resolving the lack of subjects (samples) and can only reduce random errors in estimating treatment effects. In this study, we propose a data collaboration quasi-experiment (DC-QE) that resolves the lack of both subjects and covariates, reducing random errors and biases in the estimation. Our method involves constructing dimensionality-reduced intermediate representations from private data from local parties, sharing intermediate representations instead of private data for privacy preservation, estimating propensity scores from the shared intermediate representations, and finally, estimating the treatment effects from propensity scores. Through numerical experiments on both artificial and real-world data, we confirm that our method leads to better estimation results than individual analyses. While dimensionality reduction loses some information in the private data and causes performance degradation, we observe that sharing intermediate representations with many parties to resolve the lack of subjects and covariates sufficiently improves performance to overcome the degradation caused by dimensionality reduction. Although external validity is not necessarily guaranteed, our results suggest that DC-QE is a promising method. With the widespread use of our method, intermediate representations can be published as open data to help researchers find causalities and accumulate a knowledge base.
翻訳日:2023-12-11 19:22:42 公開日:2023-12-08
# 生成AI時代の責任AIに向けて:基礎モデルに基づくシステム設計のための参照アーキテクチャ

Towards Responsible AI in the Era of Generative AI: A Reference Architecture for Designing Foundation Model based Systems ( http://arxiv.org/abs/2304.11090v3 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Jon Whittle(参考訳) ChatGPTのリリースはファンデーションモデルに大きな関心を集めている。 ファンデーションモデルが将来のAIシステムの基本的なビルディングブロックになる、という広いコンセンサスがある。 しかし、アーキテクチャ設計に関する体系的なガイダンスが不足している。 特に、ファウンデーションモデルの急速に成長する能力は、最終的にはaiシステムの他のコンポーネントを吸収し、アーキテクチャ設計における境界移動とインターフェースの進化の課題となる。 さらに、基礎モデルをAIシステムに組み込むことは、不透明な性質と急速に進歩するインテリジェンスのために、責任あるAIに関する重要な懸念を提起する。 これらの課題に対処するため,本論文では,基礎モデル時代におけるAIシステムのアーキテクチャ進化について,"境界モデル・アズ・ア・コネクタ"から"境界モデル・ア・ア・モノリシックアーキテクチャ"へ移行した。 この論文は、鍵となる設計決定を特定し、責任ある基礎モデルベースのシステムを設計するためのパターン指向の参照アーキテクチャを提案する。 このパターンは、関連するリスクを最小限にしつつ、基礎モデルの可能性を可能にする。

The release of ChatGPT has drawn huge interests on foundations models. There is a broad consensus that foundations models will be the fundamental building blocks for future AI systems. However, there is a lack of systematic guidance on the architecture design. Particularly, the the rapidly growing capabilities of foundations models can eventually absorb other components of AI systems, posing challenges of moving boundary and interface evolution in architecture design. Furthermore, incorporating foundations models into AI systems raises significant concerns about responsible AI due to their opaque nature and rapidly advancing intelligence. To address these challenges, the paper first presents an architecture evolution of AI systems in the era of foundation models, transitioning from "foundation-model-as-a-connector" to "foundation-model-as-a-monolithic architecture". The paper then identifies key design decisions and proposes a pattern-oriented reference architecture for designing responsible foundation-model-based systems. The patterns can enable the potential of foundation models while minimising associated risks.
翻訳日:2023-12-11 19:16:32 公開日:2023-12-08
# 損失最小化による大規模ニューラルネットワークの多重校正

Loss Minimization Yields Multicalibration for Large Neural Networks ( http://arxiv.org/abs/2304.09424v2 )

ライセンス: Link先を確認
Jaros{\l}aw B{\l}asiok, Parikshit Gopalan, Lunjia Hu, Adam Tauman Kalai, Preetum Nakkiran(参考訳) マルチキャリブレーション(multicalcalibration)は、多数の保護されたグループにわたって校正された予測を提供することを要求する予測者にとって公平性(fairness)の概念である。 多重化は、線形関数のような単純な予測子であっても、損失最小化とは異なる目標であることが知られている。 本研究では,保護された群をサイズ$k$のニューラルネットワークで表現し,予測器をサイズ$n > k$のニューラルネットワークとする。 私たちは、サイズが$n$のニューラルネットの2乗損失を最小化することは、不運な値の有界な数を除くすべての値の多重化を意味することを示している。 我々はまた、我々の証明手法を考えると、不運な値の数の制限がきつくいることの証拠を与える。 従来は、最小化を損なうフレーバーがマルチキャリブレーションをもたらすことは、真実に近い予測者に対してのみ知られていたため、適用性は比較的限られていた。 これらの結果とは異なり, ニューラルネットの表現性に依拠し, 予測器の表現を利用する。

Multicalibration is a notion of fairness for predictors that requires them to provide calibrated predictions across a large set of protected groups. Multicalibration is known to be a distinct goal than loss minimization, even for simple predictors such as linear functions. In this work, we consider the setting where the protected groups can be represented by neural networks of size $k$, and the predictors are neural networks of size $n > k$. We show that minimizing the squared loss over all neural nets of size $n$ implies multicalibration for all but a bounded number of unlucky values of $n$. We also give evidence that our bound on the number of unlucky values is tight, given our proof technique. Previously, results of the flavor that loss minimization yields multicalibration were known only for predictors that were near the ground truth, hence were rather limited in applicability. Unlike these, our results rely on the expressivity of neural nets and utilize the representation of the predictor.
翻訳日:2023-12-11 19:16:13 公開日:2023-12-08
# 臨界1+1Dアベリアン・ヒッグス模型のスペクトル特性

Spectral properties of critical 1+1D Abelian-Higgs model ( http://arxiv.org/abs/2304.01030v3 )

ライセンス: Link先を確認
Titas Chanda, Marcello Dalmonte, Maciej Lewenstein, Jakub Zakrzewski, Luca Tagliacozzo(参考訳) 1+1d におけるゲージ対称性の存在は、動的ゲージボソンの存在を意味するものではないため冗長であることが知られている。 その結果、連続体において、光子と相互作用するボソニック物質の理論は、高次元ヒッグスとクーロン相が非摂動効果によって連結されるため、単一の位相を持つ。 しかし, [phys. rev. lett. 18, 090601 (2022)] で発表された最近の研究により, 格子上で系を離散化した場合の予期せぬ相転移が明らかになった。 この遷移は中心電荷が$c=3/2$である共形場理論によって記述される。 本稿では、この$c=3/2$理論の2つの成分、すなわち自由マヨラナフェルミオンおよびボゾン成分を平衡および外平衡スペクトル分析によって特徴づけることを目的とする。

The presence of gauge symmetry in 1+1D is known to be redundant, since it does not imply the existence of dynamical gauge bosons. As a consequence, in the continuum, the Abelian-Higgs model, the theory of bosonic matter interacting with photons, just possesses a single phase, as the higher dimensional Higgs and Coulomb phases are connected via non-perturbative effects. However, recent research published in [Phys. Rev. Lett. 128, 090601 (2022)] has revealed an unexpected phase transition when the system is discretized on the lattice. This transition is described by a conformal field theory with a central charge of $c=3/2$. In this paper, we aim to characterize the two components of this $c=3/2$ theory -- namely the free Majorana fermionic and bosonic parts -- through equilibrium and out-of-equilibrium spectral analyses.
翻訳日:2023-12-11 19:15:24 公開日:2023-12-08
# トランスモンカプラによるKerr-cat量子ビット間のZZ$結合の制御

Control of the $ZZ$ coupling between Kerr-cat qubits via transmon couplers ( http://arxiv.org/abs/2303.16622v3 )

ライセンス: Link先を確認
Takaaki Aoki, Taro Kanao, Hayato Goto, Shiro Kawabata, and Shumpei Masuda(参考訳) Kerr-cat量子ビットは、エラーのバイアスの性質のため、フォールトトレラント量子コンピュータの有望な候補である。 キュービット間の$zz$結合は、2キュービットのエンタングリングゲートで使用できるが、$zz$ crosstalkと呼ばれる残差結合は正確な計算に不利である。 この問題を解決するために、2つのトランスモンカプラを用いた$ZZ$-couplingスキームを提案する。 2つのカプラーのデチューニングを反対の値に設定することで、2つのカプラーによる残りの$zz$カップリングが互いにキャンセルされる。 また、我々のスキームを2量子エンタングルゲートの1つである$R_{zz}(\Theta)$ gate(ZZ$ rotation with angle $\Theta$)に適用する。 我々は,$R_{zz}(-\pi/2)$ gateの忠実度が$16$-nsのゲート時間の場合,99.9%以上であり,デコヒーレンスがないことを示す。

Kerr-cat qubits are a promising candidate for fault-tolerant quantum computers owing to the biased nature of their errors. The $ZZ$ coupling between the qubits can be utilized for a two-qubit entangling gate, but the residual coupling called $ZZ$ crosstalk is detrimental to precise computing. In order to resolve this problem, we propose a tunable $ZZ$-coupling scheme using two transmon couplers. By setting the detunings of the two couplers at opposite values, the residual $ZZ$ couplings via the two couplers cancel each other out. We also apply our scheme to the $R_{zz}(\Theta)$ gate ($ZZ$ rotation with angle $\Theta$), one of the two-qubit entangling gates. We numerically show that the fidelity of the $R_{zz}(-\pi/2)$ gate is higher than 99.9% in a case of $16$-ns gate time and without decoherence.
翻訳日:2023-12-11 19:15:06 公開日:2023-12-08
# SEAM: 読み上げにおける文処理と眼球運動の統合的活性化結合モデル

SEAM: An Integrated Activation-Coupled Model of Sentence Processing and Eye Movements in Reading ( http://arxiv.org/abs/2303.05221v3 )

ライセンス: Link先を確認
Maximilian M. Rabe, Dario Paape, Daniela Mertzen, Shravan Vasishth, Ralf Engbert(参考訳) 読書中の眼球運動制御のモデルは、主に心理学内で発達し、視覚的、注意的、語彙的、運動的プロセスに焦点をあてるが、語彙後言語処理は無視する。 眼球運動制御と文処理を統合した2つの研究スレッドを組み合わせたモデルを提案する。 このような統合モデルの開発は極めて困難かつ計算的に要求されるが、このような統合は自然言語理解の完全な数学的モデルへの重要な一歩である。 我々は、眼球運動制御のSWIFTモデル(Seelig et al., 2020, doi:10.1016/j.jmp.2019.102313)とLewis & Vasishth文処理モデルのキーコンポーネント(Lewis & Vasishth, 2005, doi:10.1207/s15516709cog0000_25)を組み合わせる。 この統合は、動的モデルにおけるパラメータ識別が成功した最近の進歩により、初めて可能となり、個々のモデルパラメータのプロファイルログライク度を調査できる。 本手法は,マルコフ連鎖モンテカルロ(mcmc)サンプリングを用いたベイズモデル推論を主要な計算ツールとして用いた。 統合されたセンテンス・プロセシングとアイモーメント・アクティベーション・カップリング・モデル(SEAM)は、類似性に基づく読書の干渉によって生じる眼球運動パターンをうまく再現することができる。 我々の知る限り、これは文理解における言語依存補完プロセスと眼球運動制御の完全なプロセスモデルの統合として初めてである。 今後の研究では、この概念モデルを包括的なベンチマークデータを用いて評価する必要がある。

Models of eye-movement control during reading, developed largely within psychology, usually focus on visual, attentional, lexical, and motor processes but neglect post-lexical language processing; by contrast, models of sentence comprehension processes, developed largely within psycholinguistics, generally focus only on post-lexical language processes. We present a model that combines these two research threads, by integrating eye-movement control and sentence processing. Developing such an integrated model is extremely challenging and computationally demanding, but such an integration is an important step toward complete mathematical models of natural language comprehension in reading. We combine the SWIFT model of eye-movement control (Seelig et al., 2020, doi:10.1016/j.jmp.2019.102313) with key components of the Lewis and Vasishth sentence processing model (Lewis & Vasishth, 2005, doi:10.1207/s15516709cog0000_25). This integration becomes possible, for the first time, due in part to recent advances in successful parameter identification in dynamical models, which allows us to investigate profile log-likelihoods for individual model parameters. We present a fully implemented proof-of-concept model demonstrating how such an integrated model can be achieved; our approach includes Bayesian model inference with Markov Chain Monte Carlo (MCMC) sampling as a key computational tool. The integrated Sentence-Processing and Eye-Movement Activation-Coupled Model (SEAM) can successfully reproduce eye movement patterns that arise due to similarity-based interference in reading. To our knowledge, this is the first-ever integration of a complete process model of eye-movement control with linguistic dependency completion processes in sentence comprehension. In future work, this proof of concept model will need to be evaluated using a comprehensive set of benchmark data.
翻訳日:2023-12-11 19:14:46 公開日:2023-12-08
# 歪みの異なるコントラスト学習

Distortion-Disentangled Contrastive Learning ( http://arxiv.org/abs/2303.05066v3 )

ライセンス: Link先を確認
Jinfeng Wang, Sifan Song, Jionglong Su, and S. Kevin Zhou(参考訳) 自己教師付き学習は、表現学習と様々な下流コンピュータビジョンタスクにおける顕著な性能で有名である。 近年,Positive-pair-Only Contrastive Learning (POCL) は,正負のトレーニングセットを構築することなく信頼性の高いパフォーマンスを実現している。 バッチサイズへの依存性を少なくすることで、メモリ要件を削減する。 POCL法は通常、1つの損失関数を用いて歪み不変表現(DIR)を抽出し、異なる歪みに影響を受ける正対表現の近接を記述する。 この損失関数は、異なる歪みに影響を受ける歪み変動表現(DVR)を暗黙的にフィルタリングまたは無視することができる。 しかし、既存のPOCL法は、実際に価値のあるDVRの混乱と利用を明示的に強制するものではない。 さらに,これらのPOCL法は拡張戦略に敏感であることが観察されている。 これらの制約に対処するため、DCL(Distortion-Disentangled Contrastive Learning)とDDL(Distortion-Disentangled Loss)という新しいPOCLフレームワークを提案する。 我々のアプローチは、モデルと特徴ストリーム内のDVRを明示的に切り離し、活用して、全体的な表現利用効率、堅牢性、表現能力を改善する最初の方法です。 実験により、いくつかのベンチマークデータセットにおける収束性、表現品質、堅牢性の観点から、Barlow Twins と Simsiam に対する我々のフレームワークの優位性を実証した。

Self-supervised learning is well known for its remarkable performance in representation learning and various downstream computer vision tasks. Recently, Positive-pair-Only Contrastive Learning (POCL) has achieved reliable performance without the need to construct positive-negative training sets. It reduces memory requirements by lessening the dependency on the batch size. The POCL method typically uses a single loss function to extract the distortion invariant representation (DIR) which describes the proximity of positive-pair representations affected by different distortions. This loss function implicitly enables the model to filter out or ignore the distortion variant representation (DVR) affected by different distortions. However, existing POCL methods do not explicitly enforce the disentanglement and exploitation of the actually valuable DVR. In addition, these POCL methods have been observed to be sensitive to augmentation strategies. To address these limitations, we propose a novel POCL framework named Distortion-Disentangled Contrastive Learning (DDCL) and a Distortion-Disentangled Loss (DDL). Our approach is the first to explicitly disentangle and exploit the DVR inside the model and feature stream to improve the overall representation utilization efficiency, robustness and representation ability. Experiments carried out demonstrate the superiority of our framework to Barlow Twins and Simsiam in terms of convergence, representation quality, and robustness on several benchmark datasets.
翻訳日:2023-12-11 19:14:10 公開日:2023-12-08
# 結合部分微分方程式に対する結合型マルチウェーブレットニューラル演算子学習

Coupled Multiwavelet Neural Operator Learning for Coupled Partial Differential Equations ( http://arxiv.org/abs/2303.02304v4 )

ライセンス: Link先を確認
Xiongye Xiao, Defu Cao, Ruochen Yang, Gaurav Gupta, Gengshuo Liu, Chenzhong Yin, Radu Balan, Paul Bogdan(参考訳) 結合偏微分方程式(英語版)(pdes)は、多くの物理過程の複雑なダイナミクスをモデル化する上で重要なタスクである。 近年、ニューラルネットワークは、積分核を直接フーリエ/ウェーブレット空間で学習することでpdesを解く能力を示しており、結合pdesを解くのは、関数間の結合写像を扱うことに依存する。 そこで本研究では,多重ウェーブレット分解とウェーブレット空間の再構成の過程において結合された積分核を分離することにより,textit{coupled multiwavelets neural operator} (cmwno) 学習方式を提案する。 提案モデルでは,Gray-Scott (GS) 方程式や非局所平均場ゲーム (MFG) 問題を含む結合型 PDE の解法において,従来の学習ベースの解法に比べて精度が大幅に向上する。 実験結果によると, 提案モデルでは, 最先端モデルと比較すると, 相対的な$L$2の誤差に対して2\times \sim 4\times$改善率を示す。

Coupled partial differential equations (PDEs) are key tasks in modeling the complex dynamics of many physical processes. Recently, neural operators have shown the ability to solve PDEs by learning the integral kernel directly in Fourier/Wavelet space, so the difficulty for solving the coupled PDEs depends on dealing with the coupled mappings between the functions. Towards this end, we propose a \textit{coupled multiwavelets neural operator} (CMWNO) learning scheme by decoupling the coupled integral kernels during the multiwavelet decomposition and reconstruction procedures in the Wavelet space. The proposed model achieves significantly higher accuracy compared to previous learning-based solvers in solving the coupled PDEs including Gray-Scott (GS) equations and the non-local mean field game (MFG) problem. According to our experimental results, the proposed model exhibits a $2\times \sim 4\times$ improvement relative $L$2 error compared to the best results from the state-of-the-art models.
翻訳日:2023-12-11 19:13:41 公開日:2023-12-08
# 自由フェルミオンのモニタリング力学に対する非線形シグマモデル

Nonlinear sigma models for monitored dynamics of free fermions ( http://arxiv.org/abs/2302.12820v2 )

ライセンス: Link先を確認
Michele Fava, Lorenzo Piroli, Tobias Swann, Denis Bernard, Adam Nahum(参考訳) 自由フェルミオン系における計測誘起相転移の場理論記述を導出する。 我々は,局所フェルミオンパリティ作用素の連続的監視により,ハミルトニアン進化を行うマルチフレーバーマヨラナ連鎖に注目した。 レプリカ・トリックを用いて、実効スピンチェーンの想像上の時間発展にダイナミクスをマッピングし、実効場理論の制御された導出のための大きなパラメータとしてフレーバーの数を用いる。 これは直交$N\times N$行列に対する非線形シグマモデルであり、レプリカ極限$N\to 1$である。 (位相図の境界上では、より対称性の高い別のシグマモデルを適用する。) 再正規化群ベータ関数の既知の結果と共に、この導出は、物理的に関係のあるレプリカ制限 $n\to 1$ において、それぞれ非自明な絡み合いと絡み合いを持つ安定相の存在を確立する。 非自明なフェーズでは、漸近的に厳密な計算により、サイズが$l$のシステムに対する二成分の絡み合いエントロピーは、前述したモデルの発見とは対照的に$(\log l)^2$となる。 ハミルトンの進化とモニタリングの相対的な強度と二量化パラメータを考慮し、モデルの位相図は非自明な位相からの遷移を含み、シグマモデルの渦非結合遷移に写像し、また測定専用軸上の別の臨界点も含む。 我々は、混乱したシステムにおけるアンダーソン遷移に対するレプリカアプローチとの違いだけでなく、類似点も強調する。

We derive field theory descriptions for measurement-induced phase transitions in free fermion systems. We focus on a multi-flavor Majorana chain, undergoing Hamiltonian evolution with continuous monitoring of local fermion parity operators. Using the replica trick, we map the dynamics to the imaginary time evolution of an effective spin chain, and use the number of flavors as a large parameter for a controlled derivation of the effective field theory. This is a nonlinear sigma model for an orthogonal $N\times N$ matrix, in the replica limit $N\to 1$. (On a boundary of the phase diagram, another sigma model with higher symmetry applies.) Together with known results for the renormalization-group beta function, this derivation establishes the existence of stable phases -- nontrivially entangled and disentangled respectively -- in the physically-relevant replica limit $N\to 1$. In the nontrivial phase, an asymptotically exact calculation shows that the bipartite entanglement entropy for a system of size $L$ scales as $(\log L)^2$, in contrast to findings in previously-studied models. Varying the relative strength of Hamiltonian evolution and monitoring, as well as a dimerization parameter, the model's phase diagram contains transitions out of the nontrivial phase, which we map to vortex-unbinding transitions in the sigma model, and also contains separate critical points on the measurement-only axis. We highlight the close analogies as well as the differences with the replica approach to Anderson transitions in disordered systems.
翻訳日:2023-12-11 19:13:22 公開日:2023-12-08
# DisCO:3D GANを用いた画像歪み補正

DisCO: Portrait Distortion Correction with Perspective-Aware 3D GANs ( http://arxiv.org/abs/2302.12253v3 )

ライセンス: Link先を確認
Zhixiang Wang, Yu-Lun Liu, Jia-Bin Huang, Shin'ichi Satoh, Sizhuo Ma, Gurunandan Krishnan, Jian Wang(参考訳) 短い距離で撮影されたクローズアップ顔画像は、しばしば視点歪みに悩まされ、誇張された顔の特徴と非自然な外観をもたらす。 本論文では,単一クローズアップ面における遠近歪みを簡易かつ効果的に補正する手法を提案する。 まず,カメラ内在/外在パラメータと顔潜在コードを共同で最適化し,遠近差入力顔画像を用いてganインバージョンを行う。 共同最適化のあいまいさに対処するため,距離の短さ,最適化の最適化,再パラメータ化,幾何正則化から始める。 適切な焦点距離とカメラ距離でポートレートを再レンダリングすることで、視点歪みを効果的に補正し、より自然な結果が得られる。 実験の結果,提案手法は従来手法と定性的,定量的に比較できることがわかった。 本手法の適用性を示す多くの例を,地中ポートレート写真に紹介する。 今後の作業を促進するために、コードと評価プロトコルをリリースします。

Close-up facial images captured at short distances often suffer from perspective distortion, resulting in exaggerated facial features and unnatural/unattractive appearances. We propose a simple yet effective method for correcting perspective distortions in a single close-up face. We first perform GAN inversion using a perspective-distorted input facial image by jointly optimizing the camera intrinsic/extrinsic parameters and face latent code. To address the ambiguity of joint optimization, we develop starting from a short distance, optimization scheduling, reparametrizations, and geometric regularization. Re-rendering the portrait at a proper focal length and camera distance effectively corrects perspective distortions and produces more natural-looking results. Our experiments show that our method compares favorably against previous approaches qualitatively and quantitatively. We showcase numerous examples validating the applicability of our method on in-the-wild portrait photos. We will release our code and the evaluation protocol to facilitate future work.
翻訳日:2023-12-11 19:12:52 公開日:2023-12-08
# 動的ニューラルネットワークにおける過信の固定

Fixing Overconfidence in Dynamic Neural Networks ( http://arxiv.org/abs/2302.06359v4 )

ライセンス: Link先を確認
Lassi Meronen, Martin Trapp, Andrea Pilzer, Le Yang, Arno Solin(参考訳) 動的ニューラルネットワークは、入力の難易度に計算コストを動的に適応させることにより、現代のディープラーニングモデルのサイズを増大させる、最近の技術である。 このように、モデルは限られた計算予算に調整することができる。 しかしながら、ディープラーニングモデルにおける不確実性推定の質が低ければ、難しいサンプルと簡単なサンプルの区別が困難になる。 この課題に対処するために,動的ニューラルネットワークにおけるポストホック不確実性定量化のための計算効率の高い手法を提案する。 本稿では,最終層を確率論的に処理することで,アレテータ的不確実性と認識的不確実性の両方を適切に定量化し計算し,計算予算を決定する際の意思決定を支援することを示す。 実験では,CIFAR-100, ImageNet, Caltech-256の精度, 精度, 不確実性, 校正誤差について改善点を示す。

Dynamic neural networks are a recent technique that promises a remedy for the increasing size of modern deep learning models by dynamically adapting their computational cost to the difficulty of the inputs. In this way, the model can adjust to a limited computational budget. However, the poor quality of uncertainty estimates in deep learning models makes it difficult to distinguish between hard and easy samples. To address this challenge, we present a computationally efficient approach for post-hoc uncertainty quantification in dynamic neural networks. We show that adequately quantifying and accounting for both aleatoric and epistemic uncertainty through a probabilistic treatment of the last layers improves the predictive performance and aids decision-making when determining the computational budget. In the experiments, we show improvements on CIFAR-100, ImageNet, and Caltech-256 in terms of accuracy, capturing uncertainty, and calibration error.
翻訳日:2023-12-11 19:12:25 公開日:2023-12-08
# 未熟児網膜症の深部学習分類を改善するための新しいretcam画像前処理法

Novel Fundus Image Preprocessing for Retcam Images to Improve Deep Learning Classification of Retinopathy of Prematurity ( http://arxiv.org/abs/2302.02524v4 )

ライセンス: Link先を確認
Sajid Rahim, Kourosh Sabri, Anna Ells, Alan Wassyng, Mark Lawford, Linyang Chu, Wenbo He(参考訳) 未熟児網膜症(英: retinopathy of prematurity, rop)は、未熟児に影響を及ぼす網膜の損傷による眼疾患である。 ROPのスクリーニングは早期発見と治療に不可欠である。 これは精力的で手作業による作業であり、臨床上重要な疾患の診断成功率を低下させる主観的な眼科検査を訓練された医師が行う必要がある。 自動診断法は、深層学習を用いて眼科医が診断精度を向上させるのに役立つ。 いくつかの研究グループが様々なアプローチを強調している。 撮影されたrop retcam画像は品質が悪い。 本稿では,事前学習フレームワークを用いた新しい基礎前処理手法を用いてハイブリッドモデルを構築し,診断精度を高めることを提案する。 その結果、従来の画像処理と比較した新しい手法は、プラス疾患の分類、ropの段階、およびピア論文と比較した場合のゾーンの精度向上に寄与することが明らかとなった。

Retinopathy of Prematurity (ROP) is a potentially blinding eye disorder because of damage to the eye's retina which can affect babies born prematurely. Screening of ROP is essential for early detection and treatment. This is a laborious and manual process which requires trained physician performing dilated ophthalmological examination which can be subjective resulting in lower diagnosis success for clinically significant disease. Automated diagnostic methods can assist ophthalmologists increase diagnosis accuracy using deep learning. Several research groups have highlighted various approaches. Captured ROP Retcam images suffer from poor quality. This paper proposes the use of improved novel fundus preprocessing methods using pretrained transfer learning frameworks to create hybrid models to give higher diagnosis accuracy. Once trained and validated, the evaluations showed that these novel methods in comparison to traditional imaging processing contribute to better and in many aspects higher accuracy in classifying Plus disease, Stages of ROP and Zones in comparison to peer papers.
翻訳日:2023-12-11 19:12:08 公開日:2023-12-08
# HyPHEN: 同相暗号ベースニューラルネットワークのハイブリッドパッキング法と最適化

HyPHEN: A Hybrid Packing Method and Optimizations for Homomorphic Encryption-Based Neural Networks ( http://arxiv.org/abs/2302.02407v2 )

ライセンス: Link先を確認
Donghwan Kim, Jaiyoung Park, Jongmin Kim, Sangpyo Kim, Jung Ho Ahn(参考訳) 完全同型暗号化(FHE)を用いた畳み込みニューラルネットワーク(CNN)推論は、センシティブなユーザデータのプライバシーを保護しながら、計算プロセス全体をサーバにオフロード可能にするFHEの機能により、有望なプライベート推論(PI)ソリューションである。 FHEベースのCNN(HCNN)の研究は、FHEを使用してResNetのようなディープニューラルネットワークアーキテクチャを構築する可能性を示している。 これらの進歩にもかかわらず、HCNNは高い計算とメモリオーバーヘッドのため、実用性において大きな課題に直面している。 このような制約を克服するため、新しい畳み込みアルゴリズム(RAConvとCAConv)、データパッキング手法(2DギャップパッキングとPRCRスキーム)、HCNN構築に適した最適化技術を含む深層HCNN構築法であるHyPHENを提案する。 このような拡張により、HyPHENはメモリフットプリントを大幅に削減し、暗号文のローテーションやブートストラップのような高価な同型演算の数を削減できる。 その結果、HyPHENはHCNN CIFAR-10推論のレイテンシを1.4秒(ResNet-20)で実践レベルまで下げ、初めて14.7秒(ResNet-18)でHCNN ImageNet推論を示す。

Convolutional neural network (CNN) inference using fully homomorphic encryption (FHE) is a promising private inference (PI) solution due to the capability of FHE that enables offloading the whole computation process to the server while protecting the privacy of sensitive user data. Prior FHE-based CNN (HCNN) work has demonstrated the feasibility of constructing deep neural network architectures such as ResNet using FHE. Despite these advancements, HCNN still faces significant challenges in practicality due to the high computational and memory overhead. To overcome these limitations, we present HyPHEN, a deep HCNN construction that incorporates novel convolution algorithms (RAConv and CAConv), data packing methods (2D gap packing and PRCR scheme), and optimization techniques tailored to HCNN construction. Such enhancements enable HyPHEN to substantially reduce the memory footprint and the number of expensive homomorphic operations, such as ciphertext rotation and bootstrapping. As a result, HyPHEN brings the latency of HCNN CIFAR-10 inference down to a practical level at 1.4 seconds (ResNet-20) and demonstrates HCNN ImageNet inference for the first time at 14.7 seconds (ResNet-18).
翻訳日:2023-12-11 19:11:54 公開日:2023-12-08
# ニューラルネットワークの予兆を想像する

Provably Bounding Neural Network Preimages ( http://arxiv.org/abs/2302.01404v3 )

ライセンス: Link先を確認
Suhas Kotha, Christopher Brix, Zico Kolter, Krishnamurthy Dvijotham, Huan Zhang(参考訳) ニューラルネットワークの形式的検証に関するほとんどの作業は、与えられた入力セットに対応する出力の集合(例えば、名目入力の有界摂動)の束縛に焦点を当てている。 しかし、ニューラルネットワーク検証の多くのユースケースでは、逆問題を解くか、特定のアウトプットにつながる入力セットを過剰に近似する必要がある。 InVPROPアルゴリズムは線形に制約された出力セットのプリイメージ上の特性を検証し、分岐とバウンドを組み合わせて精度を向上させる。 他のアプローチとは対照的に、効率的なアルゴリズムはgpuアクセラレーションであり、線形プログラミングソルバを必要としない。 本アルゴリズムは,後方到達性解析による動的システムの安全な制御領域の同定,逆ロバスト性の検証,ニューラルネットワークへの分散入力の検出を行う。 その結果, 従来よりも2.5倍速く, 2500倍以上の過近似が得られていることがわかった。 出力制約によるロバスト性検証を強化することで、VNN-COMP 2023の167kのニューロンを含む複数のベンチマークにおいて、従来よりも多くの特性を一貫して検証する。 私たちのアルゴリズムは$\alpha,\! https://abcrown.orgで入手できる。

Most work on the formal verification of neural networks has focused on bounding the set of outputs that correspond to a given set of inputs (for example, bounded perturbations of a nominal input). However, many use cases of neural network verification require solving the inverse problem, or over-approximating the set of inputs that lead to certain outputs. We present the INVPROP algorithm for verifying properties over the preimage of a linearly constrained output set, which can be combined with branch-and-bound to increase precision. Contrary to other approaches, our efficient algorithm is GPU-accelerated and does not require a linear programming solver. We demonstrate our algorithm for identifying safe control regions for a dynamical system via backward reachability analysis, verifying adversarial robustness, and detecting out-of-distribution inputs to a neural network. Our results show that in certain settings, we find over-approximations over 2500x tighter than prior work while being 2.5x faster. By strengthening robustness verification with output constraints, we consistently verify more properties than the previous state-of-the-art on multiple benchmarks, including a large model with 167k neurons in VNN-COMP 2023. Our algorithm has been incorporated into the $\alpha,\!\beta$-CROWN verifier, available at https://abcrown.org.
翻訳日:2023-12-11 19:11:28 公開日:2023-12-08
# 適正化はいつ収量校正を損なうか?

When Does Optimizing a Proper Loss Yield Calibration? ( http://arxiv.org/abs/2305.18764v2 )

ライセンス: Link先を確認
Jaros{\l}aw B{\l}asiok, Parikshit Gopalan, Lunjia Hu, Preetum Nakkiran(参考訳) 適切な損失関数の最適化は、高いキャリブレーション特性を持つ予測器をもたらすと一般的に信じられており、直観的に言えば、この損失の全体的な最適は、実際にキャリブレーションされる地対地確率を予測することである。 しかし、一般的な機械学習モデルは、基礎的真実を含まない予測者の制限された家族に対する損失をほぼ最小に抑えるよう訓練されている。 制限された家族収量校正モデルに対する適切な損失の最適化はどのような状況で可能か? どんな正確なキャリブレーションが保証されますか。 本研究では,これらの質問に対する厳密な回答を提供する。 我々は、この大域的最適性を、リプシッツ関数の族で予測を後処理することで、予測器の(適切な)損失を低減できないという局所最適条件に置き換える。 この局所最適性を持つ予測器は、kakade-foster (2008), b{\l}asiok et al. (2023) で定義された滑らかなキャリブレーションを満たす。 局所的最適性は、適切に訓練されたdnnによって実現され、それが適切な損失最小化のみから校正される理由が示唆される。 最後に,局所的最適度とキャリブレーション誤差の相関関係を両方向で示す: ほぼ校正された予測器もほぼ局所的最適である。

Optimizing proper loss functions is popularly believed to yield predictors with good calibration properties; the intuition being that for such losses, the global optimum is to predict the ground-truth probabilities, which is indeed calibrated. However, typical machine learning models are trained to approximately minimize loss over restricted families of predictors, that are unlikely to contain the ground truth. Under what circumstances does optimizing proper loss over a restricted family yield calibrated models? What precise calibration guarantees does it give? In this work, we provide a rigorous answer to these questions. We replace the global optimality with a local optimality condition stipulating that the (proper) loss of the predictor cannot be reduced much by post-processing its predictions with a certain family of Lipschitz functions. We show that any predictor with this local optimality satisfies smooth calibration as defined in Kakade-Foster (2008), B{\l}asiok et al. (2023). Local optimality is plausibly satisfied by well-trained DNNs, which suggests an explanation for why they are calibrated from proper loss minimization alone. Finally, we show that the connection between local optimality and calibration error goes both ways: nearly calibrated predictors are also nearly locally optimal.
翻訳日:2023-12-11 19:05:43 公開日:2023-12-08
# ReLU-networksによる対称性のエンコード方法の検討

Investigating how ReLU-networks encode symmetries ( http://arxiv.org/abs/2305.17017v2 )

ライセンス: Link先を確認
Georg B\"okman and Fredrik Kahl(参考訳) 多くのデータ対称性は、群同値性と、ニューラルネットワークにおける群同分散を符号化する最も一般的な方法は、群同値である線形層を構築することである。 本研究は,ネットワークの等式がすべての層が等式であることを示すか否かを考察する。 理論面では、等式が層的等式を意味する場合が見つかるが、一般にはそうではないことを示す。 それでも、同変として訓練されたCNNが階層的に同値であることは予想し、この予想がエンテザリらによる最近の置換予想の弱いバージョンであることを示す。 [2022]. 我々は,CIFAR10上でのVGG-netを用いた定量的実験と,ImageNet上でのResNetsによる定性実験を行い,理論的知見を実証し,支持する。 これらの実験は、群同分散がrelu-ネットワークにどのようにエンコードされているかを理解することだけでなく、エンテザリらによる置換予想に対する新たな視点を与えている。

Many data symmetries can be described in terms of group equivariance and the most common way of encoding group equivariances in neural networks is by building linear layers that are group equivariant. In this work we investigate whether equivariance of a network implies that all layers are equivariant. On the theoretical side we find cases where equivariance implies layerwise equivariance, but also demonstrate that this is not the case generally. Nevertheless, we conjecture that CNNs that are trained to be equivariant will exhibit layerwise equivariance and explain how this conjecture is a weaker version of the recent permutation conjecture by Entezari et al. [2022]. We perform quantitative experiments with VGG-nets on CIFAR10 and qualitative experiments with ResNets on ImageNet to illustrate and support our theoretical findings. These experiments are not only of interest for understanding how group equivariance is encoded in ReLU-networks, but they also give a new perspective on Entezari et al.'s permutation conjecture as we find that it is typically easier to merge a network with a group-transformed version of itself than merging two different networks.
翻訳日:2023-12-11 19:05:18 公開日:2023-12-08
# グラフニューラルネットワークのグラフ-信号解析

A graphon-signal analysis of graph neural networks ( http://arxiv.org/abs/2305.15987v2 )

ライセンス: Link先を確認
Ron Levie(参考訳) 本稿では,グラフトン解析からいわゆるグラフトン信号解析への拡張に基づく,メッセージパッシンググラフニューラルネットワーク(MPNN)の解析手法を提案する。 MPNNはグラフとグラフ上の信号(グラフ信号)を取得し、ある値を返す関数である。 MPNNの入力空間はユークリッドではないため、グラフは任意の大きさとトポロジーを持つことができるため、一般化のような特性はユークリッドニューラルネットワークよりもMPNNではよく理解されていない。 我々は、過去の研究で欠落している重要な要素の一つが、正規構造を持つMPNNへの入力の空間を与えるグラフ信号類似度尺度の有意義な概念であると主張している。 このような類似性測度をgraphon-signal cut distance と呼び、すべてのgraph-signals の空間をコンパクト距離空間 -- graphon-signal space の高密度部分集合とする。 形式的には、2つの決定論的グラフ信号は同じランダムグラフ信号モデルから'look like'がサンプリングされた場合、カット距離に近づいた。 したがって、カット距離はグラフ信号類似性の自然な概念であり、任意の大きさと位相のグラフ信号対を比較することができる。 我々は、MPNNがグラフ-信号距離空間上のリプシッツ連続函数であることを証明した。 次にこの結果の応用を2つ挙げる。 1) mpnn に対する一般化,及び, 2)MPNNのグラフ信号のサブサンプリングに対する安定性 この結果はグラフ信号の任意の分布に対して十分なMPNNを適用でき、解析はより普遍的である。

We present an approach for analyzing message passing graph neural networks (MPNNs) based on an extension of graphon analysis to a so called graphon-signal analysis. A MPNN is a function that takes a graph and a signal on the graph (a graph-signal) and returns some value. Since the input space of MPNNs is non-Euclidean, i.e., graphs can be of any size and topology, properties such as generalization are less well understood for MPNNs than for Euclidean neural networks. We claim that one important missing ingredient in past work is a meaningful notion of graph-signal similarity measure, that endows the space of inputs to MPNNs with a regular structure. We present such a similarity measure, called the graphon-signal cut distance, which makes the space of all graph-signals a dense subset of a compact metric space -- the graphon-signal space. Informally, two deterministic graph-signals are close in cut distance if they ``look like'' they were sampled from the same random graph-signal model. Hence, our cut distance is a natural notion of graph-signal similarity, which allows comparing any pair of graph-signals of any size and topology. We prove that MPNNs are Lipschitz continuous functions over the graphon-signal metric space. We then give two applications of this result: 1) a generalization bound for MPNNs, and, 2) the stability of MPNNs to subsampling of graph-signals. Our results apply to any regular enough MPNN on any distribution of graph-signals, making the analysis rather universal.
翻訳日:2023-12-11 19:04:57 公開日:2023-12-08
# 後方防御のための再建型ニューロンプルーニング

Reconstructive Neuron Pruning for Backdoor Defense ( http://arxiv.org/abs/2305.14876v2 )

ライセンス: Link先を確認
Yige Li, Xixiang Lyu, Xingjun Ma, Nodens Koren, Lingjuan Lyu, Bo Li, Yu-Gang Jiang(参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱であることが判明し、ミッションクリティカルなアプリケーションへのデプロイに対するセキュリティ上の懸念が高まっている。 既存の防御方法は有望な結果を示してきたが、バックドアDNNのバックドア関連ニューロンを効果的に除去する方法はまだ明らかになっていない。 本稿では,未学習でバックドアニューロンを曝露し,その後回復する「emph{Reconstructive Neuron Pruning}(RNP)」と呼ばれる新しい防御法を提案する。 具体的には、RNPはまず、クリーンサンプルの小さなサブセットでモデルのエラーを最大化し、次に同じデータ上でモデルのエラーを最小化することで神経細胞を復元する。 RNPでは、アンラーニングはニューロンレベルで行われ、リカバリはフィルタレベルで行われ、非対称再構成学習手順を形成する。 このような非対称なプロセスは、少数のクリーンサンプルのみに対して、広範囲の攻撃によって移植されたバックドアニューロンを効果的に露出させ、プーンし、新しい最先端の防御性能を実現することができることを示す。 さらに, バックドア除去, トリガーリカバリ, バックドアラベル検出, バックドアサンプル検出など, バックドア防御作業の改善にRNPの中間段階における未学習モデルを直接利用することができる。 コードは \url{https://github.com/bboylyg/RNP} で入手できる。

Deep neural networks (DNNs) have been found to be vulnerable to backdoor attacks, raising security concerns about their deployment in mission-critical applications. While existing defense methods have demonstrated promising results, it is still not clear how to effectively remove backdoor-associated neurons in backdoored DNNs. In this paper, we propose a novel defense called \emph{Reconstructive Neuron Pruning} (RNP) to expose and prune backdoor neurons via an unlearning and then recovering process. Specifically, RNP first unlearns the neurons by maximizing the model's error on a small subset of clean samples and then recovers the neurons by minimizing the model's error on the same data. In RNP, unlearning is operated at the neuron level while recovering is operated at the filter level, forming an asymmetric reconstructive learning procedure. We show that such an asymmetric process on only a few clean samples can effectively expose and prune the backdoor neurons implanted by a wide range of attacks, achieving a new state-of-the-art defense performance. Moreover, the unlearned model at the intermediate step of our RNP can be directly used to improve other backdoor defense tasks including backdoor removal, trigger recovery, backdoor label detection, and backdoor sample detection. Code is available at \url{https://github.com/bboylyg/RNP}.
翻訳日:2023-12-11 19:04:15 公開日:2023-12-08
# ALGO: LLM生成Oracle検証によるアルゴリズムプログラムの合成

ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers ( http://arxiv.org/abs/2305.14591v3 )

ライセンス: Link先を確認
Kexun Zhang, Danqing Wang, Jingtao Xia, William Yang Wang, Lei Li(参考訳) 大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れ、実装だけでなく適切なアルゴリズムの識別も必要とするアルゴリズムの問題に対処する。 さらに、LLM生成プログラムは、保証された正確さを欠き、人間の検証を必要とする。 これらの課題に対処するため,アルゴリズムプログラムを LLM-Generated Oracle で合成するフレームワークであるALGO を提案する。 ALGOはまず、LLMに関連する変数のすべての組み合わせを包括的に列挙するように促すことで、参照オラクルを生成する。 このオラクルは、アルゴリズム空間の探索と合成アルゴリズムの検証において任意の探索戦略を導くために利用される。 症例の88%は, LLM産生のオークルが正しいことが示唆された。 oracle as verifiersを使えば、algoはモデルに依存しない方法で既存のコード生成モデルと統合でき、パフォーマンスが向上する。 ALGOを装着すると、Codexモデルよりも8倍、CodeTよりも2.6倍、最先端モデルであるCodeContestsよりも2.6倍の1サブミッションパス率が得られる。 また、見えない問題に対してChatGPT Code Interpreterよりも1.3倍のパスレートを得ることができる。 テストに使った問題セット,使用するプロンプト,検証プログラム,ソリューションプログラム,ALGOが生成するテストケースなどは,https://github.com/zkx06111/ALGOで公開されている。

Large language models (LLMs) excel at implementing code from functionality descriptions but struggle with algorithmic problems that require not only implementation but also identification of the suitable algorithm. Moreover, LLM-generated programs lack guaranteed correctness and require human verification. To address these challenges, we propose ALGO, a framework that synthesizes Algorithmic programs with LLM-Generated Oracles to guide the generation and verify their correctness. ALGO first generates a reference oracle by prompting an LLM to exhaustively enumerate all the combinations of relevant variables. This oracle is then utilized to guide an arbitrary search strategy in exploring the algorithm space and to verify the synthesized algorithms. Our study shows that the LLM-generated oracles are correct for 88% of the cases. With the oracles as verifiers, ALGO can be integrated with any existing code generation model in a model-agnostic manner to enhance its performance. Experiments show that when equipped with ALGO, we achieve an 8x better one-submission pass rate over the Codex model and a 2.6x better one-submission pass rate over CodeT, the current state-of-the-art model on CodeContests. We can also get 1.3x better pass rate over the ChatGPT Code Interpreter on unseen problems. The problem set we used for testing, the prompts we used, the verifier and solution programs, and the test cases generated by ALGO are available at https://github.com/zkx06111/ALGO.
翻訳日:2023-12-11 19:03:49 公開日:2023-12-08
# ラベル語はアンカーである:インコンテキスト学習を理解するための情報フロー視点

Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning ( http://arxiv.org/abs/2305.14160v2 )

ライセンス: Link先を確認
Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun(参考訳) In-context Learning (ICL)は、大規模言語モデル(LLM)の有望な能力として出現し、多様なタスクを実行するための実例を提供する。 しかしながら、llmが提供されたコンテキストからどのように学習するかのメカニズムは、まだ未検討のままである。 本稿では,情報フローレンズを用いたICLの動作機構について検討する。 その結果,(1)浅い計算層の処理中に意味情報がラベル語表現に集約され,(2)ラベル語に含まれる統合情報はllmsの最終予測の参照となることがわかった。 これらの知見に基づき、iclの性能向上のためのアンカー再重み付け法、推論を迅速化するデモンストレーション圧縮法、gpt2-xlにおけるiclエラーの診断のための分析フレームワークを提案する。 本研究の有望な応用は、未発見のICL作業機構を再び検証し、今後の研究の道を開くことである。

In-context learning (ICL) emerges as a promising capability of large language models (LLMs) by providing them with demonstration examples to perform diverse tasks. However, the underlying mechanism of how LLMs learn from the provided context remains under-explored. In this paper, we investigate the working mechanism of ICL through an information flow lens. Our findings reveal that label words in the demonstration examples function as anchors: (1) semantic information aggregates into label word representations during the shallow computation layers' processing; (2) the consolidated information in label words serves as a reference for LLMs' final predictions. Based on these insights, we introduce an anchor re-weighting method to improve ICL performance, a demonstration compression technique to expedite inference, and an analysis framework for diagnosing ICL errors in GPT2-XL. The promising applications of our findings again validate the uncovered ICL working mechanism and pave the way for future studies.
翻訳日:2023-12-11 19:03:11 公開日:2023-12-08
# NarrativeXL: 長期記憶モデルのための大規模データセット

NarrativeXL: A Large-scale Dataset For Long-Term Memory Models ( http://arxiv.org/abs/2305.13877v2 )

ライセンス: Link先を確認
Arseny Moskvichev and Ky-Vinh Mai(参考訳) 我々は,理解データセットを読み取る大規模(約100万問)の超長文(平均文書長5万語以上)を提案する。 GPT 3.5を用いて,プロジェクト・グーテンベルクから1500冊の手作業によるフィクションを要約し,約150巻のシーンレベルの要約を行った。 その後,3種類の複数場面認識質問や,自由形式の物語再構築質問など,これらの要約に基づく読解質問を多数作成した。 990,595の質問で、我々のデータセットは最も近い選択肢よりも桁違いに大きい。 重要な点として、ほとんどの質問は ''retention demand'' として知られており、メモリの長期的パフォーマンス評価にどれだけの回答が必要かを示している。 我々は、人間のラベルを付けた実験と、既存の言語モデルを使った実験の4つの小さな実験でデータを検証した。 私たちは質問に答える 1)原材料を適切に表現する 2)モデルのメモリ容量の診断に使用することができる。 3) メモリ需要がそれらのモデルのコンテキスト長を超えない場合でも、現代の言語モデルにとって自明ではない。 最後に、最小限の人的労力でデータセットをさらに拡張するために使用できるコードを提供します。

We propose a new large-scale (nearly a million questions) ultra-long-context (more than 50,000 words average document length) reading comprehension dataset. Using GPT 3.5, we summarized each scene in 1,500 hand-curated fiction books from Project Gutenberg, which resulted in approximately 150 scene-level summaries per book. After that, we created a number of reading comprehension questions based on these summaries, including three types of multiple-choice scene recognition questions, as well as free-form narrative reconstruction questions. With 990,595 total questions, our dataset is an order of magnitude larger than the closest alternatives. Crucially, most questions have a known ``retention demand'', indicating how long-term of a memory is needed to answer them, which should aid long-term memory performance evaluation. We validate our data in four small-scale experiments: one with human labelers, and three with existing language models. We show that our questions 1) adequately represent the source material 2) can be used to diagnose a model's memory capacity 3) are not trivial for modern language models even when the memory demand does not exceed those models' context lengths. Lastly, we provide our code which can be used to further expand the dataset with minimal human labor.
翻訳日:2023-12-11 19:02:56 公開日:2023-12-08
# ダイナミックオーディオ・ビジュアルシナリオにおける質問への回答によるターゲット対応時空間推論

Target-Aware Spatio-Temporal Reasoning via Answering Questions in Dynamics Audio-Visual Scenarios ( http://arxiv.org/abs/2305.12397v2 )

ライセンス: Link先を確認
Yuanyuan Jiang and Jianqin Yin(参考訳) 音声-視覚的質問応答(AVQA)は多段階の時空間推論を必要とする課題である。 最近の作品では、空間的接地のための視聴覚シーンの精巧なターゲット非依存解析と、時間的接地のための独立したエンティティとしてのオーディオとビデオの扱いに依拠している。 本稿では,AVQAのための新たな目標認識型同時時空間グラウンドネットワークを提案する。 ターゲット対応空間接地モジュール (TSG) と、単一ストリームの音声-視覚的時間接地モジュール (JTG) の2つの重要なコンポーネントで構成されている。 TSGは、質問からの明示的なセマンティクスを利用することで、クエリ対象に関連する音声-視覚的手がかりにフォーカスすることができる。 オーディオ-視覚融合モジュールの追加を必要とする以前の2ストリームの時間的接地モジュールとは異なり、JTGはより単純な単一ストリームアーキテクチャで音声-視覚融合と質問-認識時間的接地をひとつのモジュールに組み込む。 JTGにおける音声とビデオの時間同期は,我々の提案したクロスモーダル同期損失(CSL)によって促進される。 既存の最先端手法に対する提案手法の有効性を実験により検証した。

Audio-visual question answering (AVQA) is a challenging task that requires multistep spatio-temporal reasoning over multimodal contexts. Recent works rely on elaborate target-agnostic parsing of audio-visual scenes for spatial grounding while mistreating audio and video as separate entities for temporal grounding. This paper proposes a new target-aware joint spatio-temporal grounding network for AVQA. It consists of two key components: the target-aware spatial grounding module (TSG) and the single-stream joint audio-visual temporal grounding module (JTG). The TSG can focus on audio-visual cues relevant to the query subject by utilizing explicit semantics from the question. Unlike previous two-stream temporal grounding modules that required an additional audio-visual fusion module, JTG incorporates audio-visual fusion and question-aware temporal grounding into one module with a simpler single-stream architecture. The temporal synchronization between audio and video in the JTG is facilitated by our proposed cross-modal synchrony loss (CSL). Extensive experiments verified the effectiveness of our proposed method over existing state-of-the-art methods.
翻訳日:2023-12-11 19:02:37 公開日:2023-12-08
# 変分分類

Variational Classification ( http://arxiv.org/abs/2305.10406v4 )

ライセンス: Link先を確認
Shehzaad Dhuliawala, Mrinmaya Sachan, Carl Allen(参考訳) 本稿では,ニューラルネットワークソフトマックス分類器の新しい確率論的解釈を提供する潜在変数モデルを提案する。 分類モデルの訓練に使用されるクロスエントロピー損失を一般化する変分オートエンコーダの訓練に使用されるエビデンス下限(elbo)と同様、モデルの訓練のための変分目標を導出する。 軟質マックス層への入力を潜伏変数のサンプルとして扱うことで、正確なラベル予測に必要な予測分布と、実際に従う経験分布との間には、潜在的な矛盾が明らかになる。 そこで我々は,既成のソフトマックス分類器における暗黙の仮定の代わりに,そのような矛盾を緩和し,特定の潜伏分布を奨励する変動目的を考案する。 広範に使用されているソフトマックス分類の内在性に関する新たな理論的知見を提供するとともに,画像およびテキスト分類データセットの実証的評価により,提案した治療法,変分分類は分類精度を保ちながら,変形した潜在空間はキャリブレーション,対角ロバストネス,分布変化に対する堅牢性,サンプル効率などの他の望ましい分類特性を改善していることが示された。

We present a latent variable model for classification that provides a novel probabilistic interpretation of neural network softmax classifiers. We derive a variational objective to train the model, analogous to the evidence lower bound (ELBO) used to train variational auto-encoders, that generalises the cross-entropy loss used to train classification models. Treating inputs to the softmax layer as samples of a latent variable, our abstracted perspective reveals a potential inconsistency between their anticipated distribution, required for accurate label predictions, and the empirical distribution they follow in practice. We then devise a variational objective to mitigate such inconsistency and encourage a specified latent distribution, instead of the implicit assumption in off-the-shelf softmax classifiers. Overall, we provide new theoretical insight into the inner workings of widely-used softmax classification; and empirical evaluation on image and text classification datasets demonstrates that our proposed remedy, variational classification, maintains classification accuracy while the reshaped latent space improves other desirable classifier properties, such as calibration, adversarial robustness, robustness to distribution shift and sample efficiency useful in low data settings.
翻訳日:2023-12-11 19:01:55 公開日:2023-12-08
# 相互作用する1次元相互作用量子系

Commensurate and incommensurate 1D interacting quantum systems ( http://arxiv.org/abs/2305.03794v2 )

ライセンス: Link先を確認
Andrea Di Carli, Christopher Parsonage, Arthur La Rooij, Lennart Koehn, Clemens Ulm, Callum W Duncan, Andrew J Daley, Elmar Haller, Stefan Kuhr(参考訳) 光学格子中の多体量子系の単原子イメージング分解能は、量子ガス顕微鏡で定期的に達成される。 量子シミュレーターとしての大きな汎用性の鍵は、顕微鏡レベルで工学化された光ポテンシャルを使用する能力である。 ここでは、量子ガス顕微鏡において動的に変化する微視的光電位を用いて、相互作用するボソニックrb原子の1次元系について検討する。 このような非共振系は、原子輸送と圧縮性を示すドープ絶縁状態と類似している。 はじめに、2つの潜在的な障壁間に単位充填と固定原子数を持つ共用系を準備する。 我々は,原子数を維持しながら,利用可能な格子点の数を減少させるようなバリアの位置を動的に変化させることにより,不整合系を決定的に生成する。 本研究では, 粒子と穴の分布を格子充填関数として測定し, 相互作用強度を測定し, バイアスポテンシャルを応用して粒子移動度を調べる。 本研究は,光格子実験における制御充填による低エントロピー状態の調製の基礎となる。

Single-atom imaging resolution of many-body quantum systems in optical lattices is routinely achieved with quantum-gas microscopes. Key to their great versatility as quantum simulators is the ability to use engineered light potentials at the microscopic level. Here, we employ dynamically varying microscopic light potentials in a quantum-gas microscope to study commensurate and incommensurate 1D systems of interacting bosonic Rb atoms. Such incommensurate systems are analogous to doped insulating states that exhibit atom transport and compressibility. Initially, a commensurate system with unit filling and fixed atom number is prepared between two potential barriers. We deterministically create an incommensurate system by dynamically changing the position of the barriers such that the number of available lattice sites is reduced while retaining the atom number. Our systems are characterised by measuring the distribution of particles and holes as a function of the lattice filling, and interaction strength, and we probe the particle mobility by applying a bias potential. Our work provides the foundation for preparation of low-entropy states with controlled filling in optical-lattice experiments.
翻訳日:2023-12-11 19:00:56 公開日:2023-12-08
# 多値量子ニューロン

Multi-Valued Quantum Neurons ( http://arxiv.org/abs/2305.02018v4 )

ライセンス: Link先を確認
M. W. AlMasri(参考訳) 多値量子論理は、真理値が単位円上に置かれるユニタリのユニークな根として自然に表されるように体系的に定式化される。 したがって、多値量子ニューロン(MVQN)は複素数体上の多重値しきい値論理の原理に基づいている。 MVQNの訓練は、単位円に沿った運動に還元される。 多値量子ニューロンに基づく量子ニューラルネットワーク(QNN)は、複雑な重み、入力、単位のルートで符号化された出力と、複素平面を単位円にマッピングする活性化関数で構築することができる。 このようなニューラルネットワークは、同じ数のニューロンと層を持つバイナリ入力に基づく量子ニューラルネットワークと比較して、高速収束と高機能を享受する。 我々の構造は量子系のエネルギースペクトルを分析するのに利用できる。 可能な実用的な応用は、光や分子スピンquditsのような多レベル系の軌道角運動量(oam)から構築された量子ニューラルネットワークを用いることができる。

The multiple-valued quantum logic is formulated systematically such that the truth values are represented naturally as unique roots of unity placed on the unit circle. Consequently, multi-valued quantum neuron (MVQN) is based on the principles of multiple-valued threshold logic over the field of complex numbers. The training of MVQN is reduced to the movement along the unit circle. A quantum neural network (QNN) based on multi-valued quantum neurons can be constructed with complex weights, inputs, and outputs encoded by roots of unity and an activation function that maps the complex plane into the unit circle. Such neural networks enjoy fast convergence and higher functionalities compared with quantum neural networks based on binary input with the same number of neurons and layers. Our construction can be used in analyzing the energy spectrum of quantum systems. Possible practical applications can be found using the quantum neural networks built from orbital angular momentum (OAM) of light or multi-level systems such as molecular spin qudits.
翻訳日:2023-12-11 19:00:39 公開日:2023-12-08
# 量子スピン鎖における弦破れの動的局在転移

Dynamical localization transition of string breaking in quantum spin chains ( http://arxiv.org/abs/2304.12957v2 )

ライセンス: Link先を確認
Roberto Verdel and Guo-Yi Zhu and Markus Heyl(参考訳) 2つの電荷を繋ぐ弦の分裂は、閉じ込めゲージ理論における驚くべき現象である。 この過程の力学は近年集中的に研究されており、多くの数値的な結果から2分法が得られている。 ここでは, この二分法の基礎となるメカニズムとして, 動的局在遷移を提唱する。 この目的のために、閉じ込められたスピン鎖の光中間セクターにおける効果的な弦破壊記述を導出し、この問題をフォック空間における動的局所化遷移と見なすことができることを示す。 高速および抑制された文字列破壊ダイナミクスは、それぞれ非局在化および局所化動作と識別される。 次に、弦が中間子浴に浸漬された「不純物」として表される量子不純物モデルへの動的弦破れ問題のさらなる軽減を与える。 このモデルは局所化-非局在化遷移を特徴とし、定性的に異なる弦の破れ状態を理解するための一般的な物理的基礎を与える。 これらの発見は、任意の次元の閉じ込め格子モデルのより広いクラスに直接関係しており、現在のrydberg量子シミュレータで実現することができる。

The fission of a string connecting two charges is an astounding phenomenon in confining gauge theories. The dynamics of this process have been studied intensively in recent years, with plenty of numerical results yielding a dichotomy: the confining string can decay relatively fast or persist up to extremely long times. Here, we put forward a dynamical localization transition as the mechanism underlying this dichotomy. To this end, we derive an effective string breaking description in the light-meson sector of a confined spin chain and show that the problem can be regarded as a dynamical localization transition in Fock space. Fast and suppressed string breaking dynamics are identified with delocalized and localized behavior, respectively. We then provide a further reduction of the dynamical string breaking problem onto a quantum impurity model, where the string is represented as an "impurity" immersed in a meson bath. It is shown that this model features a localization-delocalization transition, giving a general and simple physical basis to understand the qualitatively distinct string breaking regimes. These findings are directly relevant for a wider class of confining lattice models in any dimension and could be realized on present-day Rydberg quantum simulators.
翻訳日:2023-12-11 19:00:09 公開日:2023-12-08
# 留意機構におけるマックスマージントークンの選択

Max-Margin Token Selection in Attention Mechanism ( http://arxiv.org/abs/2306.13596v4 )

ライセンス: Link先を確認
Davoud Ataee Tarzanagh, Yingcong Li, Xuechen Zhang, Samet Oymak(参考訳) 注意機構はトランスフォーマーアーキテクチャの中心的な構成要素であり、大きな言語モデルの驚くべき成功につながった。 しかし、注意機構の根底にある理論原理は、特に非凸最適化力学の理解が不十分である。 この研究において、seminal softmax-attention model $f(\boldsymbol{x})=\langle \boldsymbol{xv}, \textt{softmax}(\boldsymbol{xwp})\rangle$、ここで$\boldsymbol{x}$はトークンシーケンス、$(\boldsymbol{v},\boldsymbol{w},\boldsymbol{p})$はトレーニング可能なパラメータである。 我々は、$\boldsymbol{p}$ あるいは $\boldsymbol{W}$ の勾配勾配が、最適でないものから $\textit{locally-optimal}$ トークンを分離する最大マルジン解に収束することを証明している。 これは注意を最適なトークン選択機構として明確に定式化する。 注目すべきは、我々の結果は一般的なデータに適用でき、$\textit{optimality}$を値埋め込みの$\boldsymbol{Xv}$と問題幾何学で正確に特徴付けることである。 また,非線形予測ヘッドにおいても注意の限界を最大化する広い正規化経路解析を提供する。 ロジスティック損失とともに$\boldsymbol{v}$と$\boldsymbol{p}$を最適化するとき、正規化パスがそれぞれのハードマージンSVMソリューションに方向収束する条件を特定し、$\boldsymbol{v}$はラベルに基づいて入力特徴を分離する。 興味深いことに、$\boldsymbol{p}$のsvm定式化は$\boldsymbol{v}$のサポートベクトル幾何に影響されている。 最後に, 数値実験により理論的知見を検証し, 洞察を与える。

Attention mechanism is a central component of the transformer architecture which led to the phenomenal success of large language models. However, the theoretical principles underlying the attention mechanism are poorly understood, especially its nonconvex optimization dynamics. In this work, we explore the seminal softmax-attention model $f(\boldsymbol{X})=\langle \boldsymbol{Xv}, \texttt{softmax}(\boldsymbol{XWp})\rangle$, where $\boldsymbol{X}$ is the token sequence and $(\boldsymbol{v},\boldsymbol{W},\boldsymbol{p})$ are trainable parameters. We prove that running gradient descent on $\boldsymbol{p}$, or equivalently $\boldsymbol{W}$, converges in direction to a max-margin solution that separates $\textit{locally-optimal}$ tokens from non-optimal ones. This clearly formalizes attention as an optimal token selection mechanism. Remarkably, our results are applicable to general data and precisely characterize $\textit{optimality}$ of tokens in terms of the value embeddings $\boldsymbol{Xv}$ and problem geometry. We also provide a broader regularization path analysis that establishes the margin maximizing nature of attention even for nonlinear prediction heads. When optimizing $\boldsymbol{v}$ and $\boldsymbol{p}$ simultaneously with logistic loss, we identify conditions under which the regularization paths directionally converge to their respective hard-margin SVM solutions where $\boldsymbol{v}$ separates the input features based on their labels. Interestingly, the SVM formulation of $\boldsymbol{p}$ is influenced by the support vector geometry of $\boldsymbol{v}$. Finally, we verify our theoretical findings via numerical experiments and provide insights.
翻訳日:2023-12-11 18:55:00 公開日:2023-12-08
# Habitat Synthetic Scenes Dataset (HSSD-200):オブジェクトゴールナビゲーションのための3次元シーンスケールとリアリズムトレードオフの解析

Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene Scale and Realism Tradeoffs for ObjectGoal Navigation ( http://arxiv.org/abs/2306.11290v3 )

ライセンス: Link先を確認
Mukul Khanna, Yongsen Mao, Hanxiao Jiang, Sanjay Haresh, Brennan Shacklett, Dhruv Batra, Alexander Clegg, Eric Undersander, Angel X. Chang, Manolis Savva(参考訳) 211の高品質な3DシーンのデータセットであるHabitat Synthetic Scene Datasetをコントリビュートし、現実的な3D環境へのナビゲーションエージェントの一般化をテストする。 我々のデータセットは実際の内部を表現しており、現実世界の物体の18,656種類のモデルを含んでいる。 本研究では,合成3Dシーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。 従来の3Dシーンの合成データセットと比較すると、スケールは一般化に役立つが、その利点は急速に飽和し、視覚的忠実度と現実世界のシーンとの相関性がより重要になる。 私たちの実験では、より小規模のデータセットでトレーニングされたエージェントは、はるかに大きなデータセットでトレーニングされたエージェントとマッチしたり、より優れています。 驚くべきことに、我々のデータセットから訓練されたエージェントは、実世界のスキャンされた環境におけるゼロショットの一般化の観点から、ProcTHOR-10Kデータセットからトレーニングされた1万のシーンで訓練されたエージェントよりも、わずか122のシーンで訓練された。

We contribute the Habitat Synthetic Scene Dataset, a dataset of 211 high-quality 3D scenes, and use it to test navigation agent generalization to realistic 3D environments. Our dataset represents real interiors and contains a diverse set of 18,656 models of real-world objects. We investigate the impact of synthetic 3D scene dataset scale and realism on the task of training embodied agents to find and navigate to objects (ObjectGoal navigation). By comparing to synthetic 3D scene datasets from prior work, we find that scale helps in generalization, but the benefits quickly saturate, making visual fidelity and correlation to real-world scenes more important. Our experiments show that agents trained on our smaller-scale dataset can match or outperform agents trained on much larger datasets. Surprisingly, we observe that agents trained on just 122 scenes from our dataset outperform agents trained on 10,000 scenes from the ProcTHOR-10K dataset in terms of zero-shot generalization in real-world scanned environments.
翻訳日:2023-12-11 18:54:19 公開日:2023-12-08
# 因果効果の正規化:スプリアス属性の自動検出と削除

Causal Effect Regularization: Automated Detection and Removal of Spurious Attributes ( http://arxiv.org/abs/2306.11072v2 )

ライセンス: Link先を確認
Abhinav Kumar, Amit Deshpande, Amit Sharma(参考訳) 多くの分類データセットでは、タスクラベルといくつかの入力属性が散発的に相関している。 このようなデータセットでトレーニングされた分類器は、特に急激な相関が高い場合、これらの属性を予測に頼り、デプロイ時に属性の相関が変化した場合に一般化に失敗する。 スプリアス属性が事前に知られていると仮定すると、指定された属性に不変な分類子を学ぶためのいくつかの方法が提案されている。 しかし、現実世界のデータでは、スパイラルな属性に関する情報は通常利用できない。 そこで本研究では,ラベルに対する因果効果を推定し,分類者の依存度を緩和するために正規化目的を用いてスプリアス属性を自動的に同定する手法を提案する。 近年のスプリアス属性の同定法と比較すると,特にスプリアス相関が高い場合,本手法は学習モデルから属性を除去する上でより正確であることがわかった。 具体的には, 合成, 半合成, 実世界のデータセットにまたがって, 突発的属性に対する分類器の依存度を定量化するために用いられる測定値($\Delta$Prob)を精度良く, あるいは類似した精度で測定した。 また,提案手法は,因果効果のノイズ推定においても,スプリアス属性への依存を緩和する。 提案手法の実証的ロバスト性を説明するため,2つの属性からなる単純な線形分類タスク(因果性と突発性)を作成する。 本手法では,推定因果効果のランク付けが属性間で正しいことのみを証明し,正しい分類器を選択する。

In many classification datasets, the task labels are spuriously correlated with some input attributes. Classifiers trained on such datasets often rely on these attributes for prediction, especially when the spurious correlation is high, and thus fail to generalize whenever there is a shift in the attributes' correlation at deployment. If we assume that the spurious attributes are known a priori, several methods have been proposed to learn a classifier that is invariant to the specified attributes. However, in real-world data, information about spurious attributes is typically unavailable. Therefore, we propose a method to automatically identify spurious attributes by estimating their causal effect on the label and then use a regularization objective to mitigate the classifier's reliance on them. Compared to a recent method for identifying spurious attributes, we find that our method is more accurate in removing the attribute from the learned model, especially when spurious correlation is high. Specifically, across synthetic, semi-synthetic, and real-world datasets, our method shows significant improvement in a metric used to quantify the dependence of a classifier on spurious attributes ($\Delta$Prob), while obtaining better or similar accuracy. In addition, our method mitigates the reliance on spurious attributes even under noisy estimation of causal effects. To explain the empirical robustness of our method, we create a simple linear classification task with two sets of attributes: causal and spurious. We prove that our method only requires that the ranking of estimated causal effects is correct across attributes to select the correct classifier.
翻訳日:2023-12-11 18:53:58 公開日:2023-12-08
# 位相絶縁体の表面-バルクハイブリダイゼーションによる確率密度の反転対称性の破れ

Inversion symmetry breaking in the probability density by surface-bulk hybridization in topological insulators ( http://arxiv.org/abs/2306.09601v2 )

ライセンス: Link先を確認
Jorge David Casta\~no-Yepes, Enrique Mu\~noz(参考訳) 有限厚さのトポロジカル絶縁体スラブにおいて,バルクおよび表面状態のハイブリッド化が許される確率密度分布を解析した。 理論的な枠組みとして有効連続体ハミルトンアプローチを用いることで、$\Gamma$-point に近い各状態の波動関数を解析的に取得した。 以上の結果から,スラブの中心に対する電子的確率密度の空間的対称性は,特に混合したバルク状態と表面状態の組み合わせにより自発的に破られることが明らかとなった。 この対称性の破れは、解のパリティ、スピン射影、物質定数の組み合わせとして生じる。

We analyze the probability density distribution in a topological insulator slab of finite thickness, where the bulk and surface states are allowed to hybridize. By using an effective continuum Hamiltonian approach as a theoretical framework, we analytically obtained the wave functions for each state near the $\Gamma$-point. Our results reveal that, under particular combinations of the hybridized bulk and surface states, the spatial symmetry of the electronic probability density with respect to the center of the slab can be spontaneously broken. This symmetry breaking arises as a combination of the parity of the solutions, their spin projection, and the material constants.
翻訳日:2023-12-11 18:53:29 公開日:2023-12-08
# VidEdit:ゼロショットと空間対応のテキスト駆動ビデオ編集

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing ( http://arxiv.org/abs/2306.08707v2 )

ライセンス: Link先を確認
Paul Couairon, Cl\'ement Rambour, Jean-Emmanuel Haugeard, Nicolas Thome(参考訳) 近年,拡散に基づく生成モデルが画像生成と編集において大きな成功を収めている。 しかし、ビデオ編集には依然として重要な制限がある。 本稿では,強い時間的・空間的一貫性を確保したゼロショットテキストベースの映像編集手法であるvideditを提案する。 まず,アトラスベースと事前学習したテキスト-画像拡散モデルを組み合わせて,時間的滑らかさを設計する訓練不要で効率的な編集方法を提案する。 第2に,既製パン光学セグメンタとエッジ検出器を併用し,条件付き拡散型アトラス編集に応用する。 これにより、元のビデオの構造を厳格に保ちながら、ターゲット領域の正確な空間的制御が保証される。 定量的および定性的な実験により、VidEditは、意味的忠実性、画像保存、時間的一貫性のメトリクスに関して、DAVISデータセット上で最先端の手法より優れていることが示された。 このフレームワークでは、単一のビデオを処理するのに約1分しかかからず、ユニークなテキストプロンプトに基づいて複数の互換性のある編集を生成することができる。 Project Web-page at https://videdit.github.io

Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for zero-shot text-based video editing ensuring strong temporal and spatial consistency. Firstly, we propose to combine atlas-based and pre-trained text-to-image diffusion models to provide a training-free and efficient editing method, which by design fulfills temporal smoothness. Secondly, we leverage off-the-shelf panoptic segmenters along with edge detectors and adapt their use for conditioned diffusion-based atlas editing. This ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io
翻訳日:2023-12-11 18:53:16 公開日:2023-12-08
# RePaint-NeRF:セマンティックマスクと拡散モデルによるNeRF編集

RePaint-NeRF: NeRF Editting via Semantic Masks and Diffusion Models ( http://arxiv.org/abs/2306.05668v2 )

ライセンス: Link先を確認
Xingchen Zhou, Ying He, F. Richard Yu, Jianqiang Li, You Li(参考訳) ニューラルレージアンス場(NeRF)の出現は、複雑な現実世界の合成された高忠実度ビューの開発を促進する。 しかし、NeRFのコンテンツの再描画は依然として非常に要求の多い作業である。 本稿では,RGB画像を入力とし,ニューラルシーンにおける3Dコンテンツを変更可能な新しいフレームワークを提案する。 我々の研究は既存の拡散モデルを利用して、指定された3Dコンテンツの変化を導く。 具体的には,ターゲットオブジェクトをセマンティクス的に選択し,事前学習した拡散モデルがnrfモデルに新たな3dオブジェクトの生成を誘導し,nrfの編集性,多様性,アプリケーション範囲を向上させる。 実験結果から,NeRFにおける3次元オブジェクトの編集には外見や形状など,異なるテキストプロンプトで効果的であることが示唆された。 これらの編集タスクにおいて,実世界データセットと合成世界データセットの両方でこの手法を検証する。 より詳しくは、https://starstesla.github.io/repaintnerfをご覧ください。

The emergence of Neural Radiance Fields (NeRF) has promoted the development of synthesized high-fidelity views of the intricate real world. However, it is still a very demanding task to repaint the content in NeRF. In this paper, we propose a novel framework that can take RGB images as input and alter the 3D content in neural scenes. Our work leverages existing diffusion models to guide changes in the designated 3D content. Specifically, we semantically select the target object and a pre-trained diffusion model will guide the NeRF model to generate new 3D objects, which can improve the editability, diversity, and application range of NeRF. Experiment results show that our algorithm is effective for editing 3D objects in NeRF under different text prompts, including editing appearance, shape, and more. We validate our method on both real-world datasets and synthetic-world datasets for these editing tasks. Please visit https://starstesla.github.io/repaintnerf for a better view of our results.
翻訳日:2023-12-11 18:52:58 公開日:2023-12-08
# 因果正規化フロー:理論から実践へ

Causal normalizing flows: from theory to practice ( http://arxiv.org/abs/2306.05415v2 )

ライセンス: Link先を確認
Adri\'an Javaloy, Pablo S\'anchez-Mart\'in and Isabel Valera(参考訳) 本研究では,因果推論のための正規化フローの利用について深く検討する。 具体的には,非線形ICAにおける最近の結果を利用して,因果的順序付けを施した観測データから因果的モデルが識別可能であることを示す。 第2に,因果正規化フローの異なる設計と学習の選択を分析し,その基礎となる因果データ生成プロセスを捉える。 第3に,causal nfsにおけるdoオペレータの実装方法と,介入的および反事実的質問に答える方法について述べる。 最後に、実験では、包括的なアブレーション研究を通じて設計とトレーニングの選択を検証するとともに、因果モデル近似のための他のアプローチと因果nfを比較し、因果nfsを用いて実世界の問題に対処することができることを実証的に実証する。 この作業のコードはhttps://github.com/psanch21/causal-flowsにある。

In this work, we deepen on the use of normalizing flows for causal reasoning. Specifically, we first leverage recent results on non-linear ICA to show that causal models are identifiable from observational data given a causal ordering, and thus can be recovered using autoregressive normalizing flows (NFs). Second, we analyze different design and learning choices for causal normalizing flows to capture the underlying causal data-generating process. Third, we describe how to implement the do-operator in causal NFs, and thus, how to answer interventional and counterfactual questions. Finally, in our experiments, we validate our design and training choices through a comprehensive ablation study; compare causal NFs to other approaches for approximating causal models; and empirically demonstrate that causal NFs can be used to address real-world problems, where the presence of mixed discrete-continuous data and partial knowledge on the causal graph is the norm. The code for this work can be found at https://github.com/psanch21/causal-flows.
翻訳日:2023-12-11 18:52:44 公開日:2023-12-08
# G$^2$uardFL: 分散クライアントグラフクラスタリングによるバックドア攻撃に対するフェデレーション学習の保護

G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks through Attributed Client Graph Clustering ( http://arxiv.org/abs/2306.04984v2 )

ライセンス: Link先を確認
Hao Yu, Chuan Ma, Meng Liu, Tianyu Du, Ming Ding, Tao Xiang, Shouling Ji, Xinwang Liu(参考訳) Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供するが、有害なモデル重みがシステムの整合性を損なうバックドア攻撃に弱い。 既存の対策は、主に異常検出に基づくが、主にクライアントモデル間の類似点の定量化に欠点があるため、通常の重量を誤って拒否する傾向にある。 さらに、他の防御策は、限られた数の悪意のあるクライアントを扱う場合にのみ効果を示し、典型的には10%未満である。 これらの脆弱性を軽減するため、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈し、FLシステムを保護する保護フレームワークであるG$^2$uardFLを提案する。 具体的には、悪意のあるクライアントを特定するためにクライアントグラフクラスタリングアプローチを採用し、集約されたモデルと有毒なクライアントとの相違を増幅する適応的なメカニズムを統合し、組み込みバックドアを効果的に排除する。 また、G$^2$uardFL が FL 系の収束に影響を与えないことを確認するために収束の理論解析を行う。 3dfed (sp 2023) [20] を含む様々なバックドア攻撃に対して, フレイム (usenix security 2022) [28] やdeepsight (ndss 2022) [36] などの最先端防御と g$^2$uardfl を比較した経験的評価を行った。 例えば、25%の悪意のあるクライアントを持つFLシステムでは、G$^2$uardFLは攻撃成功率を10.61%に削減し、CIFAR-10データセットでは73.05%のプライマリタスク性能を維持している。 これは最もパフォーマンスの高いベースラインのパフォーマンスを上回っており、プライマリタスクのパフォーマンスは19.54%である。

Federated Learning (FL) offers collaborative model training without data sharing but is vulnerable to backdoor attacks, where poisoned model weights lead to compromised system integrity. Existing countermeasures, primarily based on anomaly detection, are prone to erroneous rejections of normal weights while accepting poisoned ones, largely due to shortcomings in quantifying similarities among client models. Furthermore, other defenses demonstrate effectiveness only when dealing with a limited number of malicious clients, typically fewer than 10%. To alleviate these vulnerabilities, we present G$^2$uardFL, a protective framework that reinterprets the identification of malicious clients as an attributed graph clustering problem, thus safeguarding FL systems. Specifically, this framework employs a client graph clustering approach to identify malicious clients and integrates an adaptive mechanism to amplify the discrepancy between the aggregated model and the poisoned ones, effectively eliminating embedded backdoors. We also conduct a theoretical analysis of convergence to confirm that G$^2$uardFL does not affect the convergence of FL systems. Through empirical evaluation, comparing G$^2$uardFL with cutting-edge defenses, such as FLAME (USENIX Security 2022) [28] and DeepSight (NDSS 2022) [36], against various backdoor attacks including 3DFed (SP 2023) [20], our results demonstrate its significant effectiveness in mitigating backdoor attacks while having a negligible impact on the aggregated model's performance on benign samples (i.e., the primary task performance). For instance, in an FL system with 25% malicious clients, G$^2$uardFL reduces the attack success rate to 10.61%, while maintaining a primary task performance of 73.05% on the CIFAR-10 dataset. This surpasses the performance of the best-performing baseline, which merely achieves a primary task performance of 19.54%.
翻訳日:2023-12-11 18:52:27 公開日:2023-12-08
# 時間的特徴の類似性予測による実世界ビデオの物体中心学習

Object-Centric Learning for Real-World Videos by Predicting Temporal Feature Similarities ( http://arxiv.org/abs/2306.04829v2 )

ライセンス: Link先を確認
Andrii Zadaianchuk and Maximilian Seitzer and Georg Martius(参考訳) 教師なしのビデオベースのオブジェクト中心学習は、大きなラベルのないビデオコレクションから構造化された表現を学ぶ有望な方法だが、以前のアプローチは制限されたドメインの現実世界のデータセットにしか拡張できなかった。 近年,事前学習した自己教師付き特徴の再構成は,制約のない実世界の画像データセットにオブジェクト中心の表現をもたらすことが示されている。 本稿では,このような事前学習した特徴を時間的特徴類似性損失の形で利用する方法を提案する。 この損失はイメージパッチ間の意味的および時間的相関をエンコードし、オブジェクト発見に動きバイアスを導入する自然な方法である。 この損失が、挑戦的な合成moviデータセットにおける最先端のパフォーマンスをもたらすことを実証する。 特徴再構成損失と組み合わせて使用すると、YouTube-VISのような制約のないビデオデータセットにスケールする最初のオブジェクト中心のビデオモデルとなる。

Unsupervised video-based object-centric learning is a promising avenue to learn structured representations from large, unlabeled video collections, but previous approaches have only managed to scale to real-world datasets in restricted domains. Recently, it was shown that the reconstruction of pre-trained self-supervised features leads to object-centric representations on unconstrained real-world image datasets. Building on this approach, we propose a novel way to use such pre-trained features in the form of a temporal feature similarity loss. This loss encodes semantic and temporal correlations between image patches and is a natural way to introduce a motion bias for object discovery. We demonstrate that this loss leads to state-of-the-art performance on the challenging synthetic MOVi datasets. When used in combination with the feature reconstruction loss, our model is the first object-centric video model that scales to unconstrained video datasets such as YouTube-VIS.
翻訳日:2023-12-11 18:50:47 公開日:2023-12-08
# 古典的リカレントニューラルネットワークを用いたスパイク計算

Spike-based computation using classical recurrent neural networks ( http://arxiv.org/abs/2306.03623v2 )

ライセンス: Link先を確認
Florent De Geeter (1), Damien Ernst (1), Guillaume Drion (1) ((1) Montefiore Institute, University of Li\`ege, Li\`ege, Belgium)(参考訳) スパイクニューラルネットワーク(spyking neural network)は、ニューロン間の通信がスパイクと呼ばれるイベントのみで構成されている人工ニューラルネットワークの一種である。 この特性により、ニューラルネットワークは非同期でスパースな計算を可能にし、特殊なハードウェア上で実行する際のエネルギー消費量を劇的に削減できる。 しかし、このようなネットワークのトレーニングは、主に古典的なバックプロパゲーションの使用を妨げるスパイクアクティベーションの非微分性のために困難であることが知られている。 これは、最先端のスパイキングニューラルネットワークが、通常、トレーニングに機械学習の手法を適用する生物学的にインスパイアされたニューロンモデルから派生しているためである。 現在、スパイクニューラルネットワークの研究は、特定のタスクで非スパイクバージョンと競合するネットワークを得ることを目標とするトレーニングアルゴリズムの設計に焦点を当てている。 本稿では対称的アプローチを試みる。我々は、よく知られた、容易に訓練可能なリカレントニューラルネットワークのダイナミクスを、イベントベースにするために修正する。 新しいrnn細胞はスパイキングリカレント細胞と呼ばれ、スパイクのようなイベントを使って通信するが、完全に微分可能である。 したがって、バニラバックプロパゲーションは、そのようなRNN細胞で作られたネットワークをトレーニングするために使用できる。 この新ネットワークは,MNISTベンチマークとその変種であるFashion-MNISTとNeuromorphic-MNISTの他の種類のスパイクネットワークに匹敵する性能が得られることを示す。 さらに,この新細胞は,深層スパイクネットワークのトレーニングが実現可能であることを示す。

Spiking neural networks are a type of artificial neural networks in which communication between neurons is only made of events, also called spikes. This property allows neural networks to make asynchronous and sparse computations and therefore drastically decrease energy consumption when run on specialized hardware. However, training such networks is known to be difficult, mainly due to the non-differentiability of the spike activation, which prevents the use of classical backpropagation. This is because state-of-the-art spiking neural networks are usually derived from biologically-inspired neuron models, to which are applied machine learning methods for training. Nowadays, research about spiking neural networks focuses on the design of training algorithms whose goal is to obtain networks that compete with their non-spiking version on specific tasks. In this paper, we attempt the symmetrical approach: we modify the dynamics of a well-known, easily trainable type of recurrent neural network to make it event-based. This new RNN cell, called the Spiking Recurrent Cell, therefore communicates using events, i.e. spikes, while being completely differentiable. Vanilla backpropagation can thus be used to train any network made of such RNN cell. We show that this new network can achieve performance comparable to other types of spiking networks in the MNIST benchmark and its variants, the Fashion-MNIST and the Neuromorphic-MNIST. Moreover, we show that this new cell makes the training of deep spiking networks achievable.
翻訳日:2023-12-11 18:50:35 公開日:2023-12-08
# Trncated Affinity Maximization: グラフ異常検出のための一級ホモフィリモデリング

Truncated Affinity Maximization: One-class Homophily Modeling for Graph Anomaly Detection ( http://arxiv.org/abs/2306.00006v4 )

ライセンス: Link先を確認
Hezhe Qiao and Guansong Pang(参考訳) 実世界のグラフ異常検出(gad)データセットにおいて経験的に見いだされる1つの一般的な特性である一級ホモフィリー現象、すなわち、正常ノードは互いに強い接続/アフィニティを持つ傾向があるが、異常ノードのホモフィリは正常ノードよりも著しく弱い。 しかし、この異常識別特性は、データ再構成のような従来の異常検出目的を用いて構築される既存のGAD法では無視される。 そこで本研究では,gadに対する教師なしアノマリースコア尺度(局所ノードアフィニティ)を新たに導入し,隣接ノードとの類似度の低いノードに対してより大きなアノマリースコアを割り当て,ノード属性/表現の類似度としてアフィニティが定義される。 さらに, 隣接ノードの局所親和性を最大化することにより, 異常測度に適したノード表現を学習するTruncated Affinity Maximization (TAM)を提案する。 元のグラフ構造に最適化することは、非ホモフィリーエッジ(つまり正常ノードと異常ノードを接続するエッジ)によってバイアスされる。 したがって、tamはこのバイアスを緩和するために非ホモフィリーエッジを反復的に削除する切断グラフに最適化される。 学習された表現は、正常なノードに対して異常なノードよりもはるかに強い局所親和性をもたらす。 10の現実世界のGADデータセットに対する大規模な実験結果によると、TAMは7つの競合モデルを大幅に上回り、AUROC/AUPRCの10%以上を達成している。 私たちのコードはhttps://github.com/mala-lab/TAM-master/で利用可能です。

We reveal a one-class homophily phenomenon, which is one prevalent property we find empirically in real-world graph anomaly detection (GAD) datasets, i.e., normal nodes tend to have strong connection/affinity with each other, while the homophily in abnormal nodes is significantly weaker than normal nodes. However, this anomaly-discriminative property is ignored by existing GAD methods that are typically built using a conventional anomaly detection objective, such as data reconstruction. In this work, we explore this property to introduce a novel unsupervised anomaly scoring measure for GAD, local node affinity, that assigns a larger anomaly score to nodes that are less affiliated with their neighbors, with the affinity defined as similarity on node attributes/representations. We further propose Truncated Affinity Maximization (TAM) that learns tailored node representations for our anomaly measure by maximizing the local affinity of nodes to their neighbors. Optimizing on the original graph structure can be biased by nonhomophily edges (i.e., edges connecting normal and abnormal nodes). Thus, TAM is instead optimized on truncated graphs where non-homophily edges are removed iteratively to mitigate this bias. The learned representations result in significantly stronger local affinity for normal nodes than abnormal nodes. Extensive empirical results on 10 real-world GAD datasets show that TAM substantially outperforms seven competing models, achieving over 10% increase in AUROC/AUPRC compared to the best contenders on challenging datasets. Our code is available at https://github.com/mala-lab/TAM-master/.
翻訳日:2023-12-11 18:49:21 公開日:2023-12-08
# j-uniwardのオフバイワン実装エラー

Off-By-One Implementation Error in J-UNIWARD ( http://arxiv.org/abs/2305.19776v2 )

ライセンス: Link先を確認
Benedikt Lorch(参考訳) J-UNIWARDはJPEGカバー画像に秘密メッセージを隠蔽する一般的なステガノグラフィー手法である。 コンテンツ適応手法として、j-uniwardは、変更の検出が難しいテクスチャ画像領域への埋め込みを目指している。 この目的のために、J-UNIWARDはまず画像のウェーブレット残量に基づいて計算された埋め込みコストを各DCT係数に割り当て、次に、所望のペイロードを埋め込みながらコストを最小化するコーディング方法を使用する。 1つのDCT係数の変更は、ウェーブレット係数の23x23ウィンドウに影響を与える。 コストマップ計算を高速化するため、元の実装ではウェーブレット残差を事前計算し、変更したDCT係数をウェーブレット残差の23x23ウィンドウとみなす。 しかし、実装は、誤って右下に1ピクセルずつシフトしたウィンドウにアクセスする。 本稿では,このオフ・バイ・ワン・エラーがコストマップに与える影響を評価する。 一部の画像ブロックは高すぎるが、他の画像ブロックは高すぎるが、違いは比較的小さい。 オフ・バイ・ワンのエラーは、学習ベースのsteg analysisにはほとんど違いがないようだ。

J-UNIWARD is a popular steganography method for hiding secret messages in JPEG cover images. As a content-adaptive method, J-UNIWARD aims to embed into textured image regions where changes are difficult to detect. To this end, J-UNIWARD first assigns to each DCT coefficient an embedding cost calculated based on the image's Wavelet residual, and then uses a coding method that minimizes the cost while embedding the desired payload. Changing one DCT coefficient affects a 23x23 window of Wavelet coefficients. To speed up the costmap computation, the original implementation pre-computes the Wavelet residual and then considers per changed DCT coefficient a 23x23 window of the Wavelet residual. However, the implementation accesses a window accidentally shifted by one pixel to the bottom right. In this report, we evaluate the effect of this off-by-one error on the resulting costmaps. Some image blocks are over-priced while other image blocks are under-priced, but the difference is relatively small. The off-by-one error seems to make little difference for learning-based steganalysis.
翻訳日:2023-12-11 18:48:50 公開日:2023-12-08
# 測定専用量子回路におけるステアリング誘起相転移

Steering-induced phase transition in measurement-only quantum circuits ( http://arxiv.org/abs/2309.01315v3 )

ライセンス: Link先を確認
Dongheng Qian and Jing Wang(参考訳) 競合測定だけでは、エントロピーのエントロピー$\unicode{x2013}$のように、体積法相、対称性破れ(SB)相、対称性保護トポロジー(SPT)相$\unicode{x2013}$のような異なる位相が生じる。 別の研究領域では、最近の研究により、ステアリングが量子回路内の追加位相を引き起こすことが示されている。 本研究では, ステアリングを伴う測定専用量子回路に新しい位相が現れることを示す。 局所情報のみに依存する従来のステアリング方式とは異なり、我々が導入するステアリング方式では回路の構造を付加入力として要求する。 これらのステアリング誘導相は「インフォーマティブ」フェーズと呼ばれる。 それらは各回路で測定されたビット文字列の固有次元によって区別され、実験的なセットアップで検出するのがかなり容易である。 従来よく研究されていた3つの回路モデル、射影横場イジングモデル、格子ゲージヒッグスモデル、XZZXモデルにおいて、この相転移を数値シミュレーションにより明らかに示す。 情報相がSB相と一致する場合、我々の操舵機構は実質的に「予備選択」ルーチンとして機能し、SB相をより実験的に利用することができる。 さらに、絡み合いエントロピーによってキャプチャされた量子情報とビットストリングによって伝達される古典的情報との間に不一致が生じる中間相が現れることもある。 本研究は, ステアリングが理論的富性をもたらすだけでなく, 測定専用量子回路の研究において実用的優位性をもたらすことを示した。

Competing measurements alone can give rise to distinct phases characterized by entanglement entropy$\unicode{x2013}$such as the volume law phase, symmetry-breaking (SB) phase, and symmetry-protected topological (SPT) phase$\unicode{x2013}$that can only be discerned through quantum trajectories, making them challenging to observe experimentally. In another burgeoning area of research, recent studies have demonstrated that steering can give rise to additional phases within quantum circuits. In this work, we show that new phases can appear in measurement-only quantum circuit with steering. Unlike conventional steering methods that rely solely on local information, the steering scheme we introduce requires the circuit's structure as an additional input. These steering induced phases are termed as "informative" phases. They are distinguished by the intrinsic dimension of the bitstrings measured in each circuit run, making them substantially easier to detect in experimental setups. We explicitly show this phase transition by numerical simulation in three circuit models that are previously well-studied: projective transverse field Ising model, lattice gauge-Higgs model and XZZX model. When the informative phase coincides with the SB phase, our steering mechanism effectively serves as a "pre-selection" routine, making the SB phase more experimentally accessible. Additionally, an intermediate phase may manifest, where a discrepancy arises between the quantum information captured by entanglement entropy and the classical information conveyed by bitstrings. Our findings demonstrate that steering not only adds theoretical richness but also offers practical advantages in the study of measurement-only quantum circuits.
翻訳日:2023-12-11 18:43:04 公開日:2023-12-08
# QUITRO Application Suite:人間の認知モデルのための量子コンピューティング

The QUATRO Application Suite: Quantum Computing for Models of Human Cognition ( http://arxiv.org/abs/2309.00597v2 )

ライセンス: Link先を確認
Raghavendra Pradyumna Pothukuchi, Leon Lufkin, Yu Jun Shen, Alejandro Simon, Rome Thorstenson, Bernardo Eilert Trevisan, Michael Tu, Mudi Yang, Ben Foxman, Viswanatha Srinivas Pothukuchi, Gunnar Epping, Thi Ha Kyaw, Bryant J Jongkees, Yongshan Ding, Jerome R Busemeyer, Jonathan D Cohen, Abhishek Bhattacharjee(参考訳) 量子コンピューティングの研究の進歩は、これまでアプリケーションドメインの狭いセットに焦点を当ててきた。 量子アプリケーションドメインのスイートを拡張することは、新しいソフトウェアツールチェーンとアーキテクチャ抽象化の発見に不可欠である。 本研究では、量子コンピューティング研究のための新しい種類のアプリケーション、すなわち計算認知モデリングを解放する。 認知モデルは人間の知性の理解と複製に不可欠である。 我々の研究は、計算認知モデルと量子コンピュータアーキテクチャを初めて結びつける。 認知モデルからの量子コンピューティングアプリケーションの集合であるquatroをリリースする。 quatroの開発と実行は、プログラミングの容易化とパフォーマンス向上のために閉じる必要がある量子コンピューティングスタックのギャップに光を当てた。 本稿では,量子クラウドスケジューリング(ゲートとアニーリングベースの量子コンピュータのデータを用いた)や並列化などに関するアイデアを提案し,検討する。 長期的には、将来的にはより汎用的な量子コンピュータシステムの基盤となることを期待しています。

Research progress in quantum computing has, thus far, focused on a narrow set of application domains. Expanding the suite of quantum application domains is vital for the discovery of new software toolchains and architectural abstractions. In this work, we unlock a new class of applications ripe for quantum computing research -- computational cognitive modeling. Cognitive models are critical to understanding and replicating human intelligence. Our work connects computational cognitive models to quantum computer architectures for the first time. We release QUATRO, a collection of quantum computing applications from cognitive models. The development and execution of QUATRO shed light on gaps in the quantum computing stack that need to be closed to ease programming and drive performance. Among several contributions, we propose and study ideas pertaining to quantum cloud scheduling (using data from gate- and annealing-based quantum computers), parallelization, and more. In the long run, we expect our research to lay the groundwork for more versatile quantum computer systems in the future.
翻訳日:2023-12-11 18:42:32 公開日:2023-12-08
# 拡散デノジングモデルを用いた医用画像分割のためのリサイクリングトレーニング戦略

A Recycling Training Strategy for Medical Image Segmentation with Diffusion Denoising Models ( http://arxiv.org/abs/2308.16355v3 )

ライセンス: Link先を確認
Yunguan Fu, Yiwen Li, Shaheer U Saeed, Matthew J Clarkson, Yipeng Hu(参考訳) ノイズ拡散モデルでは、画像に条件付けされたセグメントマスクを生成することで、画像分割に応用されている。 既存の研究は主に、テストタイムサンプリング戦略のようなモデルアーキテクチャの調整や推論の改善に重点を置いている。 本研究では,トレーニング戦略の改善に焦点をあて,新しいリサイクル手法を提案する。 各トレーニングステップでは、画像とランダムノイズとが与えられると、セグメンテーションマスクが最初に予測される。 この予測されたマスクは、従来の地上真理マスクに代わるもので、訓練中のタスクに使用される。 この手法は, ノイズのあるサンプルを生成するための地中真実マスクへの依存を排除し, トレーニング戦略を推論と整合させることと解釈できる。 提案手法は, 筋超音波, 腹部ct, 前立腺mri, および脳mriの複数の画像データに対して, 標準拡散トレーニング, セルフコンディショニング, および既存のリサイクル戦略を著しく上回っている。 重要な点として, 既存の拡散モデルでは, 推定中に低下または不安定な性能を示すことが多いが, 新規リサイクルは一貫して性能を向上・維持する。 提案手法は,同一のネットワークアーキテクチャと計算予算とを公正に比較し,非拡散型教師付きトレーニングによるリサイクルベース拡散モデルの性能向上を実現する。 提案する拡散モデルと非拡散モデルを組み合わせたことにより,非拡散モデルに対する有意な改善がすべての応用で観察され,この新しい訓練法の価値が実証された。 本稿では、これらの定量的な結果を要約し、その価値を再現可能なjaxベースの実装として、https://github.com/mathpluscode/imgx-diffsegで公開します。

Denoising diffusion models have found applications in image segmentation by generating segmented masks conditioned on images. Existing studies predominantly focus on adjusting model architecture or improving inference, such as test-time sampling strategies. In this work, we focus on improving the training strategy and propose a novel recycling method. During each training step, a segmentation mask is first predicted given an image and a random noise. This predicted mask, which replaces the conventional ground truth mask, is used for denoising task during training. This approach can be interpreted as aligning the training strategy with inference by eliminating the dependence on ground truth masks for generating noisy samples. Our proposed method significantly outperforms standard diffusion training, self-conditioning, and existing recycling strategies across multiple medical imaging data sets: muscle ultrasound, abdominal CT, prostate MR, and brain MR. This holds for two widely adopted sampling strategies: denoising diffusion probabilistic model and denoising diffusion implicit model. Importantly, existing diffusion models often display a declining or unstable performance during inference, whereas our novel recycling consistently enhances or maintains performance. We show that, under a fair comparison with the same network architectures and computing budget, the proposed recycling-based diffusion models achieved on-par performance with non-diffusion-based supervised training. By ensembling the proposed diffusion and the non-diffusion models, significant improvements to the non-diffusion models have been observed across all applications, demonstrating the value of this novel training method. This paper summarizes these quantitative results and discusses their values, with a fully reproducible JAX-based implementation, released at https://github.com/mathpluscode/ImgX-DiffSeg.
翻訳日:2023-12-11 18:42:18 公開日:2023-12-08
# 動的オープン語彙強化型インテリジェンス付き安全着陸(DOVESEI)

Dynamic Open Vocabulary Enhanced Safe-landing with Intelligence (DOVESEI) ( http://arxiv.org/abs/2308.11471v4 )

ライセンス: Link先を確認
Haechan Mark Bong and Rongge Zhang and Ricardo de Azambuja and Giovanni Beltrame(参考訳) この作業は、都市空飛ぶロボットの基本的なステップである、安全な着陸を目指しています。 我々の関心は、安全な着陸知覚スタックの最も重要な側面であるセグメンテーション(segmentation)に向けられている。 本稿では,オープンボキャブラリ画像セグメンテーションの能力を生かして,視覚サーボ機能を利用したリアクティブUAVシステムを提案する。 このアプローチは、そのオープンな語彙方法論のおかげで、内部モデルを洗練するための広範なデータ蓄積の必要性を回避し、最小限の調整で様々なシナリオに適応することができる。 地方自治体が課す制限を考えると,我々の主な焦点は高度100メートルを起点とする運用である。 この選択は意図的であり、多くの先行作品が、小型ステレオカメラの能力に合わせて、高度30メートルに対処してきた。 その結果、残りの20mは従来の3次元経路計画法でナビゲートされる。 単眼カメラと画像セグメンテーションを用いて,高度20mの地点での着陸操作を成功させる能力を示した。 しかし,この手法は,映像ストリーム内のフレーム間セグメンテーションにおける断続的かつ時折急激な変動に対して脆弱である。 この課題に対処するために、我々はダイナミックフォーカスと呼ばれる、現在の着陸段階に応じて自己調整するマスキング機構を導入することにより、画像分割出力を強化する。 このダイナミックフォーカスは、地上に投影されたドローンの安全半径を超える領域を避けるよう制御システムを誘導し、ゆらぎの問題を緩和する。 この補助層の実装により,グローバルセグメンテーションと比較して,着陸成功率が約10倍に向上した。 ソースコードはすべてオープンソースでオンラインで入手できる(github.com/MISTLab/DOVESEI)。

This work targets what we consider to be the foundational step for urban airborne robots, a safe landing. Our attention is directed toward what we deem the most crucial aspect of the safe landing perception stack: segmentation. We present a streamlined reactive UAV system that employs visual servoing by harnessing the capabilities of open vocabulary image segmentation. This approach can adapt to various scenarios with minimal adjustments, bypassing the necessity for extensive data accumulation for refining internal models, thanks to its open vocabulary methodology. Given the limitations imposed by local authorities, our primary focus centers on operations originating from altitudes of 100 meters. This choice is deliberate, as numerous preceding works have dealt with altitudes up to 30 meters, aligning with the capabilities of small stereo cameras. Consequently, we leave the remaining 20m to be navigated using conventional 3D path planning methods. Utilizing monocular cameras and image segmentation, our findings demonstrate the system's capability to successfully execute landing maneuvers at altitudes as low as 20 meters. However, this approach is vulnerable to intermittent and occasionally abrupt fluctuations in the segmentation between frames in a video stream. To address this challenge, we enhance the image segmentation output by introducing what we call a dynamic focus: a masking mechanism that self adjusts according to the current landing stage. This dynamic focus guides the control system to avoid regions beyond the drone's safety radius projected onto the ground, thus mitigating the problems with fluctuations. Through the implementation of this supplementary layer, our experiments have reached improvements in the landing success rate of almost tenfold when compared to global segmentation. All the source code is open source and available online (github.com/MISTLab/DOVESEI).
翻訳日:2023-12-11 18:41:43 公開日:2023-12-08
# 点および形状正規化データ合成による顕微鏡画像のセグメンテーション

Microscopy Image Segmentation via Point and Shape Regularized Data Synthesis ( http://arxiv.org/abs/2308.09835v3 )

ライセンス: Link先を確認
Shijie Li, Mengwei Ren, Thomas Ach, Guido Gerig(参考訳) 現在の深層学習に基づく顕微鏡画像のセグメンテーション手法は,高度なアノテーションを用いた大量のトレーニングデータに大きく依存している。 オブジェクトの完全な輪郭が描かれる完全なアノテーションに比べ、ポイントアノテーション、特にオブジェクトセントロイドは、取得がずっと簡単で、その後のセグメンテーションのための重要な情報を提供する。 本稿では,訓練中のみ点アノテーションへのアクセスを想定し,合成学習データを用いた顕微鏡画像分割のための統一パイプラインを開発する。 提案手法は,(1)ポイントアノテーションを取り,形状に制約のある擬似高密度セグメンテーションマスクをサンプリングする,(2)非対向的に訓練された画像生成モデルを用いて,オブジェクトレベルの一貫性によって正規化された現実的な顕微鏡画像に変換する,(3)合成画像と共に擬似マスクをペアワイズデータセットとしてアドホックセグメンテーションモデルを訓練する,の3段階を含む。 一般のmonusegデータセットでは,入力マスクと生成画像との一貫性を維持しつつ,ベースラインモデルよりも多様で現実的な画像を生成する。 同じセグメンテーションバックボーンを使用する場合、我々の合成データセットでトレーニングされたモデルは、擬似ラベルやベースライン生成画像でトレーニングされたモデルよりも大幅に優れている。 さらに,本フレームワークは,高密度ラベルを用いた実写顕微鏡画像の訓練モデルと比較し,顕微鏡画像セグメント化における作業集約的手動ピクセルワイドアノテーションの信頼性と高効率な代替手段としての可能性を示した。 コードは利用可能です。

Current deep learning-based approaches for the segmentation of microscopy images heavily rely on large amount of training data with dense annotation, which is highly costly and laborious in practice. Compared to full annotation where the complete contour of objects is depicted, point annotations, specifically object centroids, are much easier to acquire and still provide crucial information about the objects for subsequent segmentation. In this paper, we assume access to point annotations only during training and develop a unified pipeline for microscopy image segmentation using synthetically generated training data. Our framework includes three stages: (1) it takes point annotations and samples a pseudo dense segmentation mask constrained with shape priors; (2) with an image generative model trained in an unpaired manner, it translates the mask to a realistic microscopy image regularized by object level consistency; (3) the pseudo masks along with the synthetic images then constitute a pairwise dataset for training an ad-hoc segmentation model. On the public MoNuSeg dataset, our synthesis pipeline produces more diverse and realistic images than baseline models while maintaining high coherence between input masks and generated images. When using the identical segmentation backbones, the models trained on our synthetic dataset significantly outperform those trained with pseudo-labels or baseline-generated images. Moreover, our framework achieves comparable results to models trained on authentic microscopy images with dense labels, demonstrating its potential as a reliable and highly efficient alternative to labor-intensive manual pixel-wise annotations in microscopy image segmentation. The code is available.
翻訳日:2023-12-11 18:41:16 公開日:2023-12-08
# マクロトラヒックフローモデルの学習解のためのフーリエニューラル演算子:前方および逆問題への応用

Fourier neural operator for learning solutions to macroscopic traffic flow models: Application to the forward and inverse problems ( http://arxiv.org/abs/2308.07051v2 )

ライセンス: Link先を確認
Bilal Thonnam Thodi and Sai Venkata Ramana Ambadipudi and Saif Eddin Jabari(参考訳) トラフィックフローの前方および逆問題を解くための一般的な計算ツールとして、ディープラーニング手法が登場している。 本稿では,非線形双曲偏微分方程式の解を学習するためのニューラルネットワークフレームワークと,マクロトラヒックフローモデルへの応用について検討する。 このフレームワークでは、教師付き学習設定において、不均一でスパースなトラフィック入力データを完全なマクロトラフィック状態にマッピングするようにオペレータを訓練する。 物理インフォームドされたフーリエニューラル演算子($\pi$-FNO)を演算子として選択し、個別保存法則に基づく物理損失が、トレーニング中に問題を正規化し、衝撃予測を改善する。 また、ランダムな定値入力データから生成されたトレーニングデータを用いて、ショックおよび希少解を体系的にキャプチャする。 LWRトラヒックフローモデルを用いた実験から,リングロードネットワークと都市信号化道路の密度動態の予測に優れた精度が得られた。 また,2~3ドルの車両待ち行列と1~2ドルの交通信号サイクルからなる単純な交通密度ダイナミクスを用いてオペレータを訓練することができ,不均質な車両待ち行列分布と複数の交通信号サイクルの密度ダイナミクスを許容可能な誤差で予測できることがわかった。 モデルアーキテクチャとトレーニングデータの適切な選択のために、外挿誤差は入力複雑性とともに線形に増大した。 特に周期境界データの問題に対する長期交通密度ダイナミクスの学習を支援する物理正規化器の追加。

Deep learning methods are emerging as popular computational tools for solving forward and inverse problems in traffic flow. In this paper, we study a neural operator framework for learning solutions to nonlinear hyperbolic partial differential equations with applications in macroscopic traffic flow models. In this framework, an operator is trained to map heterogeneous and sparse traffic input data to the complete macroscopic traffic state in a supervised learning setting. We chose a physics-informed Fourier neural operator ($\pi$-FNO) as the operator, where an additional physics loss based on a discrete conservation law regularizes the problem during training to improve the shock predictions. We also propose to use training data generated from random piecewise constant input data to systematically capture the shock and rarefied solutions. From experiments using the LWR traffic flow model, we found superior accuracy in predicting the density dynamics of a ring-road network and urban signalized road. We also found that the operator can be trained using simple traffic density dynamics, e.g., consisting of $2-3$ vehicle queues and $1-2$ traffic signal cycles, and it can predict density dynamics for heterogeneous vehicle queue distributions and multiple traffic signal cycles $(\geq 2)$ with an acceptable error. The extrapolation error grew sub-linearly with input complexity for a proper choice of the model architecture and training data. Adding a physics regularizer aided in learning long-term traffic density dynamics, especially for problems with periodic boundary data.
翻訳日:2023-12-11 18:40:43 公開日:2023-12-08
# SAfER:効率的なロバストニューラルネットワーク推論のための層レベル感度評価

SAfER: Layer-Level Sensitivity Assessment for Efficient and Robust Neural Network Inference ( http://arxiv.org/abs/2308.04753v2 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly, Xavier Fischer(参考訳) ディープニューラルネットワーク(DNN)は、ほとんどのコンピュータビジョンタスクにおいて優れたパフォーマンスを示す。 自動運転車や医療画像などの重要な応用には、その行動や意思決定の背後にある理由を調査する必要がある。 この静脈において、DNNの属性は、DNNの予測と入力の関係を研究することである。 帰属法は、dnnの最も関連する重みまたはニューロンを強調するために適応され、どの重みまたはニューロンを刈り取ることができるかをより効率的に選択できる。 しかし、これらのアプローチの制限は、重みは通常各層内で別々に比較されるが、いくつかの層は他の層よりも重要に見える。 本研究では,DNN層の重要性,すなわち層レベルで印加される精度w.r.t.摂動の感度を推定することを提案する。 そこで本研究では,本手法と今後の課題を評価するための新しいデータセットを提案する。 我々は、DNNのレイヤーの重要度を評価する方法に関する多くの基準をベンチマークし、その結果、DNNの効率向上のためのレイヤの予算化(DNNのプルーニングと量子化の応用)、およびハードウェアの障害に対する堅牢性(ビットスワップなど)について結論を導き出す。

Deep neural networks (DNNs) demonstrate outstanding performance across most computer vision tasks. Some critical applications, such as autonomous driving or medical imaging, also require investigation into their behavior and the reasons behind the decisions they make. In this vein, DNN attribution consists in studying the relationship between the predictions of a DNN and its inputs. Attribution methods have been adapted to highlight the most relevant weights or neurons in a DNN, allowing to more efficiently select which weights or neurons can be pruned. However, a limitation of these approaches is that weights are typically compared within each layer separately, while some layers might appear as more critical than others. In this work, we propose to investigate DNN layer importance, i.e. to estimate the sensitivity of the accuracy w.r.t. perturbations applied at the layer level. To do so, we propose a novel dataset to evaluate our method as well as future works. We benchmark a number of criteria and draw conclusions regarding how to assess DNN layer importance and, consequently, how to budgetize layers for increased DNN efficiency (with applications for DNN pruning and quantization), as well as robustness to hardware failure (e.g. bit swaps).
翻訳日:2023-12-11 18:40:18 公開日:2023-12-08
# AFN: Encoder-Decoder Frameworkによる適応核融合正規化

AFN: Adaptive Fusion Normalization via Encoder-Decoder Framework ( http://arxiv.org/abs/2308.03321v2 )

ライセンス: Link先を確認
Zikai Zhou, Huanran Chen(参考訳) ディープラーニングの成功は、正規化層とは区別できない。 研究者は様々な正規化関数を提案しており、それぞれに利点と欠点がある。 これに対し、すべての正規化手順を組み合わせて弱点を緩和する統一正規化関数を設計する努力がなされている。 また,Adaptive Fusion Normalizationと呼ばれる新しい正規化関数も提案した。 実験により,AFNは領域一般化や画像分類タスクにおいて,従来の正規化手法よりも優れていた。

The success of deep learning is inseparable from normalization layers. Researchers have proposed various normalization functions, and each of them has both advantages and disadvantages. In response, efforts have been made to design a unified normalization function that combines all normalization procedures and mitigates their weaknesses. We also proposed a new normalization function called Adaptive Fusion Normalization. Through experiments, we demonstrate AFN outperforms the previous normalization techniques in domain generalization and image classification tasks.
翻訳日:2023-12-11 18:39:54 公開日:2023-12-08
# 最先端世代モデルの信頼性景観について:調査と展望

On the Trustworthiness Landscape of State-of-the-art Generative Models: A Survey and Outlook ( http://arxiv.org/abs/2307.16680v5 )

ライセンス: Link先を確認
Mingyuan Fan, Chengyu Wang, Cen Chen, Yang Liu, Jun Huang(参考訳) 拡散モデルと大きな言語モデルが最先端の生成モデルとして登場し、人間の生活の様々な側面に革命をもたらした。 しかし、これらのモデルの実践的実装は固有のリスクを露呈し、彼らの邪悪な側面を前面に押し上げ、その信頼性に関する懸念を引き起こした。 この主題に関する文献が豊富にあるにもかかわらず、大規模な生成モデルの交差を特に調査し、その信頼性はほとんど欠落している。 このギャップを埋めるため,本稿では,これらのモデルに関連する長期的および新興的脅威について,以下の4つの基本的な側面から検討する。 1)プライバシ。 2)セキュリティ。 3)公平さ,そして 4)責任。 調査結果に基づいて,大規模生成モデルの信頼性を概説する広範な地図を作成する。 その後、我々は、大規模な生成モデルを備えた将来のセキュアなアプリケーションに対して、実用的な勧告と潜在的研究の方向性を提供し、最終的にモデルの信頼性を促進し、社会全体に利益をもたらす。

Diffusion models and large language models have emerged as leading-edge generative models, revolutionizing various aspects of human life. However, the practical implementations of these models have also exposed inherent risks, bringing to the forefront their evil sides and sparking concerns regarding their trustworthiness. Despite the wealth of literature on this subject, a comprehensive survey specifically delving into the intersection of large-scale generative models and their trustworthiness remains largely absent. To bridge this gap, this paper investigates both the long-standing and emerging threats associated with these models across four fundamental dimensions: 1) privacy, 2) security, 3) fairness, and 4) responsibility. Based on the investigation results, we develop an extensive map outlining the trustworthiness of large generative models. After that, we provide practical recommendations and potential research directions for future secure applications equipped with large generative models, ultimately promoting the trustworthiness of the models and benefiting the society as a whole.
翻訳日:2023-12-11 18:39:45 公開日:2023-12-08
# BayesDAG: 因果発見のための勾配に基づく後部推論

BayesDAG: Gradient-Based Posterior Inference for Causal Discovery ( http://arxiv.org/abs/2307.13917v2 )

ライセンス: Link先を確認
Yashas Annadani, Nick Pawlowski, Joel Jennings, Stefan Bauer, Cheng Zhang, Wenbo Gong(参考訳) Bayesian causal discoveryは、観測されたデータから因果モデルの後方分布を推定し、疫学的な不確実性を定量化し、下流のタスクに利益をもたらすことを目的としている。 しかし、DAG(Directed Acyclic Graphs)と非線形関数の組合せ空間に対する共同推論によって計算上の問題が発生する。 DAGに対する効率的な後部推論への最近の進歩にもかかわらず、既存の手法は線形因果モデルに対するノード置換行列の変分推論に制限され、妥協された推論精度、DAG正規化器によって制約された隣接行列の連続緩和が導かれる。 本研究では,確率勾配マルコフ・チェイン・モンテカルロ (SG-MCMC) と変分推論 (VI) を組み合わせて,これらの制約を克服したスケーラブルなベイズ因果発見フレームワークを提案する。 本手法では,DAG正則化を必要とせずに後方からDAGを直接サンプリングし,同時に関数パラメータのサンプルを抽出し,線形因果モデルと非線形因果モデルの両方に適用する。 提案手法を実現するために,置換に基づくDAG学習と新しい等価性を導出し,置換上に定義された緩和勾配推定器の使用可能性を高める。 我々の知る限り、これは勾配に基づくMCMCサンプリングを因果発見に適用した最初のフレームワークである。 合成および実世界のデータセットに関する実証評価は、最先端のベースラインと比較して、我々のアプローチの有効性を示している。

Bayesian causal discovery aims to infer the posterior distribution over causal models from observed data, quantifying epistemic uncertainty and benefiting downstream tasks. However, computational challenges arise due to joint inference over combinatorial space of Directed Acyclic Graphs (DAGs) and nonlinear functions. Despite recent progress towards efficient posterior inference over DAGs, existing methods are either limited to variational inference on node permutation matrices for linear causal models, leading to compromised inference accuracy, or continuous relaxation of adjacency matrices constrained by a DAG regularizer, which cannot ensure resulting graphs are DAGs. In this work, we introduce a scalable Bayesian causal discovery framework based on a combination of stochastic gradient Markov Chain Monte Carlo (SG-MCMC) and Variational Inference (VI) that overcomes these limitations. Our approach directly samples DAGs from the posterior without requiring any DAG regularization, simultaneously draws function parameter samples and is applicable to both linear and nonlinear causal models. To enable our approach, we derive a novel equivalence to the permutation-based DAG learning, which opens up possibilities of using any relaxed gradient estimator defined over permutations. To our knowledge, this is the first framework applying gradient-based MCMC sampling for causal discovery. Empirical evaluation on synthetic and real-world datasets demonstrate our approach's effectiveness compared to state-of-the-art baselines.
翻訳日:2023-12-11 18:39:27 公開日:2023-12-08
# ランダムドット積グラフの勾配に基づくスペクトル埋め込み

Gradient-Based Spectral Embeddings of Random Dot Product Graphs ( http://arxiv.org/abs/2307.13818v2 )

ライセンス: Link先を確認
Marcelo Fiori, Bernardo Marenco, Federico Larroca, Paola Bermolen, Gonzalo Mateos(参考訳) Random Dot Product Graph (RDPG) は関係データの生成モデルであり、ノードは低次元ユークリッド空間の潜在ベクトルを介して表現される。 RDPGは、エッジ形成確率が対応する潜伏位置のドット積によって与えられることを決定的に仮定する。 したがって、これらのベクトルを観測グラフから推定する埋め込みタスクは、一般に低ランク行列分解問題として表される。 ワークホースの隣接スペクトル埋め込み(ASE)は、固体統計的性質を享受するが、公式には代理問題を解き、計算に重きを置くことができる。 本稿では,非凸最適化の最近の進歩に対処し,RDPG推論への影響を実証する。 本稿では, 組込み問題をよりよく解くための一階勾配降下法を提案し, 実用的妥当性の広いネットワーク埋込み応用を有機的に適応する。 特に、係数行列が直交列を持つことに制約されない限り、有向グラフのRDPG埋め込みはゆるやかに解釈可能であると論じる。 そこで我々は, 結果の多様体において, 実現可能な新しい最適化手法を開発した。 グラフ表現学習フレームワークの有効性を,合成データと実ネットワークデータの両方を用いて再現可能な実験で実証した。 私たちのオープンソースアルゴリズムの実装はスケーラブルで、ASEとは異なりエッジデータに欠ける堅牢で、ストリーミンググラフからゆっくりと変化する潜在位置を追跡することができます。

The Random Dot Product Graph (RDPG) is a generative model for relational data, where nodes are represented via latent vectors in low-dimensional Euclidean space. RDPGs crucially postulate that edge formation probabilities are given by the dot product of the corresponding latent positions. Accordingly, the embedding task of estimating these vectors from an observed graph is typically posed as a low-rank matrix factorization problem. The workhorse Adjacency Spectral Embedding (ASE) enjoys solid statistical properties, but it is formally solving a surrogate problem and can be computationally intensive. In this paper, we bring to bear recent advances in non-convex optimization and demonstrate their impact to RDPG inference. We advocate first-order gradient descent methods to better solve the embedding problem, and to organically accommodate broader network embedding applications of practical relevance. Notably, we argue that RDPG embeddings of directed graphs loose interpretability unless the factor matrices are constrained to have orthogonal columns. We thus develop a novel feasible optimization method in the resulting manifold. The effectiveness of the graph representation learning framework is demonstrated on reproducible experiments with both synthetic and real network data. Our open-source algorithm implementations are scalable, and unlike the ASE they are robust to missing edge data and can track slowly-varying latent positions from streaming graphs.
翻訳日:2023-12-11 18:39:02 公開日:2023-12-08
# ECSIC:ステレオ画像圧縮のための極端交差注意

ECSIC: Epipolar Cross Attention for Stereo Image Compression ( http://arxiv.org/abs/2307.10284v2 )

ライセンス: Link先を確認
Matthias W\"odlinger, Jan Kotera, Manuel Keglevic, Jan Xu and Robert Sablatnig(参考訳) 本稿では,ステレオ画像圧縮のための新しい学習手法であるecsicを提案する。 提案手法は,新しいステレオクロスアテンション(sca)モジュールと2つのステレオコンテクストモジュールを用いて,ステレオイメージペアのイメージ間の相互情報を活用し,左右画像の協調圧縮を行う。 SCAモジュールは、2つの画像の対応するエピポーラ線に制限されたクロスアテンションを実行し、それらを並列に処理する。 ステレオコンテキストモジュールは、第1の画像をコンテキストとして使用することにより、第2の符号化画像のエントロピー推定を改善する。 本研究は,提案モジュールの有効性を実証する広範囲なアブレーション研究と,既存手法との比較を行った。 ECSICは2つの人気のあるステレオ画像データセットであるCityscapesとInStereo2kのステレオ画像圧縮における最先端のパフォーマンスを実現し、高速な符号化と復号を可能にする。

In this paper, we present ECSIC, a novel learned method for stereo image compression. Our proposed method compresses the left and right images in a joint manner by exploiting the mutual information between the images of the stereo image pair using a novel stereo cross attention (SCA) module and two stereo context modules. The SCA module performs cross-attention restricted to the corresponding epipolar lines of the two images and processes them in parallel. The stereo context modules improve the entropy estimation of the second encoded image by using the first image as a context. We conduct an extensive ablation study demonstrating the effectiveness of the proposed modules and a comprehensive quantitative and qualitative comparison with existing methods. ECSIC achieves state-of-the-art performance in stereo image compression on the two popular stereo image datasets Cityscapes and InStereo2k while allowing for fast encoding and decoding.
翻訳日:2023-12-11 18:38:39 公開日:2023-12-08
# 量子相対エントロピーに基づくマジックモノトーンの混合状態付加性

Mixed-state additivity properties of magic monotones based on quantum relative entropies for single-qubit states and beyond ( http://arxiv.org/abs/2307.08258v2 )

ライセンス: Link先を確認
Roberto Rubboli, Ryuji Takagi, and Marco Tomamichel(参考訳) 任意の数の単一量子ビット状態のテンソル積に対して安定化子忠実度が乗法であることが証明される。 また、魔法の相対エントロピーは、全ての単一量子状態が安定化器オクタヘドロンの対称性軸に属する場合、加法的であることを示す。 後者の結果は、マジックの相対エントロピーである$\alpha$-$z$ R\'enyi を含むように拡張する。 これにより、シングルキュービット状態に付加される魔法のモノトーンの連続的な集合を識別できる。 また, 上記のモノトーンはすべて, 偏極雑音を受ける複数の標準2および3量子状態に対する添加物であることを示す。 最後に, いくつかの状態に対するクローズドフォーム表現と, 確率的ワンショットマジック状態蒸留のオーバーヘッドに対するより低い境界を求める。

We prove that the stabilizer fidelity is multiplicative for the tensor product of an arbitrary number of single-qubit states. We also show that the relative entropy of magic becomes additive if all the single-qubit states but one belong to a symmetry axis of the stabilizer octahedron. We extend the latter results to include all the $\alpha$-$z$ R\'enyi relative entropy of magic. This allows us to identify a continuous set of magic monotones that are additive for single-qubit states. We also show that all the monotones mentioned above are additive for several standard two and three-qubit states subject to depolarizing noise. Finally, we obtain closed-form expressions for several states and tighter lower bounds for the overhead of probabilistic one-shot magic state distillation.
翻訳日:2023-12-11 18:38:25 公開日:2023-12-08
# FreeDrag: 信頼性の高いポイントベースの画像編集のための機能ドラッグ

FreeDrag: Feature Dragging for Reliable Point-based Image Editing ( http://arxiv.org/abs/2307.04684v3 )

ライセンス: Link先を確認
Pengyang Ling, Lin Chen, Pan Zhang, Huaian Chen, Yi Jin, Jinjin Zheng(参考訳) 画像編集の複雑で多様な要求に応えるには、画像コンテンツの精密で柔軟な操作が不可欠である。 近年,ドラッグ方式による編集手法が注目されている。 しかし、これらの手法は主に点のドラッグを中心にしており、2つの注目すべき欠点、すなわち、所定のハンドルポイントを正確に追跡することが困難である「ミストラッキング」と、トラックされたポイントがハンドルポイントとよく似た間違った領域に置かれている「あいまいなトラッキング」である。 上記の問題に対処するため、ポイントトラッキングの負担を軽減すべく、FreeDragという機能ドラッグ手法を提案する。 FreeDragは2つの重要な設計、すなわち適応更新によるテンプレート機能とバックトラックによるライン検索、前者はドラッグ後の特徴更新スケールを精巧に制御することで劇的なコンテンツ変更に対する安定性を改善し、後者はライン内の検索領域を積極的に制限することで類似点からの誤認を軽減する。 これら2つの技術は、より高い効率でより安定したセマンティクス引きずりに寄与する。 総合実験の結果,提案手法が既存の手法を大幅に上回っており,様々な複雑なシナリオにおいても信頼性の高いポイントベース編集が可能であった。

To serve the intricate and varied demands of image editing, precise and flexible manipulation in image content is indispensable. Recently, Drag-based editing methods have gained impressive performance. However, these methods predominantly center on point dragging, resulting in two noteworthy drawbacks, namely "miss tracking", where difficulties arise in accurately tracking the predetermined handle points, and "ambiguous tracking", where tracked points are potentially positioned in wrong regions that closely resemble the handle points. To address the above issues, we propose FreeDrag, a feature dragging methodology designed to free the burden on point tracking. The FreeDrag incorporates two key designs, i.e., template feature via adaptive updating and line search with backtracking, the former improves the stability against drastic content change by elaborately controls feature updating scale after each dragging, while the latter alleviates the misguidance from similar points by actively restricting the search area in a line. These two technologies together contribute to a more stable semantic dragging with higher efficiency. Comprehensive experimental results substantiate that our approach significantly outperforms pre-existing methodologies, offering reliable point-based editing even in various complex scenarios.
翻訳日:2023-12-11 18:38:12 公開日:2023-12-08
# RanPAC:継続的学習のためのランダム投影と事前学習モデル

RanPAC: Random Projections and Pre-trained Models for Continual Learning ( http://arxiv.org/abs/2307.02251v2 )

ライセンス: Link先を確認
Mark D. McDonnell, Dong Gong, Amin Parveneh, Ehsan Abbasnejad, Anton van den Hengel(参考訳) 継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を段階的に学習することを目的としている。 ほとんどのCLは、スクラッチから学習するパラダイムの下で破滅的な忘れに対処することに重点を置いています。 しかし、基礎モデルの普及に伴い、様々な下流要求に対して情報表現を備えた事前学習モデルが利用できるようになった。 事前訓練されたモデルに基づくいくつかのCL手法が検討され、事前抽出された特徴を直接利用(ブリッジング分布ギャップを困難にしている)するか、あるいは適応子(忘れられる可能性がある)を取り入れている。 本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。 パラメータ更新中に忘れが生じることを考慮し、トレーニング不要なランダムプロジェクタとクラスプロトタイプの蓄積を利用した代替アプローチを考え、この問題を回避した。 具体的には、事前学習したモデルの特徴表現と出力ヘッドの間に非線形に活性化された凍結ランダム投影層を注入し、拡張次元を持つ特徴間の相互作用をキャプチャし、クラスプロトタイプに基づくclの線形分離性を高める。 また,事前学習した表現を用いた場合の分布差を低減するために,クラスプロトタイプのデコレーションの重要性を示す。 これらの手法は効果的なことを示し、クラス・インクリメンタル・ラーニングとドメイン・インクリメンタル・ラーニングの両方で忘れてしまう問題を回避している。 事前学習したViT-B/16モデルと比較して、7つのクラスインクリメンタルベンチマークにおいて、リハーサルメモリを使用しないにもかかわらず、最終エラー率を10%から62%削減する。 我々は、単純で効果的で高速なCLのための事前学習モデルの完全なポテンシャルは、完全にタップされていないと結論付けた。 コードはgithub.com/RanPAC/RanPACにある。

Continual learning (CL) aims to incrementally learn different tasks (such as classification) in a non-stationary data stream without forgetting old ones. Most CL works focus on tackling catastrophic forgetting under a learning-from-scratch paradigm. However, with the increasing prominence of foundation models, pre-trained models equipped with informative representations have become available for various downstream requirements. Several CL methods based on pre-trained models have been explored, either utilizing pre-extracted features directly (which makes bridging distribution gaps challenging) or incorporating adaptors (which may be subject to forgetting). In this paper, we propose a concise and effective approach for CL with pre-trained models. Given that forgetting occurs during parameter updating, we contemplate an alternative approach that exploits training-free random projectors and class-prototype accumulation, which thus bypasses the issue. Specifically, we inject a frozen Random Projection layer with nonlinear activation between the pre-trained model's feature representations and output head, which captures interactions between features with expanded dimensionality, providing enhanced linear separability for class-prototype-based CL. We also demonstrate the importance of decorrelating the class-prototypes to reduce the distribution disparity when using pre-trained representations. These techniques prove to be effective and circumvent the problem of forgetting for both class- and domain-incremental continual learning. Compared to previous methods applied to pre-trained ViT-B/16 models, we reduce final error rates by between 10% and 62% on seven class-incremental benchmarks, despite not using any rehearsal memory. We conclude that the full potential of pre-trained models for simple, effective, and fast CL has not hitherto been fully tapped. Code is at github.com/RanPAC/RanPAC.
翻訳日:2023-12-11 18:37:31 公開日:2023-12-08
# 量子化に基づく意味分解を用いた複合環境におけるロバストな視聴覚セグメンテーション

Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition ( http://arxiv.org/abs/2310.00132v2 )

ライセンス: Link先を確認
Xiang Li, Jinglu Wang, Xiaohao Xu, Xiulian Peng, Rita Singh, Yan Lu, Bhiksha Raj(参考訳) 聴覚的セグメンテーション(AVS)は,映像中の視覚的物体を関連する音響的手がかりに従って分割することを目的とした課題である。 複数の音源と背景障害を伴い、音声と視覚コンテンツとの堅牢な対応を確立することは、(1)音源間の複雑な絡み合い、(2)異なる音事象の発生の頻繁な変化により、独特な課題をもたらす。 音の事象が独立に起こると仮定すると、マルチソース意味空間は単一ソース部分空間のデカルト積として表現できる。 視覚コンテンツとのより効果的なインタラクションのために,マルチソース音声セマンティクスを単一ソースセマンティクスに分解する。 製品量子化に基づくセマンティック分解手法を提案し,マルチソースセマンティクスを分解し,複数の不整合およびノイズ抑圧された単一ソースセマンティクスで表現する。 さらに,安定なグローバル(クリップレベル)機能からローカル(フレームレベル)機能への知識を抽出し,音声意味論の頻繁な変化に対応するグローバル・ツー・ローカル量子化機構を導入する。 我々の意味的に分解されたオーディオ表現は、ResNet50のバックボーンによる挑戦的なAVS-Semanticベンチマークにおいて、+21.2% mIoUなど、AVSのパフォーマンスを大幅に改善することを示した。 https://github.com/lxa9867/QSD

Audiovisual segmentation (AVS) is a challenging task that aims to segment visual objects in videos according to their associated acoustic cues. With multiple sound sources and background disturbances involved, establishing robust correspondences between audio and visual contents poses unique challenges due to (1) complex entanglement across sound sources and (2) frequent changes in the occurrence of distinct sound events. Assuming sound events occur independently, the multi-source semantic space can be represented as the Cartesian product of single-source sub-spaces. We are motivated to decompose the multi-source audio semantics into single-source semantics for more effective interactions with visual content. We propose a semantic decomposition method based on product quantization, where the multi-source semantics can be decomposed and represented by several disentangled and noise-suppressed single-source semantics. Furthermore, we introduce a global-to-local quantization mechanism, which distills knowledge from stable global (clip-level) features into local (frame-level) ones, to handle frequent changes in audio semantics. Extensive experiments demonstrate that our semantically decomposed audio representation significantly improves AVS performance, e.g., +21.2% mIoU on the challenging AVS-Semantic benchmark with ResNet50 backbone. https://github.com/lxa9867/QSD.
翻訳日:2023-12-11 18:31:22 公開日:2023-12-08
# 残差ネットワークにおける奥行きハイパーパラメータ転送:ダイナミクスとスケーリング限界

Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and Scaling Limit ( http://arxiv.org/abs/2309.16620v2 )

ライセンス: Link先を確認
Blake Bordelon, Lorenzo Noci, Mufan Bill Li, Boris Hanin, Cengiz Pehlevan(参考訳) ディープラーニングにおけるハイパーパラメータチューニングのコストはモデルサイズとともに上昇しており、実践者はより小さなネットワークのプロキシを使って新しいチューニング方法を見つけることができる。 そのような提案の1つは$\mu$Pパラメータ化ネットワークを使用し、小さな幅のネットワークに対して最適なハイパーパラメータが任意に広い幅のネットワークに転送される。 しかし、このスキームでは、ハイパーパラメータは深さを渡らない。 救済策として,1/\sqrt{\text{depth}}$と$\mu$Pパラメータ化を組み合わせた残差分数スケールの残差ネットワークについて検討する。 このパラメータ化で訓練された畳み込みResNetやVision Transformerなどの残余アーキテクチャは、CIFAR-10とImageNet上で幅と深さをまたいだ最適なハイパーパラメータの転送を示す。 さらに,我々の経験的発見は理論によって支持され動機づけられる。 ニューラルネットワーク学習ダイナミクスの動的平均場理論(dmft)記述における最近の発展を用いて、この再ネットのパラメータ化は、無限幅と無限深さの極限をうまく定義した特徴学習を許容し、有限サイズのネットワークダイナミクスの収束を示す。

The cost of hyperparameter tuning in deep learning has been rising with model sizes, prompting practitioners to find new tuning methods using a proxy of smaller networks. One such proposal uses $\mu$P parameterized networks, where the optimal hyperparameters for small width networks transfer to networks with arbitrarily large width. However, in this scheme, hyperparameters do not transfer across depths. As a remedy, we study residual networks with a residual branch scale of $1/\sqrt{\text{depth}}$ in combination with the $\mu$P parameterization. We provide experiments demonstrating that residual architectures including convolutional ResNets and Vision Transformers trained with this parameterization exhibit transfer of optimal hyperparameters across width and depth on CIFAR-10 and ImageNet. Furthermore, our empirical findings are supported and motivated by theory. Using recent developments in the dynamical mean field theory (DMFT) description of neural network learning dynamics, we show that this parameterization of ResNets admits a well-defined feature learning joint infinite-width and infinite-depth limit and show convergence of finite-size network dynamics towards this limit.
翻訳日:2023-12-11 18:30:56 公開日:2023-12-08
# Spider4SPARQL:知識グラフ質問回答システム評価のための複雑なベンチマーク

Spider4SPARQL: A Complex Benchmark for Evaluating Knowledge Graph Question Answering Systems ( http://arxiv.org/abs/2309.16248v2 )

ライセンス: Link先を確認
Catherine Kosten, Philippe Cudr\'e-Mauroux, Kurt Stockinger(参考訳) 近年,Large Language Models(LLMs)の数が急増し,知識グラフ質問回答システム(KGQA)を評価するために,大規模かつ現実的なベンチマークを提供することがますます重要になっている。 これまでのベンチマークのほとんどは、パターンベースのSPARQLクエリ生成アプローチに依存しています。 その後の自然言語(NL)質問生成は、クラウドソーシングやルールベースのパラフレーズやNL質問テンプレートなどの自動化手法によって行われる。 これらのデータセットの中にはかなりの大きさのものもあるが、その落とし穴はパターンベースの世代アプローチにある。 本稿では,従来の9,693件のNL質問と4,721件のユニークな,斬新で複雑なSPARQLクエリを備えた,新しいSPARQLベンチマークデータセットであるSpider4SPARQLを紹介する。 nl/sparqlペアに加えて、対応する166のナレッジグラフと138の異なるドメインをカバーするオントロジーも提供しています。 我々の複雑なベンチマークは、現代のKGQAシステムの強みと弱みを評価する新しい方法を可能にする。 我々は,最先端の kgqa システムと llms を用いてシステム評価を行い,最大 45 % の実行精度を達成し,spider4sparql が今後の研究にとって困難なベンチマークであることを示す。

With the recent spike in the number and availability of Large Language Models (LLMs), it has become increasingly important to provide large and realistic benchmarks for evaluating Knowledge Graph Question Answering (KGQA) systems. So far the majority of benchmarks rely on pattern-based SPARQL query generation approaches. The subsequent natural language (NL) question generation is conducted through crowdsourcing or other automated methods, such as rule-based paraphrasing or NL question templates. Although some of these datasets are of considerable size, their pitfall lies in their pattern-based generation approaches, which do not always generalize well to the vague and linguistically diverse questions asked by humans in real-world contexts. In this paper, we introduce Spider4SPARQL - a new SPARQL benchmark dataset featuring 9,693 previously existing manually generated NL questions and 4,721 unique, novel, and complex SPARQL queries of varying complexity. In addition to the NL/SPARQL pairs, we also provide their corresponding 166 knowledge graphs and ontologies, which cover 138 different domains. Our complex benchmark enables novel ways of evaluating the strengths and weaknesses of modern KGQA systems. We evaluate the system with state-of-the-art KGQA systems as well as LLMs, which achieve only up to 45\% execution accuracy, demonstrating that Spider4SPARQL is a challenging benchmark for future research.
翻訳日:2023-12-11 18:30:36 公開日:2023-12-08
# 皮質回路における精度推定と2次誤差

Precision estimation and second-order errors in cortical circuits ( http://arxiv.org/abs/2309.16046v2 )

ライセンス: Link先を確認
Arno Granier, Mihai A. Petrovici, Walter Senn and Katharina A. Wilmes(参考訳) 大脳皮質予測誤差の最小化は、知覚、行動、学習に基づく大脳皮質の重要な計算目標と考えられている。 しかし、この予測誤差最小化の過程において、脳皮質がどのように形成され、不確実性に関する情報を使用するべきかはまだ不明である。 ここでは、皮質領域が他の領域や感覚の流れの活動を予測するだけでなく、予測の精度を共同で推定する必要があるという仮定の下で予測誤差を最小化する神経力学を導出する。 その結果,文脈依存的精度推定に基づく皮質ストリームの動的変調バランスが得られた。 さらに、この理論は、古典的な予測誤差と共に皮質階層を通して伝播する、推定と実際の精度を比較して、皮質二階誤差の存在を予測する。 これらの二階誤差は、誤り訂正型シナプス学習規則を通じて精度推定に責任のあるシナプスの重みを学習するために用いられる。 最後に,この理論の皮質回路への詳細なマッピングを提案する。

Minimization of cortical prediction errors has been considered a key computational goal of the cerebral cortex underlying perception, action and learning. However, it is still unclear how the cortex should form and use information about uncertainty in this process of prediction error minimization. Here we derive neural dynamics that minimize prediction errors under the assumption that cortical areas must not only predict the activity in other areas and sensory streams, but also jointly estimate the precision of their predictions. This results in a dynamic modulatory balancing of cortical streams based on context-dependent precision estimates. Moreover, the theory predicts the existence of cortical second-order errors, comparing estimated and actual precision, propagated through the cortical hierarchy alongside classical prediction errors. These second-order errors are used to learn weights of synapses responsible for precision estimation through an error-correcting synaptic learning rule. Finally, we propose a detailed mapping of the theory to cortical circuitry.
翻訳日:2023-12-11 18:30:11 公開日:2023-12-08
# 時間グラフモデルは、大域的時間的ダイナミクスを捉えるのに失敗する

Temporal graph models fail to capture global temporal dynamics ( http://arxiv.org/abs/2309.15730v3 )

ライセンス: Link先を確認
Micha{\l} Daniluk, Jacek D\k{a}browski(参考訳) 最近リリースされたTemporal Graph Benchmarkは、Dynamic Link Property Predictionのコンテキストで分析されている。 本報告では,中規模および大規模データセットにおける他の手法に匹敵する「最近人気の高いノード」の最適化フリーベースラインを提案する。 本研究では,データセットの短期的および長期的大域的ダイナミクスの強さを定量化可能なwasserstein距離に基づく2つの尺度を提案する。 予期せぬほど強いベースラインを解析することにより,時間的ダイナミクスの強いデータセットに対して,標準負サンプリング評価がいかに不適切であるかを示す。 また、簡単な負サンプリングがトレーニング中にモデル変性を引き起こすことを示し、時間グラフネットワークの完全飽和予測のランク付けが不可能であることを示す。 学習と評価の両面でのネガティブサンプリング手法の改良を提案し,その有用性を検証した。 負のサンプリングを伴わずに非対照的に訓練されたモデルとの比較を行う。 その結果,ソーシャルメディアや暗号通貨市場,eコマースなど,世界規模で大きなダイナミクスを持つ問題に対して,時間的グラフネットワークアーキテクチャを深く再考する必要があることが示された。 ベースライン,測度,提案する負のサンプリングスキームのコードをオープンソース化する。

A recently released Temporal Graph Benchmark is analyzed in the context of Dynamic Link Property Prediction. We outline our observations and propose a trivial optimization-free baseline of "recently popular nodes" outperforming other methods on medium and large-size datasets in the Temporal Graph Benchmark. We propose two measures based on Wasserstein distance which can quantify the strength of short-term and long-term global dynamics of datasets. By analyzing our unexpectedly strong baseline, we show how standard negative sampling evaluation can be unsuitable for datasets with strong temporal dynamics. We also show how simple negative-sampling can lead to model degeneration during training, resulting in impossible to rank, fully saturated predictions of temporal graph networks. We propose improved negative sampling schemes for both training and evaluation and prove their usefulness. We conduct a comparison with a model trained non-contrastively without negative sampling. Our results provide a challenging baseline and indicate that temporal graph network architectures need deep rethinking for usage in problems with significant global dynamics, such as social media, cryptocurrency markets or e-commerce. We open-source the code for baselines, measures and proposed negative sampling schemes.
翻訳日:2023-12-11 18:29:54 公開日:2023-12-08
# 自己指導型学習のためのフォワードフォワードアルゴリズムの検討

A Study of Forward-Forward Algorithm for Self-Supervised Learning ( http://arxiv.org/abs/2309.11955v2 )

ライセンス: Link先を確認
Jonas Brenig, Radu Timofte(参考訳) 自己教師付き表現学習はここ数年で著しく進歩し、最近の手法のいくつかはラベルなしで有用な画像表現を学べるようになった。 これらの方法はデファクトスタンダードであるバックプロパゲーションを使って訓練される。 近年、Geoffrey Hinton は代替のトレーニング手法としてフォワードアルゴリズムを提案した。 バックプロパゲーションなしでネットワークをトレーニングするために、各レイヤに2つのフォワードパスと別個の損失関数を使用する。 本研究では,自己指導型表現学習における前向き対逆プロパゲーションのパフォーマンスを初めて研究し,学習した表現空間に対する洞察を提供する。 ベンチマークでは,mnist,f-mnist,svhn,cifar-10の4つの標準データセットと,ローテーション,フリップ,jigsawの3つの自己教師あり表現学習手法を用いた。 我々の主な発見は、フォワードアルゴリズムは(自己)教師付きトレーニングの間、バックプロパゲーションと相性が良いが、研究されたすべての設定において、転送性能は大幅に遅れていることである。 これは、各層に損失関数を持たせることや、教師付きトレーニングが前方のパラダイムで実現される方法など、さまざまな要因の組み合わせによって引き起こされる可能性がある。 バックプロパゲーションとは対照的に、フォワードフォワードアルゴリズムは境界をより重視し、表現学習目標を損なう決定を行うために不要な情報の一部をドロップする。 geoffrey hinton氏が示したデータセットと構成を超えて働くために、自己教師付き学習の前方戦略を安定化するために、さらなる調査と研究が必要である。

Self-supervised representation learning has seen remarkable progress in the last few years, with some of the recent methods being able to learn useful image representations without labels. These methods are trained using backpropagation, the de facto standard. Recently, Geoffrey Hinton proposed the forward-forward algorithm as an alternative training method. It utilizes two forward passes and a separate loss function for each layer to train the network without backpropagation. In this study, for the first time, we study the performance of forward-forward vs. backpropagation for self-supervised representation learning and provide insights into the learned representation spaces. Our benchmark employs four standard datasets, namely MNIST, F-MNIST, SVHN and CIFAR-10, and three commonly used self-supervised representation learning techniques, namely rotation, flip and jigsaw. Our main finding is that while the forward-forward algorithm performs comparably to backpropagation during (self-)supervised training, the transfer performance is significantly lagging behind in all the studied settings. This may be caused by a combination of factors, including having a loss function for each layer and the way the supervised training is realized in the forward-forward paradigm. In comparison to backpropagation, the forward-forward algorithm focuses more on the boundaries and drops part of the information unnecessary for making decisions which harms the representation learning goal. Further investigation and research are necessary to stabilize the forward-forward strategy for self-supervised learning, to work beyond the datasets and configurations demonstrated by Geoffrey Hinton.
翻訳日:2023-12-11 18:29:07 公開日:2023-12-08
# LLMの目標指向型プロンプト攻撃と安全性評価

Goal-Oriented Prompt Attack and Safety Evaluation for LLMs ( http://arxiv.org/abs/2309.11830v2 )

ライセンス: Link先を確認
Chengyuan Liu, Fubang Zhao, Lizhi Qing, Yangyang Kang, Changlong Sun, Kun Kuang, Fei Wu(参考訳) 大規模言語モデル(LLM)は、テキスト理解と生成において重要な優先順位を示す。 しかし、LSMは、特に応用される際に有害な内容物を生成するリスクに悩まされる。 プロンプトアタック(英語版)などいくつかのブラックボックス攻撃手法があり、LLMの振る舞いを変更し、有害な内容で予期せぬ回答を生じさせる。 研究者は、LPMによるプロンプトアタックとディフェンスに関心がある一方で、迅速なアタックを防御する能力を評価するために高い攻撃率を持つ公開データセットは存在しない。 本稿では,高品質なプロンプト攻撃サンプルを構築するパイプラインと,CPADと呼ばれる中国のプロンプト攻撃データセットを提案する。 提案するプロンプトは、いくつかの慎重に設計されたプロンプトアタックテンプレートと広く関連する攻撃内容を用いて、予期せぬ出力を生成するためにllmを誘導することを目的としている。 安全推定を含む従来のデータセットと異なり,コンテンツ,攻撃方法,目標の3次元を考慮したプロンプトを構築する。 特に, 攻撃目標は, LLMの攻撃に成功して期待される動作を示すため, 応答を容易に評価し, 解析することができる。 当社のデータセットでは,いくつかの中国製LPMを運用しており,この結果から,約70%の攻撃成功率がGPT-3.5に対して,LSMに対して極めて有害であることが示された。 CPADはhttps://github.com/liuchengyuan123/CPADで公開されている。

Large Language Models (LLMs) presents significant priority in text understanding and generation. However, LLMs suffer from the risk of generating harmful contents especially while being employed to applications. There are several black-box attack methods, such as Prompt Attack, which can change the behaviour of LLMs and induce LLMs to generate unexpected answers with harmful contents. Researchers are interested in Prompt Attack and Defense with LLMs, while there is no publicly available dataset with high successful attacking rate to evaluate the abilities of defending prompt attack. In this paper, we introduce a pipeline to construct high-quality prompt attack samples, along with a Chinese prompt attack dataset called CPAD. Our prompts aim to induce LLMs to generate unexpected outputs with several carefully designed prompt attack templates and widely concerned attacking contents. Different from previous datasets involving safety estimation, we construct the prompts considering three dimensions: contents, attacking methods and goals. Especially, the attacking goals indicate the behaviour expected after successfully attacking the LLMs, thus the responses can be easily evaluated and analysed. We run several popular Chinese LLMs on our dataset, and the results show that our prompts are significantly harmful to LLMs, with around 70% attack success rate to GPT-3.5. CPAD is publicly available at https://github.com/liuchengyuan123/CPAD.
翻訳日:2023-12-11 18:28:33 公開日:2023-12-08
# sgnet: ポイントクラウド登録のための高度幾何ネットワーク

SGNet: Salient Geometric Network for Point Cloud Registration ( http://arxiv.org/abs/2309.06207v2 )

ライセンス: Link先を確認
Qianliang Wu, Yaqing Ding, Lei Luo, Chuanwei Zhou, Jin Xie, Jian Yang(参考訳) ポイントクラウド登録(PCR)はコンピュータビジョンにおいて重要かつ困難なタスクである。 PCRの最大の難しさの1つは、様々なスキャンで一貫した意味的および幾何学的性質を示す有意義な点を特定することである。 従来の手法では、点群全体のパッチブロック間の類似性や、効率的なグローバルな幾何整合性に対する考慮の欠如が原因で、不明瞭なマッチングに遭遇した。 これらの課題に対処するため、我々はいくつかの新しい手法を含む新しい枠組みを提案する。 まず,オブジェクトレベルとパッチレベルのセマンティック情報を組み合わせた意味認識型幾何エンコーダを提案する。 このエンコーダはパッチレベルのスーパーポイントマッチングのあいまいさを低減し、登録リコールを大幅に改善する。 さらに本研究では,本質的な形状のシグネチャを用いて有能な点を同定する事前知識アプローチを導入する。 これにより、シーン内で最も有意義なスーパーポイントと有意義な密度ポイントを抽出できる。 次に,高次幾何学的特徴を符号化する革新的な変換器を提案する。 これらの特徴は、大域的な高次幾何整合性を考慮して、初期重なり合う領域内の有意点を特定するために重要である。 この高次変圧器をさらに最適化するために,アンカーノード選択戦略を導入する。 これらのアンカーノードに基づいてフレーム間三角形や多面体一貫性の特徴をエンコードすることで、高度超点の高次幾何学的特徴を効果的に学習することができる。 これらの高次特徴は密集点に伝播し、シンクホーンマッチングモジュールによってキー対応を識別して登録を成功させる。 3DMatch/3DLoMatchやKITTIといったよく知られたデータセットを用いて実験を行った結果,提案手法の有効性が示された。

Point Cloud Registration (PCR) is a critical and challenging task in computer vision. One of the primary difficulties in PCR is identifying salient and meaningful points that exhibit consistent semantic and geometric properties across different scans. Previous methods have encountered challenges with ambiguous matching due to the similarity among patch blocks throughout the entire point cloud and the lack of consideration for efficient global geometric consistency. To address these issues, we propose a new framework that includes several novel techniques. Firstly, we introduce a semantic-aware geometric encoder that combines object-level and patch-level semantic information. This encoder significantly improves registration recall by reducing ambiguity in patch-level superpoint matching. Additionally, we incorporate a prior knowledge approach that utilizes an intrinsic shape signature to identify salient points. This enables us to extract the most salient super points and meaningful dense points in the scene. Secondly, we introduce an innovative transformer that encodes High-Order (HO) geometric features. These features are crucial for identifying salient points within initial overlap regions while considering global high-order geometric consistency. To optimize this high-order transformer further, we introduce an anchor node selection strategy. By encoding inter-frame triangle or polyhedron consistency features based on these anchor nodes, we can effectively learn high-order geometric features of salient super points. These high-order features are then propagated to dense points and utilized by a Sinkhorn matching module to identify key correspondences for successful registration. In our experiments conducted on well-known datasets such as 3DMatch/3DLoMatch and KITTI, our approach has shown promising results, highlighting the effectiveness of our novel method.
翻訳日:2023-12-11 18:28:09 公開日:2023-12-08
# 自己監督型単眼深度推定におけるより良いデータ爆発に向けて

Towards Better Data Exploitation in Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2309.05254v3 )

ライセンス: Link先を確認
Jinfeng Liu, Lingtong Kong, Jie Yang, Wei Liu(参考訳) 深度推定はロボット知覚システムにおいて重要な役割を果たす。 自己教師付き単眼パラダイムは、深層アノテーションへの依存からトレーニングを解放できるため、大きな注目を集めている。 近年の進歩にもかかわらず、既存の自己監督手法は利用可能なトレーニングデータを過小に活用し、その一般化能力を制限する。 本稿では、データセットのトレーニングの可能性を完全に活用するために、Resizing-CroppingとSplitting-Permutingという2つのデータ拡張手法を用いる。 具体的には、原画像と生成した2つの拡張イメージを同時にトレーニングパイプラインに供給し、自己蒸留を行う。 さらに,ディテール強化DepthNetにエンコーダのフルスケールブランチとグリッドデコーダを導入し,ディフュージョンマップにおけるディテールの復元を強化した。 実験により,KITTIベンチマークを用いて,地中真理と地中真理の両面から,最先端の性能を実証した。 さらに,make3dおよびnyuv2データセットへの転送時の一般化性能も向上した。 私たちのコードはhttps://github.com/sauf4896/bdedepthで利用可能です。

Depth estimation plays an important role in the robotic perception system. Self-supervised monocular paradigm has gained significant attention since it can free training from the reliance on depth annotations. Despite recent advancements, existing self-supervised methods still underutilize the available training data, limiting their generalization ability. In this paper, we take two data augmentation techniques, namely Resizing-Cropping and Splitting-Permuting, to fully exploit the potential of training datasets. Specifically, the original image and the generated two augmented images are fed into the training pipeline simultaneously and we leverage them to conduct self-distillation. Additionally, we introduce the detail-enhanced DepthNet with an extra full-scale branch in the encoder and a grid decoder to enhance the restoration of fine details in depth maps. Experimental results demonstrate our method can achieve state-of-the-art performance on the KITTI benchmark, with both raw ground truth and improved ground truth. Moreover, our models also show superior generalization performance when transferring to Make3D and NYUv2 datasets. Our codes are available at https://github.com/Sauf4896/BDEdepth.
翻訳日:2023-12-11 18:27:43 公開日:2023-12-08
# FIND:解釈可能性評価のための関数記述ベンチマーク

FIND: A Function Description Benchmark for Evaluating Interpretability Methods ( http://arxiv.org/abs/2309.03886v3 )

ライセンス: Link先を確認
Sarah Schwettmann, Tamar Rott Shaham, Joanna Materzynska, Neil Chowdhury, Shuang Li, Jacob Andreas, David Bau, Antonio Torralba(参考訳) このような記述は、失敗を表面化したり、介入をガイドしたり、重要なモデルの振る舞いを説明したりする。 これまで、訓練されたネットワークの機械的な記述の多くは、小さなモデル、狭義に区切られた現象、そして大量の人的労働を伴う。 サイズと複雑さの増大したモデルに、人間解釈可能なサブ計算をラベル付けするには、ほぼ確実に、記述を自動生成し検証するツールが必要である。 近年,ループ内学習モデルを用いたラベリング手法が注目され始めているが,有効性を評価する手法は限られている。 オープンなラベル付けツールの検証と比較には,どうすればよいのか? 本稿では,自動解釈手法の構成ブロックを評価するためのベンチマークスイートであるfind(function interpretation and description)を提案する。 FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。 関数はテキストドメインと数値ドメインにまたがり、様々な現実世界の複雑さを含む。 本研究では,事前学習された言語モデル(LM)を用いて,自然言語やコードにおける関数の振る舞いを記述する手法を評価する。 さらに,AIA(Automated Interpretability Agent)が関数記述を生成するインタラクティブな手法を提案する。 関数へのブラックボックスアクセスを持つLMから構築されたAIAは、機能構造を推論し、仮説を定式化し、実験を提案し、新しいデータに照らして記述を更新することで科学者として振る舞うことができる。 しかし、AIAの記述はグローバル関数の振る舞いを捉え、局所的な詳細を見逃す傾向がある。 これらの結果から,FINDは実世界のモデルに適用する前に,より洗練された解釈可能性の評価に有用であることが示唆された。

Labeling neural network submodules with human-legible descriptions is useful for many downstream tasks: such descriptions can surface failures, guide interventions, and perhaps even explain important model behaviors. To date, most mechanistic descriptions of trained networks have involved small models, narrowly delimited phenomena, and large amounts of human labor. Labeling all human-interpretable sub-computations in models of increasing size and complexity will almost certainly require tools that can generate and validate descriptions automatically. Recently, techniques that use learned models in-the-loop for labeling have begun to gain traction, but methods for evaluating their efficacy are limited and ad-hoc. How should we validate and compare open-ended labeling tools? This paper introduces FIND (Function INterpretation and Description), a benchmark suite for evaluating the building blocks of automated interpretability methods. FIND contains functions that resemble components of trained neural networks, and accompanying descriptions of the kind we seek to generate. The functions span textual and numeric domains, and involve a range of real-world complexities. We evaluate methods that use pretrained language models (LMs) to produce descriptions of function behavior in natural language and code. Additionally, we introduce a new interactive method in which an Automated Interpretability Agent (AIA) generates function descriptions. We find that an AIA, built from an LM with black-box access to functions, can infer function structure, acting as a scientist by forming hypotheses, proposing experiments, and updating descriptions in light of new data. However, AIA descriptions tend to capture global function behavior and miss local details. These results suggest that FIND will be useful for evaluating more sophisticated interpretability methods before they are applied to real-world models.
翻訳日:2023-12-11 18:27:23 公開日:2023-12-08
# 時間的知識グラフ推論のための時間的誘導経路ニューラルネットワーク

Temporal Inductive Path Neural Network for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2309.03251v2 )

ライセンス: Link先を確認
Hao Dong, Pengyang Wang, Meng Xiao, Zhiyuan Ning, Pengfei Wang, Yuanchun Zhou(参考訳) 時間的知識グラフ(TKG)は、時間次元を組み込んだ伝統的な知識グラフ(KG)の拡張である。 TKGの推論は、歴史的事象に基づく将来の事実の予測を目的とした重要な課題である。 重要な課題は、歴史的部分グラフと時間的パターン内の構造的依存関係を明らかにすることである。 既存のアプローチの多くは、グラフのノードが知識表現において重要な役割を果たすため、エンティティモデリングに依存するtkgモデルである。 しかし、現実世界のシナリオは、しばしば多数のエンティティを伴い、時間とともに新しいエンティティが出現する。 これにより、エンティティ依存のメソッドが大量のエンティティに対処することが難しくなり、新しいエンティティを効果的に扱うことも大きな課題となる。 そこで我々は,実体に依存しない視点で歴史情報をモデル化するTiPNN(Temporal Inductive Path Neural Network)を提案する。 具体的には、TiPNNは履歴から情報を包括的にキャプチャし、カプセル化するために、ヒストリー時間グラフという統一グラフを採用している。 その後、定義した問合せ対応時間経路を用いて、履歴時間グラフ上の問合せに関連する履歴経路情報をモデル化する。 大規模な実験では,提案モデルが大幅な性能向上を達成するだけでなく,帰納的設定も扱えるとともに,履歴時間グラフによる証拠の推論を容易にすることが示されている。

Temporal Knowledge Graph (TKG) is an extension of traditional Knowledge Graph (KG) that incorporates the dimension of time. Reasoning on TKGs is a crucial task that aims to predict future facts based on historical occurrences. The key challenge lies in uncovering structural dependencies within historical subgraphs and temporal patterns. Most existing approaches model TKGs relying on entity modeling, as nodes in the graph play a crucial role in knowledge representation. However, the real-world scenario often involves an extensive number of entities, with new entities emerging over time. This makes it challenging for entity-dependent methods to cope with extensive volumes of entities, and effectively handling newly emerging entities also becomes a significant challenge. Therefore, we propose Temporal Inductive Path Neural Network (TiPNN), which models historical information in an entity-independent perspective. Specifically, TiPNN adopts a unified graph, namely history temporal graph, to comprehensively capture and encapsulate information from history. Subsequently, we utilize the defined query-aware temporal paths to model historical path information related to queries on history temporal graph for the reasoning. Extensive experiments illustrate that the proposed model not only attains significant performance enhancements but also handles inductive settings, while additionally facilitating the provision of reasoning evidence through history temporal graphs.
翻訳日:2023-12-11 18:26:55 公開日:2023-12-08
# 定数深さ量子回路の誤差しきい値における西森遷移の実現

Realizing the Nishimori transition across the error threshold for constant-depth quantum circuits ( http://arxiv.org/abs/2309.02863v2 )

ライセンス: Link先を確認
Edward H. Chen, Guo-Yi Zhu, Ruben Verresen, Alireza Seif, Elisa B\"aumer, David Layden, Nathanan Tantivasadakarn, Guanyu Zhu, Sarah Sheldon, Ashvin Vishwanath, Simon Trebst, Abhinav Kandala(参考訳) 多くの量子ビットにまたがる量子状態の準備は、量子コンピュータのポテンシャルを完全に解き放つために必要である。 しかしながら、ノイズやゲートの不完全さに安定した効率的な準備プロトコルを実現することが重要な課題である。 ここでは、127個の超伝導量子ビットデバイス上の測定ベースのプロトコルを用いて、54個の系量子ビット上で、グリーンベルガー・ホルン・ザイリンガー状態(GHZ)と繰り返し符号(英語版)に精通した最も単純な長距離オーダー(Ising Order)の生成について研究する。 定数深度プロトコルと古典デコーダの効率的な実装により、GHZ状態の忠実度は、サイズ依存のユニタリプロトコルと比較して高い。 コーヒーレントおよび非コヒーレント誤差率を実験的に調整することにより、この復号された長距離秩序の2次元における安定性を、異常な西森普遍性クラスに属する遷移に対応する臨界点まで示す。 古典的なシステムでは、西森物理学は複数のパラメータを微調整する必要があるが、ここでは、測定確率のボルン則の直接的な結果として生じる。 本研究は、100量子ビットを超える量子プロセッサ上で測定に基づく状態準備が有意義に探究できることを示す。

Preparing quantum states across many qubits is necessary to unlock the full potential of quantum computers. However, a key challenge is to realize efficient preparation protocols which are stable to noise and gate imperfections. Here, using a measurement-based protocol on a 127 superconducting qubit device, we study the generation of the simplest long-range order -- Ising order, familiar from Greenberger-Horne-Zeilinger (GHZ) states and the repetition code -- on 54 system qubits. Our efficient implementation of the constant-depth protocol and classical decoder shows higher fidelities for GHZ states compared to size-dependent, unitary protocols. By experimentally tuning coherent and incoherent error rates, we demonstrate stability of this decoded long-range order in two spatial dimensions, up to a critical point which corresponds to a transition belonging to the unusual Nishimori universality class. Although in classical systems Nishimori physics requires fine-tuning multiple parameters, here it arises as a direct result of the Born rule for measurement probabilities -- locking the effective temperature and disorder driving this transition. Our study exemplifies how measurement-based state preparation can be meaningfully explored on quantum processors beyond a hundred qubits.
翻訳日:2023-12-11 18:26:33 公開日:2023-12-08
# せん断ひずみによる変調sigeヘテロ構造中の結合伝導バンド谷

Coupling conduction-band valleys in modulated SiGe heterostructures via shear strain ( http://arxiv.org/abs/2310.18879v2 )

ライセンス: Link先を確認
Benjamin D. Woods, Hudaiba Soomro, E. S. Joseph, Collin C. D. Frink, Robert Joynt, M. A. Eriksson, Mark Friesen(参考訳) エンジニアリング伝導バンド谷結合は、Siベースのスピン量子ビットにとって重要な課題である。 近年の研究では、谷のカップリングを強化する最も信頼性の高い方法は、量子井戸にGe濃度の振動を加えることである。 しかし、超短振動周期は成長が困難であるが、長振動周期は有用ではない。 そこで, 短波長振動の主な利点は, せん断ひずみによって引き起こされるブリルアンゾーン折り畳みを含む2次カップリング過程を通じて, 長波長構造において達成できることを示す。 さらに、同じ長波長周期でもスピン軌道結合が促進されることがわかった。 最終的に、このような歪みは共通の製造技術によって達成できることを示し、スケーラブルな量子コンピューティングにとって非常に有望なシステムとなった。

Engineering conduction-band valley couplings is a key challenge for Si-based spin qubits. Recent work has shown that the most reliable method for enhancing valley couplings entails adding Ge concentration oscillations to the quantum well. However, ultrashort oscillation periods are difficult to grow, while long oscillation periods do not provide useful improvements. Here, we show that the main benefits of short-wavelength oscillations can be achieved in long-wavelength structures through a second-order coupling process involving Brillouin-zone folding, induced by shear strain. Moreover, we find that the same long-wavelength period also boosts spin-orbit coupling. We finally show that such strain can be achieved through common fabrication techniques, making this an exceptionally promising system for scalable quantum computing.
翻訳日:2023-12-11 18:18:49 公開日:2023-12-08
# 多項式アクティベーションを持つグラフニューラルネットワークの表現性に制限がある

Graph Neural Networks with polynomial activations have limited expressivity ( http://arxiv.org/abs/2310.13139v3 )

ライセンス: Link先を確認
Sammy Khalife(参考訳) グラフニューラルネットワーク(GNN)の表現性は、一階述語論理の適切な断片によって完全に特徴づけられる。 すなわち、ラベル付きグラフ上で解釈された2つの変分論理(GC2)の任意のクエリは、クエリの深さにのみ依存する大きさのGNNを用いて表現することができる。 この記述は[Barcelo & Al., 2020, Grohe, 2021]で指摘されているように、活性化関数の族であり、選択された活性化関数に依存するGNNによって表現される論理階層の可能性を残している。 本稿では,gc2クエリが多項式アクティベーション関数を持つgnnで表現できないことを証明して,このような階層構造が存在することを示す。 これは多項式と一般的な非多項アクティベーション(直交線形単位など)の分離を意味し、[grohe, 2021]で定式化された公開質問に答える。

The expressivity of Graph Neural Networks (GNNs) can be entirely characterized by appropriate fragments of the first-order logic. Namely, any query of the two variable fragment of graded modal logic (GC2) interpreted over labeled graphs can be expressed using a GNN whose size depends only on the depth of the query. As pointed out by [Barcelo & Al., 2020, Grohe, 2021], this description holds for a family of activation functions, leaving the possibility for a hierarchy of logics expressible by GNNs depending on the chosen activation function. In this article, we show that such hierarchy indeed exists by proving that GC2 queries cannot be expressed by GNNs with polynomial activation functions. This implies a separation between polynomial and popular non-polynomial activations (such as Rectified Linear Units) and answers an open question formulated by [Grohe, 2021].
翻訳日:2023-12-11 18:18:36 公開日:2023-12-08
# ポイントワイズ $\mathcal{V}$-Usable Information In-Context-ly

Measuring Pointwise $\mathcal{V}$-Usable Information In-Context-ly ( http://arxiv.org/abs/2310.12300v2 )

ライセンス: Link先を確認
Sheng Lu, Shan Chen, Yingya Li, Danielle Bitterman, Guergana Savova, and Iryna Gurevych(参考訳) In-context Learning(ICL)は、大規模言語モデルの開発とともに人気を博した新しい学習パラダイムである。 本研究では,最近提案されたハードネス指標であるポイントワイズ$\mathcal{v}$-usable information (pvi) をコンテキスト内バージョン (in-context pvi) に適用する。 オリジナルのPVIと比較すると、インコンテキストのPVIの方がより効率的であり、いくつかの例を必要とせず、微調整も必要としない。 テキスト内PVIの信頼性を評価するための総合的な実験分析を行った。 この結果から,テキスト内PVI推定値とPVI推定値の類似性が示唆された。 in-context設定に特有なものとして,in-context pvi推定値が,さまざまな例選択やショット数にわたって一貫していることを示す。 コンテクスト内PVIの推定値の相違は、コンテクスト内PVIが安定であることが示唆される。 さらに,コンテクスト内PVIを用いて難易度の高いインスタンスを識別する方法を示す。 我々の研究は、文脈内PVIの可能性を強調し、ICLの能力に関する新たな洞察を提供する。

In-context learning (ICL) is a new learning paradigm that has gained popularity along with the development of large language models. In this work, we adapt a recently proposed hardness metric, pointwise $\mathcal{V}$-usable information (PVI), to an in-context version (in-context PVI). Compared to the original PVI, in-context PVI is more efficient in that it requires only a few exemplars and does not require fine-tuning. We conducted a comprehensive empirical analysis to evaluate the reliability of in-context PVI. Our findings indicate that in-context PVI estimates exhibit similar characteristics to the original PVI. Specific to the in-context setting, we show that in-context PVI estimates remain consistent across different exemplar selections and numbers of shots. The variance of in-context PVI estimates across different exemplar selections is insignificant, which suggests that in-context PVI are stable. Furthermore, we demonstrate how in-context PVI can be employed to identify challenging instances. Our work highlights the potential of in-context PVI and provides new insights into the capabilities of ICL.
翻訳日:2023-12-11 18:17:57 公開日:2023-12-08
# 対話LLM:会話における感情認識のための文脈・感情知識調整LLaMAモデル

DialogueLLM: Context and Emotion Knowledge-Tuned LLaMA Models for Emotion Recognition in Conversations ( http://arxiv.org/abs/2310.11374v2 )

ライセンス: Link先を確認
Yazhou Zhang, Mengyao Wang, Prayag Tiwari, Qiuchi Li, Benyou Wang, Jing Qin(参考訳) 大規模言語モデル(LLM)とその変種は、多くの下流自然言語処理(NLP)タスクに対して異常な有効性を示しており、NLPの開発に対する新たなビジョンを示している。 自然言語生成(NLG)における顕著な性能にもかかわらず、LLMは感情理解領域に明確な焦点をあてていない。 その結果、LLMを感情認識に使用すると、最適でない精度と不適切な精度が生じる可能性がある。 LLMのもうひとつの制限は、マルチモーダル情報を活用することなく訓練されることだ。 これらの制限を克服するために,13,638個のマルチモーダル(テキストとビデオ)感情対話を用いたLLaMAモデルを用いて,文脈と感情の知識を調整したLLMであるダイアログLLMを提案する。 視覚情報は、高品質な指示を構築するための補足的な知識と見なされる。 本稿では,会話(ERC)データセットにおける3つの感情認識のベンチマークモデルについて総合評価を行い,その結果をSOTAベースラインや他のSOTALLMと比較する。 さらに、DialogueLLM-7Bは、40GBのA100 GPU上で5時間でLoRAを使って簡単にトレーニングできる。

Large language models (LLMs) and their variants have shown extraordinary efficacy across numerous downstream natural language processing (NLP) tasks, which has presented a new vision for the development of NLP. Despite their remarkable performance in natural language generating (NLG), LLMs lack a distinct focus on the emotion understanding domain. As a result, using LLMs for emotion recognition may lead to suboptimal and inadequate precision. Another limitation of LLMs is that they are typical trained without leveraging multi-modal information. To overcome these limitations, we propose DialogueLLM, a context and emotion knowledge tuned LLM that is obtained by fine-tuning LLaMA models with 13,638 multi-modal (i.e., texts and videos) emotional dialogues. The visual information is considered as the supplementary knowledge to construct high-quality instructions. We offer a comprehensive evaluation of our proposed model on three benchmarking emotion recognition in conversations (ERC) datasets and compare the results against the SOTA baselines and other SOTA LLMs. Additionally, DialogueLLM-7B can be easily trained using LoRA on a 40GB A100 GPU in 5 hours, facilitating reproducibility for other researchers.
翻訳日:2023-12-11 18:17:21 公開日:2023-12-08
# 代数的操作によるダイアグラムの充実

Enriching Diagrams with Algebraic Operations ( http://arxiv.org/abs/2310.11288v2 )

ライセンス: Link先を確認
Alejandro Villoria, Henning Basold, Alfons Laarman(参考訳) 本稿では,代数演算と方程式を持つモノイド圏の図式推論を拡張する。 我々は、モナドに対するアイレンバーグ-ムーア環の圏に富むモノイド圏を考えることによってこれを達成する。 このモナドがモノイドとアフィンであるという条件の下で、モナドに対する対称モノイド圏と対称モノイド圏の間の結合を構築する。 これにより、有限分布モナドの代数である凸代数を自由に拡張することにより、確率的選択を持つZX-計算の拡張とその意味論を考案することができる。 この構成を量子システムにおけるノイズの図式推論に利用できることを示す。

In this paper, we extend diagrammatic reasoning in monoidal categories with algebraic operations and equations. We achieve this by considering monoidal categories that are enriched in the category of Eilenberg-Moore algebras for a monad. Under the condition that this monad is monoidal and affine, we construct an adjunction between symmetric monoidal categories and symmetric monoidal categories enriched over algebras for the monad. This allows us to devise an extension, and its semantics, of the ZX-calculus with probabilistic choices by freely enriching over convex algebras, which are the algebras of the finite distribution monad. We show how this construction can be used for diagrammatic reasoning of noise in quantum systems.
翻訳日:2023-12-11 18:16:58 公開日:2023-12-08
# 脳内深層rl模倣学習における予測補助的目標

Predictive auxiliary objectives in deep RL mimic learning in the brain ( http://arxiv.org/abs/2310.06089v2 )

ライセンス: Link先を確認
Ching Fang, Kimberly L Stachenfeld(参考訳) 今後の出来事を予測する能力は、自然と機械の認知の重要な側面を構成すると仮定されている。 これは深層強化学習(RL)のトレンドに支えられ、予測などの自己監督的補助的目的が表現学習を支援しタスクパフォーマンスを向上させるために広く利用されている。 本稿では,予測補助目的がrlシステムの異なるモジュール間での表現学習に与える影響と,脳内で観察される表現変化の模倣について検討する。 我々は、特にリソース制限されたアーキテクチャにおいて、予測目標が学習を改善、安定化することを見出し、より長い予測地平線が表現の伝達をより良く支援する設定を特定する。 さらに、このRL系の表現的変化は、様々な実験において脳内で観察される神経活動の変化と顕著に類似していることが判明した。 具体的には、RLシステムの補助的予測モデルと、記憶誘導行動を支援するための予測モデルを学ぶと考えられる海馬との関係を描いている。 また,脳の視覚野と線条体にそれぞれエンコーダネットワークとRLシステムの値学習ネットワークを接続する。 この研究は、深部RLシステムにおける表現学習が、脳内の多領域相互作用をモデル化するための解釈可能なフレームワークを提供する方法を示す。 ここでの深いRLの視点は、他の領域での表現学習の恩恵を受ける補助学習システムの脳における海馬のさらなる役割を示唆している。

The ability to predict upcoming events has been hypothesized to comprise a key aspect of natural and machine cognition. This is supported by trends in deep reinforcement learning (RL), where self-supervised auxiliary objectives such as prediction are widely used to support representation learning and improve task performance. Here, we study the effects predictive auxiliary objectives have on representation learning across different modules of an RL system and how these mimic representational changes observed in the brain. We find that predictive objectives improve and stabilize learning particularly in resource-limited architectures, and we identify settings where longer predictive horizons better support representational transfer. Furthermore, we find that representational changes in this RL system bear a striking resemblance to changes in neural activity observed in the brain across various experiments. Specifically, we draw a connection between the auxiliary predictive model of the RL system and hippocampus, an area thought to learn a predictive model to support memory-guided behavior. We also connect the encoder network and the value learning network of the RL system to visual cortex and striatum in the brain, respectively. This work demonstrates how representation learning in deep RL systems can provide an interpretable framework for modeling multi-region interactions in the brain. The deep RL perspective taken here also suggests an additional role of the hippocampus in the brain -- that of an auxiliary learning system that benefits representation learning in other regions.
翻訳日:2023-12-11 18:16:24 公開日:2023-12-08
# 非スムース弱凸有限サム結合合成最適化

Non-Smooth Weakly-Convex Finite-sum Coupled Compositional Optimization ( http://arxiv.org/abs/2310.03234v3 )

ライセンス: Link先を確認
Quanqi Hu, Dixian Zhu, Tianbao Yang(参考訳) 本稿では,新しい合成最適化問題である$\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO)について検討する。 機械学習とAIの幅広い応用と、経験的リスク最小化に基づく確率的アルゴリズムの欠点に対処する能力により、FCCOへの関心が高まっている。 しかし、FCCOの最近の研究は、内部関数と外部関数の両方が滑らかであり、より多様な問題に取り組む可能性を制限すると仮定している。 本研究は,外関数が弱凸で非減少し,内関数が弱凸である非滑らかなFCCOを調べることにより,この領域を拡大する。 単一ループアルゴリズムを解析し、目的関数のモロー包絡の $\epsilon$-stationary point を見つけるための複雑さを確立する。 さらに,3つの関数の入れ子配置を特徴とする,新しい非スムース弱凸三レベル有限サム結合合成最適化問題にもアルゴリズムを拡張した。 最後に,2方向部分AUC最大化と多方向部分AUC最大化のためのディープラーニングにおけるアルゴリズムの適用について検討し,提案アルゴリズムの有効性を示す実験的検討を行った。

This paper investigates new families of compositional optimization problems, called $\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO). There has been a growing interest in FCCO due to its wide-ranging applications in machine learning and AI, as well as its ability to address the shortcomings of stochastic algorithms based on empirical risk minimization. However, current research on FCCO presumes that both the inner and outer functions are smooth, limiting their potential to tackle a more diverse set of problems. Our research expands on this area by examining non-smooth weakly-convex FCCO, where the outer function is weakly convex and non-decreasing, and the inner function is weakly-convex. We analyze a single-loop algorithm and establish its complexity for finding an $\epsilon$-stationary point of the Moreau envelop of the objective function. Additionally, we also extend the algorithm to solving novel non-smooth weakly-convex tri-level finite-sum coupled compositional optimization problems, which feature a nested arrangement of three functions. Lastly, we explore the applications of our algorithms in deep learning for two-way partial AUC maximization and multi-instance two-way partial AUC maximization, using empirical studies to showcase the effectiveness of the proposed algorithms.
翻訳日:2023-12-11 18:15:46 公開日:2023-12-08
# 局所的コントラストからみたマスクオートエンコーダの理解

Understanding Masked Autoencoders From a Local Contrastive Perspective ( http://arxiv.org/abs/2310.01994v2 )

ライセンス: Link先を確認
Xiaoyu Yue, Lei Bai, Meng Wei, Jiangmiao Pang, Xihui Liu, Luping Zhou, Wanli Ouyang(参考訳) Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。 しかし、様々なダウンストリーム視覚タスクにおける最先端性能を達成しているにもかかわらず、MAEの有効性を駆動する基盤メカニズムは、標準的なコントラッシブ学習パラダイムに比べてあまりよく研究されていない。 本稿では,まず,パッチレベルでのmaeの再構成目標から局所的なコントラスト形式を明示的に抽出する局所的視点を提案する。 そこで我々は, LC-MAE (Local Contrastive MAE) と呼ばれる新しい経験的枠組みを導入し, 再建的側面とコントラスト的側面の両方を解析した。 LC-MAEは、MAEがランダムマスキングの不変性を学習し、学習したトークンの埋め込みと元の画像との分布整合性を保証する。 さらに,デコーダの学習機構とランダムマスキングの2つの役割をデータ拡張と効果的な受容場制限として明らかにし,maeの成功へのデコーダとランダムマスキングの寄与を解析した。 実験では,MAEの複雑さに光を当て,より強力な視覚的自己管理手法を刺激する有用な設計手法をまとめた。

Masked AutoEncoder (MAE) has revolutionized the field of self-supervised learning with its simple yet effective masking and reconstruction strategies. However, despite achieving state-of-the-art performance across various downstream vision tasks, the underlying mechanisms that drive MAE's efficacy are less well-explored compared to the canonical contrastive learning paradigm. In this paper, we first propose a local perspective to explicitly extract a local contrastive form from MAE's reconstructive objective at the patch level. And then we introduce a new empirical framework, called Local Contrastive MAE (LC-MAE), to analyze both reconstructive and contrastive aspects of MAE. LC-MAE reveals that MAE learns invariance to random masking and ensures distribution consistency between the learned token embeddings and the original images. Furthermore, we dissect the contribution of the decoder and random masking to MAE's success, revealing both the decoder's learning mechanism and the dual role of random masking as data augmentation and effective receptive field restriction. Our experimental analysis sheds light on the intricacies of MAE and summarizes some useful design methodologies, which can inspire more powerful visual self-supervised methods.
翻訳日:2023-12-11 18:14:53 公開日:2023-12-08
# SmartPlay: インテリジェントエージェントとしてのLLMのベンチマーク

SmartPlay: A Benchmark for LLMs as Intelligent Agents ( http://arxiv.org/abs/2310.01557v3 )

ライセンス: Link先を確認
Yue Wu, Xuan Tang, Tom M. Mitchell, Yuanzhi Li(参考訳) 近年の大規模言語モデル(LLM)は、インテリジェントエージェントや次世代自動化に対して大きな可能性を示しているが、LLMのエージェントとしての能力を評価するための体系的なベンチマークは存在しない。 SmartPlay: LLMをエージェントとして評価するための、挑戦的なベンチマークと方法論の両方を紹介します。 SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど6種類のゲームで構成されている。 各ゲームには独自の設定があり、最大20評価設定と無限環境のバリエーションを提供する。 smartplayの各ゲームは、オブジェクト依存の推論、計画、空間的推論、歴史からの学習、ランダム性理解を含む、インテリジェントなllmエージェントの9つの重要な機能のサブセットに独特に挑戦する。 各ゲームテストの能力セットを区別することで、各能力を別々に分析することができます。 SmartPlayは、LLMエージェントの全体的なパフォーマンスを評価するための厳格なテスト基盤としてだけでなく、現在の方法論におけるギャップを識別するためのロードマップとしても機能する。 ベンチマークはgithub.com/microsoft/smartplayでリリースします。

Recent large language models (LLMs) have demonstrated great potential toward intelligent agents and next-gen automation, but there currently lacks a systematic benchmark for evaluating LLMs' abilities as agents. We introduce SmartPlay: both a challenging benchmark and a methodology for evaluating LLMs as agents. SmartPlay consists of 6 different games, including Rock-Paper-Scissors, Tower of Hanoi, Minecraft. Each game features a unique setting, providing up to 20 evaluation settings and infinite environment variations. Each game in SmartPlay uniquely challenges a subset of 9 important capabilities of an intelligent LLM agent, including reasoning with object dependencies, planning ahead, spatial reasoning, learning from history, and understanding randomness. The distinction between the set of capabilities each game test allows us to analyze each capability separately. SmartPlay serves not only as a rigorous testing ground for evaluating the overall performance of LLM agents but also as a road-map for identifying gaps in current methodologies. We release our benchmark at github.com/microsoft/SmartPlay
翻訳日:2023-12-11 18:14:31 公開日:2023-12-08
# 神経結晶

Neural Crystals ( http://arxiv.org/abs/2311.16111v2 )

ライセンス: Link先を確認
Sofia Karamintziou, Thanassis Mavropoulos, Dimos Ntioudis, Georgios Meditskos, Stefanos Vrochidis and Ioannis (Yiannis) Kompatsiaris(参考訳) マルチモーダル人工知能(MMAI)における説明可能性の課題に直面している。 神経科学に触発された量子コンピューティングの分野において、大規模で不均一なグラフ構造データの初期融合のための解釈可能で透明なスピン幾何学的ニューラルネットワークアーキテクチャが想定されており、競争的で多次元のダイナミクスの下で自己組織化脳における(共)挙動の相対論的量子ニューラルコーディングの最近の証拠を活用している。 この設計は、指数関数的に大きな神経構造の効率的なエンコーディングのために、少なくとも16キュービットのレジスタ内のスピノリカル量子状態の特別なクリフォード・リプシッツ演算を通じて、自己双対的な古典的記述を描いている。 形式的に「訓練された」ローレンツ神経アーキテクチャでは、抗モダリティを考慮に入れた、正確に1つの側層を持つ抑制性ニューロンと、層内接続による協調構造が強調される。 このアプローチは最大16の時間不変(反)モダリティの融合と潜在多次元パターンの結晶化に対応している。 さまざまな現実のシナリオの下で、総合的な洞察は、マルチモーダルビッグデータへのアプリケーションを通じて得られることが期待される。

We face up to the challenge of explainability in Multimodal Artificial Intelligence (MMAI). At the nexus of neuroscience-inspired and quantum computing, interpretable and transparent spin-geometrical neural architectures for early fusion of large-scale, heterogeneous, graph-structured data are envisioned, harnessing recent evidence for relativistic quantum neural coding of (co-)behavioral states in the self-organizing brain, under competitive, multidimensional dynamics. The designs draw on a self-dual classical description - via special Clifford-Lipschitz operations - of spinorial quantum states within registers of at most 16 qubits for efficient encoding of exponentially large neural structures. Formally 'trained', Lorentz neural architectures with precisely one lateral layer of exclusively inhibitory interneurons accounting for anti-modalities, as well as their co-architectures with intra-layer connections are highlighted. The approach accommodates the fusion of up to 16 time-invariant interconnected (anti-)modalities and the crystallization of latent multidimensional patterns. Comprehensive insights are expected to be gained through applications to Multimodal Big Data, under diverse real-world scenarios.
翻訳日:2023-12-11 18:07:37 公開日:2023-12-08
# LLMの知識学習:課題,方法,課題

Knowledge Unlearning for LLMs: Tasks, Methods, and Challenges ( http://arxiv.org/abs/2311.15766v2 )

ライセンス: Link先を確認
Nianwen Si, Hao Zhang, Heyu Chang, Wenlin Zhang, Dan Qu, Weiqiang Zhang(参考訳) 近年,大規模言語モデル (LLM) が自然言語処理の新しい研究パラダイムを刺激している。 知識に基づく質問応答と推論の優れた能力にもかかわらず、欠陥や有害な知識を保持する能力は悪意のあるアプリケーションにリスクをもたらす。 この問題を緩和し、これらのモデルを純粋なアシスタントに変換するという課題は、その適用性に不可欠である。 残念ながら、望ましくない知識を取り除くために繰り返しLLMを訓練することは、その膨大なパラメータのために現実的ではない。 ナレッジ・アンラーニングは、機械学習の類似研究から派生したもので、この懸念に対処するための有望な道を示し、特にLLMの文脈において有利である。 モデル内の無関係な知識に影響を与えることなく、有害な知識を効率的に除去することができる。 この目的のために,LLM時代における知識未学習の調査を行った。 まず,知識未学習問題を正式に定義し,関連する作業と区別する。 次に,既存の知識アンラーニング手法をパラメータ最適化,パラメータマージ,インコンテキスト学習という3つのクラスに分類し,これらの学習手法の詳細を紹介する。 さらに,既存手法を用いた評価データセットを提示し,現在進行中の課題と今後の方向性を示すことで,最終的にこの調査を結論づける。

In recent years, large language models (LLMs) have spurred a new research paradigm in natural language processing. Despite their excellent capability in knowledge-based question answering and reasoning, their potential to retain faulty or even harmful knowledge poses risks of malicious application. The challenge of mitigating this issue and transforming these models into purer assistants is crucial for their widespread applicability. Unfortunately, Retraining LLMs repeatedly to eliminate undesirable knowledge is impractical due to their immense parameters. Knowledge unlearning, derived from analogous studies on machine unlearning, presents a promising avenue to address this concern and is notably advantageous in the context of LLMs. It allows for the removal of harmful knowledge in an efficient manner, without affecting unrelated knowledge in the model. To this end, we provide a survey of knowledge unlearning in the era of LLMs. Firstly, we formally define the knowledge unlearning problem and distinguish it from related works. Subsequently, we categorize existing knowledge unlearning methods into three classes: those based on parameter optimization, parameter merging, and in-context learning, and introduce details of these unlearning methods. We further present evaluation datasets used in existing methods, and finally conclude this survey by presenting the ongoing challenges and future directions.
翻訳日:2023-12-11 18:07:15 公開日:2023-12-08
# スライス・ツー・スライス・レジストレーションと再構成による自己監督型OCT画像

Self-supervised OCT Image Denoising with Slice-to-Slice Registration and Reconstruction ( http://arxiv.org/abs/2311.15167v2 )

ライセンス: Link先を確認
Shijie Li, Palaiologos Alexopoulos, Anse Vellappally, Ronald Zambrano, Wollstein Gadi, Guido Gerig(参考訳) 強いスペックルノイズは、光コヒーレンストモグラフィー(OCT)イメージングに固有のものであり、臨床診断と疾患のモニタリングの進歩の鍵となる網膜構造の正確な定量化のための重要な障害である。 構造保存ノイズ低減のための学習に基づく自己教師手法は,従来の手法よりも優れた性能を示したが,OCTイメージングではユニークな課題に直面している。 コヒーレントAスキャンビームによるボクセルの高相関は、独立画素雑音の仮定に反する自己教師付き学習法の有効性を損なう。 この独立性の仮定による既存モデルの限界を示す実験を行う。 次に,OCT画像に特化して,スライス・バイ・スライス・トレーニングと登録用モジュールをひとつのネットワークに統合した,エンドツーエンドの自己教師型学習フレームワークを提案する。 提案手法に対して広範なアブレーション研究を行った。 前述した自己教師付き推論モデルとの比較により,提案フレームワークの性能が向上し,セグメンテーション性能と定量的解析への前処理ステップとして機能する可能性が示唆された。

Strong speckle noise is inherent to optical coherence tomography (OCT) imaging and represents a significant obstacle for accurate quantitative analysis of retinal structures which is key for advances in clinical diagnosis and monitoring of disease. Learning-based self-supervised methods for structure-preserving noise reduction have demonstrated superior performance over traditional methods but face unique challenges in OCT imaging. The high correlation of voxels generated by coherent A-scan beams undermines the efficacy of self-supervised learning methods as it violates the assumption of independent pixel noise. We conduct experiments demonstrating limitations of existing models due to this independence assumption. We then introduce a new end-to-end self-supervised learning framework specifically tailored for OCT image denoising, integrating slice-by-slice training and registration modules into one network. An extensive ablation study is conducted for the proposed approach. Comparison to previously published self-supervised denoising models demonstrates improved performance of the proposed framework, potentially serving as a preprocessing step towards superior segmentation performance and quantitative analysis.
翻訳日:2023-12-11 18:06:54 公開日:2023-12-08
# CRAC 2023における \'UFAL CorPipe: より大規模なコンテキストによる多言語照合の解決

\'UFAL CorPipe at CRAC 2023: Larger Context Improves Multilingual Coreference Resolution ( http://arxiv.org/abs/2311.14391v2 )

ライセンス: Link先を確認
Milan Straka(参考訳) CRAC 2023Shared Task on Multilingual Coreference Resolutionの勝者であるCorPipeを紹介する。 我々のシステムは、初期の多言語コア推論パイプラインの改良版であり、他の参加者を4.5パーセントの差で上回ります。 CorPipeはまず参照検出を行い、その後、検索したスパンに対する先行最大化アプローチを通じてコア参照リンクを行う。 両方のタスクは、共有事前訓練された言語モデルを使用して、利用可能なすべてのコーパスで共同でトレーニングされる。 主な改善点は、512のサブワード以上の入力と、アンサンブルをサポートするための参照デコードの変更です。 ソースコードはhttps://github.com/ufal/crac2023-corpipeで入手できる。

We present CorPipe, the winning entry to the CRAC 2023 Shared Task on Multilingual Coreference Resolution. Our system is an improved version of our earlier multilingual coreference pipeline, and it surpasses other participants by a large margin of 4.5 percent points. CorPipe first performs mention detection, followed by coreference linking via an antecedent-maximization approach on the retrieved spans. Both tasks are trained jointly on all available corpora using a shared pretrained language model. Our main improvements comprise inputs larger than 512 subwords and changing the mention decoding to support ensembling. The source code is available at https://github.com/ufal/crac2023-corpipe.
翻訳日:2023-12-11 18:06:34 公開日:2023-12-08
# プログレッシブノルムリスケーリングによるマージン最大化の指数関数的高速化

Achieving Margin Maximization Exponentially Fast via Progressive Norm Rescaling ( http://arxiv.org/abs/2311.14387v2 )

ライセンス: Link先を確認
Mingze Wang, Zeping Min, Lei Wu(参考訳) 本研究では,線形分離可能なデータの分類において,勾配に基づくアルゴリズムが示すマージン最大化バイアスについて検討する。 本稿では,(正規化)勾配に付随する速度場の特異性について,マージン最大化におけるその役割に着目して詳細な解析を行う。 この分析にインスパイアされたPRGD(Progressive Rescaling Gradient Descent)と呼ばれる新しいアルゴリズムを提案し、PRGDが指数レートでマージンを最大化できることを示す。 これは、遅い多項式率でマージンを最大化する既存のアルゴリズムとは全く対照的である。 具体的には,勾配降下 (GD) や正規化勾配降下 (NGD) {\em のような既存のアルゴリズムが効率よくマージンを最大化する際のデータ分布の温和な条件を同定する。 理論的知見を検証するために, 合成実験と実世界の実験の両方を提示する。 特にPRGDは、線形に分離できないデータセットやディープニューラルネットワークに適用する際の一般化性能の向上を約束している。

In this work, we investigate the margin-maximization bias exhibited by gradient-based algorithms in classifying linearly separable data. We present an in-depth analysis of the specific properties of the velocity field associated with (normalized) gradients, focusing on their role in margin maximization. Inspired by this analysis, we propose a novel algorithm called Progressive Rescaling Gradient Descent (PRGD) and show that PRGD can maximize the margin at an {\em exponential rate}. This stands in stark contrast to all existing algorithms, which maximize the margin at a slow {\em polynomial rate}. Specifically, we identify mild conditions on data distribution under which existing algorithms such as gradient descent (GD) and normalized gradient descent (NGD) {\em provably fail} in maximizing the margin efficiently. To validate our theoretical findings, we present both synthetic and real-world experiments. Notably, PRGD also shows promise in enhancing the generalization performance when applied to linearly non-separable datasets and deep neural networks.
翻訳日:2023-12-11 18:06:25 公開日:2023-12-08
# LM-Cocktail: モデルマージによる言語モデルの回復性チューニング

LM-Cocktail: Resilient Tuning of Language Models via Model Merging ( http://arxiv.org/abs/2311.13534v4 )

ライセンス: Link先を確認
Shitao Xiao, Zheng Liu, Peitian Zhang, Xingrun Xing(参考訳) 事前訓練された言語モデルは、下流アプリケーションのサポートを改善するために継続的に微調整される。 しかし、この操作は、ターゲット領域を超えた一般的なタスクにおいて大きなパフォーマンス劣化をもたらす可能性がある。 この問題を克服するため、我々は細調整されたモデルが一般的な視点で弾力性を維持することができるLM-Cocktailを提案する。 提案手法はモデルマージの形式で実施され,微調整言語モデルと事前学習ベースモデル,あるいは他ドメインからのピアモデルとを重み付き平均でマージする。 LM-Cocktailは、単純さにもかかわらず驚くほど効果的である:結果のモデルは、ターゲットドメインの優れた能力を維持しながら、一般的なタスクの範囲全体において、強力な経験的性能を達成することができる。 提案手法の有効性を検証したFLAN,MMLU,MTEBなど,一般的なベンチマーク上でLLamaおよびBGEモデルを用いた総合的な実験を行った。 コードとチェックポイントはhttps://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktailで確認できる。

The pre-trained language models are continually fine-tuned to better support downstream applications. However, this operation may result in significant performance degeneration on general tasks beyond the targeted domain. To overcome this problem, we propose LM-Cocktail which enables the fine-tuned model to stay resilient in general perspectives. Our method is conducted in the form of model merging, where the fine-tuned language model is merged with the pre-trained base model or the peer models from other domains through weighted average. Despite simplicity, LM-Cocktail is surprisingly effective: the resulted model is able to achieve a strong empirical performance in the whole scope of general tasks while preserving a superior capacity in its targeted domain. We conduct comprehensive experiments with LLama and BGE model on popular benchmarks, including FLAN, MMLU, MTEB, whose results validate the efficacy of our proposed method. The code and checkpoints are available at https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail.
翻訳日:2023-12-11 18:05:52 公開日:2023-12-08
# ランダムリシャッフルのための高い確率保証

High Probability Guarantees for Random Reshuffling ( http://arxiv.org/abs/2311.11841v2 )

ライセンス: Link先を確認
Hengxu Yu, Xiao Li(参考訳) 滑らかな非凸最適化問題に対処するために,ランダムリシャッフル(\mathsf{RR}$)を用いた確率勾配法を考える。 $\mathsf{rr}$は、ニューラルネットワークのトレーニングにおいて、実際に広く応用されている。 本研究はまず,$\mathsf{RR}$のサンプリング手順の濃度特性を調査し,$\varepsilon$以下で勾配を駆動する(期待せずに)新しい高確率サンプル複雑性を保証し,単一の$\mathsf{RR}$の実行効率を効果的に特徴づける。 我々の導出した複雑性は、対数項に最も近い既存の不変項と一致するが、追加の仮定や$\mathsf{RR}$の更新規則の変更は含まない。 さらに、得られた高確率降下特性を活用し、確率誤差に縛られることにより、$\mathsf{RR}$($\mathsf{RR}$-$\mathsf{sc}$)の単純で計算可能な停止基準を提案する。 この基準は有限反復の後にトリガーされることが保証され、次に$\mathsf{RR}$-$\mathsf{sc}$はその勾配が$\varepsilon$より高い確率でイテレートを返す。 さらに,提案する停止基準に基づいて,静止点近傍で追加のランダムな摂動手続きを伴う摂動乱数リシャッフリング法(\mathsf{p}$-$\mathsf{rr}$)を設計する。 我々は、$\mathsf{p}$-$\mathsf{rr}$ が厳密な鞍点を回避し、確率的勾配誤差のサブガウス的テール型仮定をすることなく、高確率で二階定常点を効率的に返すことを導出する。 最後に,ニューラルネットワークトレーニングに関する数値実験を行い,理論的な知見を裏付ける。

We consider the stochastic gradient method with random reshuffling ($\mathsf{RR}$) for tackling smooth nonconvex optimization problems. $\mathsf{RR}$ finds broad applications in practice, notably in training neural networks. In this work, we first investigate the concentration property of $\mathsf{RR}$'s sampling procedure and establish a new high probability sample complexity guarantee for driving the gradient (without expectation) below $\varepsilon$, which effectively characterizes the efficiency of a single $\mathsf{RR}$ execution. Our derived complexity matches the best existing in-expectation one up to a logarithmic term while imposing no additional assumptions nor changing $\mathsf{RR}$'s updating rule. Furthermore, by leveraging our derived high probability descent property and bound on the stochastic error, we propose a simple and computable stopping criterion for $\mathsf{RR}$ (denoted as $\mathsf{RR}$-$\mathsf{sc}$). This criterion is guaranteed to be triggered after a finite number of iterations, and then $\mathsf{RR}$-$\mathsf{sc}$ returns an iterate with its gradient below $\varepsilon$ with high probability. Moreover, building on the proposed stopping criterion, we design a perturbed random reshuffling method ($\mathsf{p}$-$\mathsf{RR}$) that involves an additional randomized perturbation procedure near stationary points. We derive that $\mathsf{p}$-$\mathsf{RR}$ provably escapes strict saddle points and efficiently returns a second-order stationary point with high probability, without making any sub-Gaussian tail-type assumptions on the stochastic gradient errors. Finally, we conduct numerical experiments on neural network training to support our theoretical findings.
翻訳日:2023-12-11 18:05:18 公開日:2023-12-08
# 完全二部グラフ上の量子カウント

Quantum Counting on the Complete Bipartite Graph ( http://arxiv.org/abs/2311.10407v2 )

ライセンス: Link先を確認
Gustavo A. Bezerra, Raqueline A. M. Santos, and Renato Portugal(参考訳) 量子カウント(quantum counting)は、データベース内のマーク要素の数を決定することを目的とした量子アルゴリズムである。 このアルゴリズムは量子位相推定アルゴリズムに基づいており、その非自明な固有値がマークされた要素の数に依存するため、グローバーのアルゴリズムの進化演算子を用いる。 グロバーのアルゴリズムは完全グラフ上の量子ウォークと見なせるので、量子カウントを拡張する自然な方法は、グロバーの演算子の代わりに非完全グラフ上の量子ウォークに基づく探索の進化作用素を使うことである。 本稿では,この拡張について,任意の数の頂点を持つ完全二部グラフ上の量子ウォークを解析して検討する。 進化作用素の固有値はマークされた頂点の数に依存していることを示し、この事実を用いて量子位相推定を用いてマークされた頂点の数を得ることができることを示す。 2部グラフのマーキング頂点の数をアルゴリズムで推定する時間複雑性は、元の量子計数アルゴリズムのそれと密接に一致する。

Quantum counting is a key quantum algorithm that aims to determine the number of marked elements in a database. This algorithm is based on the quantum phase estimation algorithm and uses the evolution operator of Grover's algorithm because its non-trivial eigenvalues are dependent on the number of marked elements. Since Grover's algorithm can be viewed as a quantum walk on a complete graph, a natural way to extend quantum counting is to use the evolution operator of quantum-walk-based search on non-complete graphs instead of Grover's operator. In this paper, we explore this extension by analyzing the coined quantum walk on the complete bipartite graph with an arbitrary number of marked vertices. We show that some eigenvalues of the evolution operator depend on the number of marked vertices and using this fact we show that the quantum phase estimation can be used to obtain the number of marked vertices. The time complexity for estimating the number of marked vertices in the bipartite graph with our algorithm aligns closely with that of the original quantum counting algorithm.
翻訳日:2023-12-11 18:04:40 公開日:2023-12-08
# 量子不特定性難読化の使い方

How to Use Quantum Indistinguishability Obfuscation ( http://arxiv.org/abs/2311.07794v2 )

ライセンス: Link先を確認
Andrea Coladangelo and Sam Gunn(参考訳) アーロンソンによって導入された量子コピー保護は、有意義に複製できない量子プログラム記述を与えることができる。 10年以上の研究にもかかわらず、コピー保護は非常に限られたプログラムでのみ可能であることが知られている。 最初のコントリビューションとして,すべてのプログラムの“最善の”コピー保護を実現する方法を示す。 我々は、古典プログラムの量子記述に対する難読化の概念である量子状態区別可能性難解化(qsiO)を導入することでこれを実現している。 プログラムにqsiOを適用すると、即座に最良のコピー保護が得られることを示す。 第2のコントリビューションは,単方向関数の注入を想定して,qsio がパンクタブルプログラムの大規模なファミリーに対して具体的かつ具体的なコピープロテクションであることを示すことです。 当社の証明における重要なツールは、結合型unclonable encryption(cue)と呼ばれる、新しいタイプのunclonable encryption(ue)です。 標準モデルでUEを構築することは依然として重要なオープンな問題であるが、一方の関数からcUEを構築することができる。 さらに UE の存在を仮定すると、qsiO がコピープロテクトであるような句読可能なプログラムのクラスをさらに拡張することができる。 最後に、効率的な量子オラクルに対してqsiOを構築する。

Quantum copy protection, introduced by Aaronson, enables giving out a quantum program-description that cannot be meaningfully duplicated. Despite over a decade of study, copy protection is only known to be possible for a very limited class of programs. As our first contribution, we show how to achieve "best-possible" copy protection for all programs. We do this by introducing quantum state indistinguishability obfuscation (qsiO), a notion of obfuscation for quantum descriptions of classical programs. We show that applying qsiO to a program immediately achieves best-possible copy protection. Our second contribution is to show that, assuming injective one-way functions exist, qsiO is concrete copy protection for a large family of puncturable programs -- significantly expanding the class of copy-protectable programs. A key tool in our proof is a new variant of unclonable encryption (UE) that we call coupled unclonable encryption (cUE). While constructing UE in the standard model remains an important open problem, we are able to build cUE from one-way functions. If we additionally assume the existence of UE, then we can further expand the class of puncturable programs for which qsiO is copy protection. Finally, we construct qsiO relative to an efficient quantum oracle.
翻訳日:2023-12-11 18:04:22 公開日:2023-12-08
# 大規模言語モデルが科学的発見に及ぼす影響--GPT-4を用いた予備的検討

The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4 ( http://arxiv.org/abs/2311.07361v2 )

ライセンス: Link先を確認
Microsoft Research AI4Science, Microsoft Azure Quantum(参考訳) 近年、自然言語処理における画期的な進歩は、自然言語の理解、生成、翻訳、さらには言語処理を超えて拡張されるタスクなどを含む、幅広い領域にまたがる顕著な能力を示す強力な大規模言語モデル(LLM)の出現において頂点に達している。 本稿では,言語モデルGPT-4に着目し,科学的発見の文脈におけるLCMの性能について検討する。 我々の研究は、創薬、生物学、計算化学(密度汎関数論(dft)と分子動力学(md))、材料設計、偏微分方程式(pde)を含む様々な分野にわたる。 科学的タスクにおけるGPT-4の評価は、様々な研究領域におけるその潜在能力を解明し、その領域固有の専門知識を検証し、科学的進歩を加速し、資源割り当てを最適化し、将来のモデル開発を誘導し、学際的な研究を促進するために重要である。 私たちの調査手法は、主に専門家主導のケースアセスメントから成り、モデルの複雑な科学的概念と関係を理解するための質的洞察を提供し、時には、よく定義されたドメイン固有の問題を解決するモデルの能力を定量的に評価するベンチマークテストを行います。 予備調査の結果, GPT-4は様々な科学的応用に有望な可能性を示し, 複雑な問題解決と知識統合の課題に対処する能力を示した。 GPT-4の知識基盤、科学的理解、科学的数値計算能力、および様々な科学的予測能力を評価する。

In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast array of domains, including the understanding, generation, and translation of natural language, and even tasks that extend beyond language processing. In this report, we delve into the performance of LLMs within the context of scientific discovery, focusing on GPT-4, the state-of-the-art language model. Our investigation spans a diverse range of scientific areas encompassing drug discovery, biology, computational chemistry (density functional theory (DFT) and molecular dynamics (MD)), materials design, and partial differential equations (PDE). Evaluating GPT-4 on scientific tasks is crucial for uncovering its potential across various research domains, validating its domain-specific expertise, accelerating scientific progress, optimizing resource allocation, guiding future model development, and fostering interdisciplinary research. Our exploration methodology primarily consists of expert-driven case assessments, which offer qualitative insights into the model's comprehension of intricate scientific concepts and relationships, and occasionally benchmark testing, which quantitatively evaluates the model's capacity to solve well-defined domain-specific problems. Our preliminary exploration indicates that GPT-4 exhibits promising potential for a variety of scientific applications, demonstrating its aptitude for handling complex problem-solving and knowledge integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base, scientific understanding, scientific numerical calculation abilities, and various scientific prediction capabilities.
翻訳日:2023-12-11 18:04:02 公開日:2023-12-08
# 構造制約による進化的パレートセット学習

Evolutionary Pareto Set Learning with Structure Constraints ( http://arxiv.org/abs/2310.20426v2 )

ライセンス: Link先を確認
Xi Lin, Xiaoyuan Zhang, Zhiyuan Yang, Qingfu Zhang(参考訳) 多目的進化最適化アルゴリズム(MOEA)は、多目的最適化問題(MOP)に取り組むための強力なアプローチであり、単一のランで近似パレート解の有限集合を見つけることができる。 しかし、穏やかな正則性条件の下では、連続 MOP のパレート最適集合は無限の解を含む低次元連続多様体である。 さらに、すべてのソリューション間で共有されるパターンを特徴付ける最適解集合全体の構造的制約は、多くの実生活アプリケーションで必要となる。 既存の有限集団に基づくMOEAがこれらの構造制約を適切に扱うことは非常に困難である。 本研究では,多目的最適化のための構造制約付き解集合全体を学習する最初のモデルベースアルゴリズムフレームワークを提案する。 私たちのアプローチでは、paretoの最適性は、ソリューションセット全体の中で望ましい構造で切り離すことができます。 また,構造制約のある集合モデルを学習するための効率的な進化的学習法を開発した。 ベンチマークテストスイートと実世界のアプリケーション問題に関する実験的研究は,提案フレームワークの有望な性能を示すものである。

The multiobjective evolutionary optimization algorithm (MOEA) is a powerful approach for tackling multiobjective optimization problems (MOPs), which can find a finite set of approximate Pareto solutions in a single run. However, under mild regularity conditions, the Pareto optimal set of a continuous MOP could be a low dimensional continuous manifold that contains infinite solutions. In addition, structure constraints on the whole optimal solution set, which characterize the patterns shared among all solutions, could be required in many real-life applications. It is very challenging for existing finite population based MOEAs to handle these structure constraints properly. In this work, we propose the first model-based algorithmic framework to learn the whole solution set with structure constraints for multiobjective optimization. In our approach, the Pareto optimality can be traded off with a preferred structure among the whole solution set, which could be crucial for many real-world problems. We also develop an efficient evolutionary learning method to train the set model with structure constraints. Experimental studies on benchmark test suites and real-world application problems demonstrate the promising performance of our proposed framework.
翻訳日:2023-12-11 18:03:16 公開日:2023-12-08
# REST: DNNにおけるグループロバストネスの強化とスパーストレーニング

REST: Enhancing Group Robustness in DNNs through Reweighted Sparse Training ( http://arxiv.org/abs/2312.03044v2 )

ライセンス: Link先を確認
Jiaxu Zhao, Lu Yin, Shiwei Liu, Meng Fang, Mykola Pechenizkiy(参考訳) ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。 しかし、ほとんどのデータグループで強いパフォーマンスを示したにもかかわらず、推論中に一部のマイノリティグループでうまく機能するのに苦労することが多い。 これは、過剰パラメータモデルが多くの \textit{bias-aligned} トレーニングサンプルから \textit{bias attribute} を学んだためである。 これらのバイアス特性は、ターゲット変数と強く刺激的に相関し、モデルが刺激的な相関(すなわち \textit{bias-conflicting})にバイアスされる。 この問題に対処するため,我々は,計算とメモリ効率を改善しつつバイアスデータの性能を向上させることを目的とした,新しい \textit{\textbf{re}weighted \textbf{s}parse \textbf{t}raining framework, \textit{\textbf{rest}} を提案する。 提案するrestフレームワークは,3つのデータセット上で実験的に検証され,偏りのないサブネットワークを探索する上での有効性を示す。 私たちは、RESTが急激な相関を持つ機能への依存を減らし、トレーニングや推論リソースを減らし、より広い範囲のデータグループのパフォーマンスを向上させることに気づきました。 このフレームワークは、バイアスデータ上でのDNNのパフォーマンスを改善するとともに、計算とメモリ効率を同時に向上するための有望なアプローチである。 急激な相関への依存を減らすことで、RESTはDNNの堅牢性を高め、その一般化能力を向上させる可能性がある。 コードは \url{https://github.com/zhao1402072392/REST} でリリースされる

The deep neural network (DNN) has been proven effective in various domains. However, they often struggle to perform well on certain minority groups during inference, despite showing strong performance on the majority of data groups. This is because over-parameterized models learned \textit{bias attributes} from a large number of \textit{bias-aligned} training samples. These bias attributes are strongly spuriously correlated with the target variable, causing the models to be biased towards spurious correlations (i.e., \textit{bias-conflicting}). To tackle this issue, we propose a novel \textbf{re}weighted \textbf{s}parse \textbf{t}raining framework, dubbed as \textit{\textbf{REST}}, which aims to enhance the performance of biased data while improving computation and memory efficiency. Our proposed REST framework has been experimentally validated on three datasets, demonstrating its effectiveness in exploring unbiased subnetworks. We found that REST reduces the reliance on spuriously correlated features, leading to better performance across a wider range of data groups with fewer training and inference resources. We highlight that the \textit{REST} framework represents a promising approach for improving the performance of DNNs on biased data, while simultaneously improving computation and memory efficiency. By reducing the reliance on spurious correlations, REST has the potential to enhance the robustness of DNNs and improve their generalization capabilities. Code is released at \url{https://github.com/zhao1402072392/REST}
翻訳日:2023-12-11 17:57:03 公開日:2023-12-08
# ゼロショットポイントクラウド登録

Zero-Shot Point Cloud Registration ( http://arxiv.org/abs/2312.03032v2 )

ライセンス: Link先を確認
Weijie Wang, Guofeng Mei, Bin Ren, Xiaoshui Huang, Fabio Poiesi, Luc Van Gool, Nicu Sebe, Bruno Lepri(参考訳) 学習ベースのポイントクラウド登録アプローチは、従来のものを大きく上回っている。 しかし、通常は特定のデータセットに関する広範なトレーニングが必要です。 本稿では,ポイントクラウドデータセットのトレーニングを不要とする,最初のゼロショットポイントクラウド登録手法を提案する。 zeroregの基盤は、キーポイントからポイントクラウドへの画像特徴の新たな転送であり、3次元幾何学的近傍からの情報を集約することで強化されている。 具体的には,凍結した2Dバックボーンを用いて2次元画像ペアからキーポイントと特徴を抽出する。 これらの機能は3dで投影され、パッチは隣接点を検索して構築される。 パラメータフリーな幾何デコーダを用いて各点の幾何学的特徴と視覚的特徴を統合する。 その後、点雲間の対応を決定するタスクを最適な輸送問題として定式化する。 zeroregの広範な評価は、従来の方法と学習に基づく方法の両方に対する競争力を示している。 3DMatch、3DLoMatch、ScanNetなどのベンチマークでは、ZeroRegはそれぞれ84%、46%、75%という印象的なリコール比(RR)を達成した。

Learning-based point cloud registration approaches have significantly outperformed their traditional counterparts. However, they typically require extensive training on specific datasets. In this paper, we propose , the first zero-shot point cloud registration approach that eliminates the need for training on point cloud datasets. The cornerstone of ZeroReg is the novel transfer of image features from keypoints to the point cloud, enriched by aggregating information from 3D geometric neighborhoods. Specifically, we extract keypoints and features from 2D image pairs using a frozen pretrained 2D backbone. These features are then projected in 3D, and patches are constructed by searching for neighboring points. We integrate the geometric and visual features of each point using our novel parameter-free geometric decoder. Subsequently, the task of determining correspondences between point clouds is formulated as an optimal transport problem. Extensive evaluations of ZeroReg demonstrate its competitive performance against both traditional and learning-based methods. On benchmarks such as 3DMatch, 3DLoMatch, and ScanNet, ZeroReg achieves impressive Recall Ratios (RR) of over 84%, 46%, and 75%, respectively.
翻訳日:2023-12-11 17:56:34 公開日:2023-12-08
# FreestyleRet:スタイルの異なるクエリから画像を取得する

FreestyleRet: Retrieving Images from Style-Diversified Queries ( http://arxiv.org/abs/2312.02428v2 )

ライセンス: Link先を確認
Hao Li, Curise Jia, Peng Jin, Zesen Cheng, Kehan Li, Jialu Sui, Chang Liu, Li Yuan(参考訳) Image Retrievalは、所定のクエリに基づいて対応するイメージを取得することを目的としている。 アプリケーションシナリオでは、ユーザは様々なクエリスタイルで検索意図を表現する。 しかし、現在の検索タスクは、主にテキスト検索検索の探索に焦点を当てており、検索クエリオプションの制限と、ユーザの意図におけるあいまいさやバイアスの可能性を生んでいる。 本稿では,様々なクエリスタイルに基づいた検索が可能なスタイル分散クエリベース画像検索タスクを提案する。 そこで本研究では,テキスト,スケッチ,低解像度,アートなどの多様な問合せスタイルを包含する,最初の多彩な検索データセットを提案する。 また,軽量なスタイル分散検索フレームワークを提案する。 様々なクエリスタイル入力に対して、gramマトリックスを適用してクエリのテキスト特徴を抽出し、スタイル固有のベースを持つスタイル空間にクラスタ化する。 次に,ビジュアルエンコーダがクエリのテクスチャやスタイル情報を理解できるように,スタイルイントプロンプトチューニングモジュールを使用する。 実験により,本モデルでは,スタイルインシプリタ・インシプリタ・チューニング・ストラテジーを用いて,既存の検索モデルよりも高い性能を示した。 さらに、このモデルでは、スタイルの異なるクエリ~(sketch+text、art+textなど)を同時に検索できます。 他のクエリからの補助情報により、各クエリ内の検索性能が向上する。

Image Retrieval aims to retrieve corresponding images based on a given query. In application scenarios, users intend to express their retrieval intent through various query styles. However, current retrieval tasks predominantly focus on text-query retrieval exploration, leading to limited retrieval query options and potential ambiguity or bias in user intention. In this paper, we propose the Style-Diversified Query-Based Image Retrieval task, which enables retrieval based on various query styles. To facilitate the novel setting, we propose the first Diverse-Style Retrieval dataset, encompassing diverse query styles including text, sketch, low-resolution, and art. We also propose a light-weighted style-diversified retrieval framework. For various query style inputs, we apply the Gram Matrix to extract the query's textural features and cluster them into a style space with style-specific bases. Then we employ the style-init prompt tuning module to enable the visual encoder to comprehend the texture and style information of the query. Experiments demonstrate that our model, employing the style-init prompt tuning strategy, outperforms existing retrieval models on the style-diversified retrieval task. Moreover, style-diversified queries~(sketch+text, art+text, etc) can be simultaneously retrieved in our model. The auxiliary information from other queries enhances the retrieval performance within the respective query.
翻訳日:2023-12-11 17:55:55 公開日:2023-12-08
# Symnoise: 対称雑音による言語モデルの微調整

SymNoise: Advancing Language Model Fine-tuning with Symmetric Noise ( http://arxiv.org/abs/2312.01523v2 )

ライセンス: Link先を確認
Abhay Kumar Yadav, Arjun Singh(参考訳) 本稿では,埋め込みプロセスに対称雑音を組み込む言語モデルのための新しい微調整手法を提案する。 本手法は,局所曲率をより厳密に制御し,現行手法NEFTuneよりも優れた性能を示すことにより,モデルの機能を向上することを目的とする。 アルパカを用いてLLaMA-2-7Bモデルを微調整すると、標準技術は29.79%のスコアをAlpacaEvalで得る。 しかし、我々のアプローチであるSymNoiseは、対称雑音埋め込みを用いて、このスコアを69.04%に向上させた。 これは最先端の方法であるneftune~(64.69%)よりも6.7%改善されている。 さらに、さまざまなモデルや、Evol-Instruct、ShareGPT、OpenPlatypusといったより強力なベースライン命令データセットでテストする場合、SymNoiseはNEFTuneを一貫して上回る。 neftuneを含む現在の文献は、言語モデルの微調整におけるノイズベースの戦略の適用に関するより深い研究の重要性を強調している。 われわれのアプローチであるSymNoiseは、この方向に向けた重要なステップであり、既存の最先端手法に対する顕著な改善を示している。

In this paper, we introduce a novel fine-tuning technique for language models, which involves incorporating symmetric noise into the embedding process. This method aims to enhance the model's function by more stringently regulating its local curvature, demonstrating superior performance over the current method, NEFTune. When fine-tuning the LLaMA-2-7B model using Alpaca, standard techniques yield a 29.79% score on AlpacaEval. However, our approach, SymNoise, increases this score significantly to 69.04%, using symmetric noisy embeddings. This is a 6.7% improvement over the state-of-the-art method, NEFTune~(64.69%). Furthermore, when tested on various models and stronger baseline instruction datasets, such as Evol-Instruct, ShareGPT, OpenPlatypus, SymNoise consistently outperforms NEFTune. The current literature, including NEFTune, has underscored the importance of more in-depth research into the application of noise-based strategies in the fine-tuning of language models. Our approach, SymNoise, is another significant step towards this direction, showing notable improvement over the existing state-of-the-art method.
翻訳日:2023-12-11 17:54:56 公開日:2023-12-08
# Sparse Beats Dense:Radar-Cameraディープス完了のスーパービジョンを再考

Sparse Beats Dense: Rethinking Supervision in Radar-Camera Depth Completion ( http://arxiv.org/abs/2312.00844v2 )

ライセンス: Link先を確認
Huadong Li, Minhao Jing, Jiajun Liang, Haoqiang Fan, Renhe Ji(参考訳) 深度調整の分野における疎度管理よりも密集監督の方が優れていると広く信じられているが、その根底にある理由についてはほとんど議論されていない。 本稿では,レーダー・カメラ深度予測モデルの訓練にスパース監督を用いるという課題が,投影変換崩壊(ptc)であることを示す。 PTCは、スパース監視が、画像/レーダー/LiDAR空間間の予期せぬ崩壊したプロジェクション変換を学習するモデルにつながることを示唆している。 そこで本研究では,PSCを扱うための新しい「破壊補償」フレームワークを提案し,深度補修作業におけるスパース・インスペクションの活用を啓蒙する。 ディスラプション部は、画像/レーダー/LiDAR間の位置対応を意図的に破棄し、補償部は、3次元空間及び2次元意味情報を利用して、破棄された有益位置対応を補償する。 大規模な実験結果から,我々のフレームワークは,平均絶対誤差が11.6$\%,スピードアップが1.6 \times$で,最先端(高密度監視)よりも優れていた。 コードは...で入手できる。

It is widely believed that the dense supervision is better than the sparse supervision in the field of depth completion, but the underlying reasons for this are rarely discussed. In this paper, we find that the challenge of using sparse supervision for training Radar-Camera depth prediction models is the Projection Transformation Collapse (PTC). The PTC implies that sparse supervision leads the model to learn unexpected collapsed projection transformations between Image/Radar/LiDAR spaces. Building on this insight, we propose a novel ``Disruption-Compensation" framework to handle the PTC, thereby relighting the use of sparse supervision in depth completion tasks. The disruption part deliberately discards position correspondences among Image/Radar/LiDAR, while the compensation part leverages 3D spatial and 2D semantic information to compensate for the discarded beneficial position correspondence. Extensive experimental results demonstrate that our framework (sparse supervision) outperforms the state-of-the-art (dense supervision) with 11.6$\%$ improvement in mean absolute error and $1.6 \times$ speedup. The code is available at ...
翻訳日:2023-12-11 17:53:49 公開日:2023-12-08
# 直交正準相関解析に向けて:予備定式化と概念実証

Towards Aligned Canonical Correlation Analysis: Preliminary Formulation and Proof-of-Concept Results ( http://arxiv.org/abs/2312.00296v2 )

ライセンス: Link先を確認
Biqian Cheng, Evangelos E. Papalexakis, Jia Chen(参考訳) 正準相関解析(CCA)は、データの複数のビューを最大相関した潜在空間に埋め込むために広く応用されている。 しかしながら、従来のアプローチで要求される様々なデータ視点の整合は、多くの実用的なケースにおいて不明確である。 本研究では、アライメントとマルチビューの埋め込みを反復的に解決し、この問題に対処する新しいフレームワークであるACCA(Aligned Canonical correlation Analysis)を提案する。

Canonical Correlation Analysis (CCA) has been widely applied to jointly embed multiple views of data in a maximally correlated latent space. However, the alignment between various data perspectives, which is required by traditional approaches, is unclear in many practical cases. In this work we propose a new framework Aligned Canonical Correlation Analysis (ACCA), to address this challenge by iteratively solving the alignment and multi-view embedding.
翻訳日:2023-12-11 17:53:27 公開日:2023-12-08
# NowcastNet を用いた急速降水処理

Skilful Precipitation Nowcasting Using NowcastNet ( http://arxiv.org/abs/2311.17961v2 )

ライセンス: Link先を確認
Ajitabh Kumar(参考訳) 降水早期警報システムの設計には正確な短期予測システムが必要である。 気候変動は極端な気象現象の頻度を増加させ、このようなシステムは災害や生命の喪失を防ぐことができる。 このようなイベントを管理することは、公的機関と民間機関の両方にとって課題である。 降水ノキャスティングは、関連機関が農業、交通、公衆衛生、安全などに影響を与えるようなイベントに備えるのに役立つ。 物理学に基づく数値天気予報(NWP)は、計算のターンアラウンド時間が大きいため、現在放送ではうまく機能しない。 一方、ディープラーニングベースのモデルは、数秒以内に予測を行うことができる。 我々は最近提案する,物理条件付き深層生成ネットワークであるnowcastnetを用いて,衛星画像を用いたヨーロッパ各地域の降雨予測を行う。 空間的および時間的移動学習は、見えない地域と年を予測することによって行われる。 モデルは現実的な予測を行い、そのような予測タスクのベースラインを上回っます。

Designing early warning system for precipitation requires accurate short-term forecasting system. Climate change has led to an increase in frequency of extreme weather events, and hence such systems can prevent disasters and loss of life. Managing such events remain a challenge for both public and private institutions. Precipitation nowcasting can help relevant institutions to better prepare for such events as they impact agriculture, transport, public health and safety, etc. Physics-based numerical weather prediction (NWP) is unable to perform well for nowcasting because of large computational turn-around time. Deep-learning based models on the other hand are able to give predictions within seconds. We use recently proposed NowcastNet, a physics-conditioned deep generative network, to forecast precipitation for different regions of Europe using satellite images. Both spatial and temporal transfer learning is done by forecasting for the unseen regions and year. Model makes realistic predictions and is able to outperform baseline for such a prediction task.
翻訳日:2023-12-11 17:53:18 公開日:2023-12-08
# 大規模言語モデル信頼度推定手法

Methods to Estimate Large Language Model Confidence ( http://arxiv.org/abs/2312.03733v2 )

ライセンス: Link先を確認
Maia Kotelanski, Robert Gallo, Ashwin Nayak, Thomas Savage(参考訳) 大規模言語モデルは、複雑な医療タスクにLLMを適用する上で重要な障害である不確実性を伝えるのが困難である。 本研究は,難治性クリニカルヴィグネットの診断におけるLCM信頼度測定法について検討した。 GPT4は、Chain of ThoughtとSelf Consistencyのプロンプトを使って、一連の挑戦的なケース質問を受けた。 モデル信頼度を評価するために複数の手法を検討した結果,モデルが観測した精度を予測する能力について評価した。 評価方法は,本質的信頼度,SC一致頻度,CoT応答長であった。 SCコンセンサス周波数は観測精度と相関し, 固有信頼度とCoT長解析と比較すると, 受信器動作特性曲線の下で高い面積が得られる。 SC合意はモデル信頼性,特に診断において最も有用な指標である。 Model Intrinsic ConfidenceとCoT Response Lengthは、正しい回答と間違った回答を区別する弱い能力を示し、モデル信頼性のための信頼性と解釈可能なマーカーになることを防ぐ。 GPT4は診断精度に限界があると結論付けている。 SCアグリーメント周波数はGPT4信頼度を測定する最も有用な方法である。

Large Language Models have difficulty communicating uncertainty, which is a significant obstacle to applying LLMs to complex medical tasks. This study evaluates methods to measure LLM confidence when suggesting a diagnosis for challenging clinical vignettes. GPT4 was asked a series of challenging case questions using Chain of Thought and Self Consistency prompting. Multiple methods were investigated to assess model confidence and evaluated on their ability to predict the models observed accuracy. The methods evaluated were Intrinsic Confidence, SC Agreement Frequency and CoT Response Length. SC Agreement Frequency correlated with observed accuracy, yielding a higher Area under the Receiver Operating Characteristic Curve compared to Intrinsic Confidence and CoT Length analysis. SC agreement is the most useful proxy for model confidence, especially for medical diagnosis. Model Intrinsic Confidence and CoT Response Length exhibit a weaker ability to differentiate between correct and incorrect answers, preventing them from being reliable and interpretable markers for model confidence. We conclude GPT4 has a limited ability to assess its own diagnostic accuracy. SC Agreement Frequency is the most useful method to measure GPT4 confidence.
翻訳日:2023-12-11 17:40:47 公開日:2023-12-08
# モデルグラデード評価と自動解釈可能性のロバスト性を探る

Exploring the Robustness of Model-Graded Evaluations and Automated Interpretability ( http://arxiv.org/abs/2312.03721v2 )

ライセンス: Link先を確認
Simon Lermen and Ond\v{r}ej Kvapil(参考訳) 言語モデルの評価に対する様々なリスクや特徴に対する関心が高まっている。 グラデーションの自然言語理解に依存する評価は、他の言語モデルを用いて大規模に行うことができる。 我々は,これらのモデルグレード評価のロバスト性を,新しい偽装evalを含む異なるデータセットへのインジェクションにテストする。 これらの注射は、検査官と検査官の間の直接のコミュニケーションに似て、成績を変える。 私たちは、よりインテリジェントなモデルが彼らの評価モデルを操作したり協力したりする未来を推定します。 本研究は, 現状の商業モデルにおけるこれらの注入に対する感受性について検討した。 さらに、同様のインジェクションを自動解釈フレームワークで使用して、誤解を招くモデル記述の説明を生成することもできる。 結果は今後の働きを刺激し、評価と自動解釈可能性に対する不適格な信頼に注意する必要がある。

There has been increasing interest in evaluations of language models for a variety of risks and characteristics. Evaluations relying on natural language understanding for grading can often be performed at scale by using other language models. We test the robustness of these model-graded evaluations to injections on different datasets including a new Deception Eval. These injections resemble direct communication between the testee and the evaluator to change their grading. We extrapolate that future, more intelligent models might manipulate or cooperate with their evaluation model. We find significant susceptibility to these injections in state-of-the-art commercial models on all examined evaluations. Furthermore, similar injections can be used on automated interpretability frameworks to produce misleading model-written explanations. The results inspire future work and should caution against unqualified trust in evaluations and automated interpretability.
翻訳日:2023-12-11 17:40:31 公開日:2023-12-08
# オープンエンドワールドにおける学習カリキュラム

Learning Curricula in Open-Ended Worlds ( http://arxiv.org/abs/2312.03126v2 )

ライセンス: Link先を確認
Minqi Jiang(参考訳) 深部強化学習(RL)は最適な逐次意思決定エージェントを訓練するための強力な方法を提供する。 現実のインタラクションの収集には追加のコストと安全性のリスクが伴うため、sim2realの共通パラダイムはシミュレータでトレーニングを行い、続いて実世界のデプロイを行う。 残念ながら、RLエージェントはシミュレートされたトレーニング環境の選択に容易に適しており、さらに悪いことに、エージェントが特定のシミュレートされた環境セットをマスターすると学習は終了する。 対照的に、現実世界は非常にオープンで、進化を続ける環境と課題が特徴であり、そのようなRLアプローチは適さない。 シミュレーション環境よりも単純なランダム化は、任意の分布仮定を必要とするため不十分であり、学習に役立つ特定の環境インスタンスを組合せ的にサンプリングする可能性が低い。 理想的な学習プロセスは、エージェントの学習能力を、現実世界の複雑さに合ったり、超えたりしたオープンなタスク空間に、自動的に適応させなければならない。 この論文はUnsupervised Environment Design (UED)と呼ばれる手法を開発し、そのようなオープンなプロセスを生み出すことを目的としている。 環境設計空間が与えられると、UEDは学習エージェントの能力の最前線で、無限のシーケンスや訓練環境のカリキュラムを自動的に生成する。 ミニマックス回帰決定理論とゲーム理論に基づく広範な実証研究と理論論を通じて、この論文の知見は、UEDオートキュリキュラがRLエージェントを生成できることを示す。 このようなautocurriculaは、より汎用的な知性を達成するオープンエンドの学習システムへの道筋であり、彼ら自身の設計の新たな挑戦を継続的に生成し、マスターする。

Deep reinforcement learning (RL) provides powerful methods for training optimal sequential decision-making agents. As collecting real-world interactions can entail additional costs and safety risks, the common paradigm of sim2real conducts training in a simulator, followed by real-world deployment. Unfortunately, RL agents easily overfit to the choice of simulated training environments, and worse still, learning ends when the agent masters the specific set of simulated environments. In contrast, the real world is highly open-ended, featuring endlessly evolving environments and challenges, making such RL approaches unsuitable. Simply randomizing over simulated environments is insufficient, as it requires making arbitrary distributional assumptions and can be combinatorially less likely to sample specific environment instances that are useful for learning. An ideal learning process should automatically adapt the training environment to maximize the learning potential of the agent over an open-ended task space that matches or surpasses the complexity of the real world. This thesis develops a class of methods called Unsupervised Environment Design (UED), which aim to produce such open-ended processes. Given an environment design space, UED automatically generates an infinite sequence or curriculum of training environments at the frontier of the learning agent's capabilities. Through extensive empirical studies and theoretical arguments founded on minimax-regret decision theory and game theory, the findings in this thesis show that UED autocurricula can produce RL agents exhibiting significantly improved robustness and generalization to previously unseen environment instances. Such autocurricula are promising paths toward open-ended learning systems that achieve more general intelligence by continually generating and mastering additional challenges of their own design.
翻訳日:2023-12-11 17:40:20 公開日:2023-12-08
# 高度なカラー化のための微調整instructpix2pix

Fine-Tuning InstructPix2Pix for Advanced Image Colorization ( http://arxiv.org/abs/2312.04780v1 )

ライセンス: Link先を確認
Zifeng An, Zijing Xu, Eric Fan, Qi Cao(参考訳) 本稿では,言語モデル (GPT-3) とテキスト・ツー・イメージモデル (Stable Diffusion) を統合した InstructPix2Pix モデルを微調整することで,人間の画像のカラー化を実現する手法を提案する。 オリジナルのInstructPix2Pixモデルは、テキスト命令に基づいて画像を編集する能力があるにもかかわらず、色付けの焦点領域に制限がある。 これを解決するため, IMDB-WIKIデータセットを用いてモデルを微調整し, ChatGPT が生成する多彩なカラー化プロンプトと白黒画像のペアリングを行った。 本稿では,(1)着色作業に特化した安定拡散モデルに微調整技術を適用し,(2)生成モデルを用いて様々な条件付けプロンプトを生成する。 微調整後,本モデルでは,元となるInstructPix2Pixモデルよりも定量的に性能を向上し,よりリアルな色の画像を質的に生成する。 プロジェクトのコードはGitHub Repository https://github.com/AllenAnZifeng/DeepLearning282で公開されている。

This paper presents a novel approach to human image colorization by fine-tuning the InstructPix2Pix model, which integrates a language model (GPT-3) with a text-to-image model (Stable Diffusion). Despite the original InstructPix2Pix model's proficiency in editing images based on textual instructions, it exhibits limitations in the focused domain of colorization. To address this, we fine-tuned the model using the IMDB-WIKI dataset, pairing black-and-white images with a diverse set of colorization prompts generated by ChatGPT. This paper contributes by (1) applying fine-tuning techniques to stable diffusion models specifically for colorization tasks, and (2) employing generative models to create varied conditioning prompts. After finetuning, our model outperforms the original InstructPix2Pix model on multiple metrics quantitatively, and we produce more realistically colored images qualitatively. The code for this project is provided on the GitHub Repository https://github.com/AllenAnZifeng/DeepLearning282.
翻訳日:2023-12-11 16:36:48 公開日:2023-12-08
# MRI直腸癌ステージングにおける画像合成による後期癌拡大と半スーパービジョン

Image Synthesis-based Late Stage Cancer Augmentation and Semi-Supervised Segmentation for MRI Rectal Cancer Staging ( http://arxiv.org/abs/2312.04779v1 )

ライセンス: Link先を確認
Saeko Sasuga, Akira Kudo, Yoshiro Kitamura, Satoshi Iizuka, Edgar Simo-Serra, Atsushi Hamabe, Masayuki Ishii, Ichiro Takemasa(参考訳) 直腸癌は最も一般的な疾患の1つであり、死亡の主な原因である。 直腸癌治療計画の決定にはt-stagingが重要である。 しかし,術前MRI画像から指標を評価するには,放射線技師のスキルと経験が必要である。 そこで本研究の目的は, 分節結果からt期を予測できるように, 腸間膜, 直腸, 直腸癌の領域を分割することである。 一般に、大規模で多様なデータセットと高品質なアノテーションが不足していることは、コンピュータ支援診断開発におけるボトルネックであることが知られている。 直腸癌については、進行癌の画像は非常に稀であり、ピクセル単位のアノテーションは、高い放射線技師のスキルと時間を必要とする。 したがって、トレーニングデータセットで包括的な疾患パターンを収集することは不可能である。 そこで我々は,Tステージ予測のための画像合成に基づく後期がん拡大と半教師付き学習の2つのアプローチを提案する。 画像合成データ拡張アプローチでは,ラベルから高度ながん画像を生成する。 実際のがんラベルは、人工がん進行シミュレーションにより、進行がんラベルに類似するように変形した。 次に、画像ごとのTステージラベルからセグメンテーションモデルをトレーニングできるTステージ損失を導入する。 この損失は、直腸とがん領域の包含/侵入関係を基底の真理T期と一致させるのに有効である。 検証試験の結果,提案手法は,T3ステージとUrT2の区別において,最高の感度 (0.76) と特異度 (0.80) が得られることがわかった。 アブレーション研究では, 半教師付き学習アプローチでTスタージング損失は0.13。 画像合成に基づくデータ拡張により、浸潤癌領域のDICEスコアはベースラインから0.08向上した。

Rectal cancer is one of the most common diseases and a major cause of mortality. For deciding rectal cancer treatment plans, T-staging is important. However, evaluating the index from preoperative MRI images requires high radiologists' skill and experience. Therefore, the aim of this study is to segment the mesorectum, rectum, and rectal cancer region so that the system can predict T-stage from segmentation results. Generally, shortage of large and diverse dataset and high quality annotation are known to be the bottlenecks in computer aided diagnostics development. Regarding rectal cancer, advanced cancer images are very rare, and per-pixel annotation requires high radiologists' skill and time. Therefore, it is not feasible to collect comprehensive disease patterns in a training dataset. To tackle this, we propose two kinds of approaches of image synthesis-based late stage cancer augmentation and semi-supervised learning which is designed for T-stage prediction. In the image synthesis data augmentation approach, we generated advanced cancer images from labels. The real cancer labels were deformed to resemble advanced cancer labels by artificial cancer progress simulation. Next, we introduce a T-staging loss which enables us to train segmentation models from per-image T-stage labels. The loss works to keep inclusion/invasion relationships between rectum and cancer region consistent to the ground truth T-stage. The verification tests show that the proposed method obtains the best sensitivity (0.76) and specificity (0.80) in distinguishing between over T3 stage and underT2. In the ablation studies, our semi-supervised learning approach with the T-staging loss improved specificity by 0.13. Adding the image synthesis-based data augmentation improved the DICE score of invasion cancer area by 0.08 from baseline.
翻訳日:2023-12-11 16:36:29 公開日:2023-12-08
# ハール測度に基づく量子リウヴィルの定理

Quantum Liouville's theorem based on Haar measure ( http://arxiv.org/abs/2312.04778v1 )

ライセンス: Link先を確認
B.Q. Song, J.D.H. Smith, L. Luo, J. Wang(参考訳) liouville theorem (lt) は、任意のポテンシャルが与えられた位相空間における分布関数のロバストな非圧縮性を示す。 しかし、その量子一般化であるウィグナーフローは圧縮可能であり、すなわちLTは条件的にのみ真である(例えば完全な調和ポテンシャルに対して)。 我々は、ハミルトニアンの任意のポテンシャル(相互作用の有無)に対する量子リウヴィル定理(リゴラス非圧縮性)を開発した。 ハール測度は、ウィグナーのスキームで用いられるシンプレクティック測度 dp^dq の代わりに、中心的な役割を果たす。 この議論は、特定の空間や座標に依存しない一般測度理論に基づいている。 例えば、なぜハール測度とメートル法保存が古典的ケースで機能しないのかを論じる。 統計学、位相相転移、エルゴード理論などにおける定理の応用について論じる。

Liouville theorem (LT) reveals robust incompressibility of distribution function in phase space, given arbitrary potentials. However, its quantum generalization, Wigner flow, is compressible, i.e., LT is only conditionally true (e.g., for perfect Harmonic potential). We develop quantum Liouville theorem (rigorous incompressibility) for arbitrary potentials (interacting or not) in Hamiltonians. Haar measure, instead of symplectic measure dp^dq used in Wigner's scheme, plays a central role. The argument is based on general measure theory, independent of specific spaces or coordinates. Comparison of classical and quantum is made: for instance, we address why Haar measure and metric preservation do not work in the classical case. Applications of theorems in statistics, topological phase transition, ergodic theory, etc. are discussed.
翻訳日:2023-12-11 16:36:04 公開日:2023-12-08
# オーストラリアにおける包括的オンライン学習 : 障壁とイネーブル

Inclusive Online Learning in Australia: Barriers and Enablers ( http://arxiv.org/abs/2312.04777v1 )

ライセンス: Link先を確認
Linda Marsden, Luke Munn, Liam Magee, Matthew Ferrinda, Justin St. Pierre, Amanda Third(参考訳) パンデミックは、子どもの生活においてテクノロジーが重要な役割を担っていることを強調したが、全てのオーストラリア人児童が技術に信頼できるわけではない。 この状況は、我が国で最も脆弱な子供に対する教育上の不利を悪化させる。 本研究プロジェクトでは,西オーストラリアで3つの学校を対象に,学生,親,学校職員,教員とのワークショップやインタビューを実施し,パイロットプロジェクトを実施した。 リッチな経験的資料をもとに,個人,対人,組織的,インフラ的レベルで,デジタル的に包括的なオンライン学習を実現するための鍵となる障壁とイネーブラを特定した。 特に重要なのは、テクノロジーはこの物語の一部に過ぎず、インクルーシブなオンライン学習を促進するためには、社会的、環境的、スキルの「インフラ構造」が欠かせないことだ。 この発見に基づいて、私たちはDigital Inclusion Studioを実施し、参加者からの強い肯定的なフィードバックで、この全体的な問題に対処しました。 我々は、よりデジタルに包括的な学習を支援したい利害関係者(祖父母、学校、政府機関)に対する一連の勧告で締めくくります。

While the pandemic highlighted the critical role technology plays in children's lives, not all Australian children have reliable access to technology. This situation exacerbates educational disadvantage for children who are already amongst our nation's most vulnerable. In this research project, we carried out a pilot project with three schools in Western Australia, conducting a series of workshops and interviews with students, parents, school staff members, and teachers. Drawing on rich empirical material, we identify key barriers and enablers for digitally inclusive online learning at the individual, interpersonal, organizational, and infrastructural levels. Of particular importance is that technology is only part of this story - an array of social, environmental, and skills "infrastructure" is needed to facilitate inclusive online learning. Building on this finding, we ran a Digital Inclusion Studio to address this holistic set of issues with strongly positive feedback from participants. We conclude with a set of recommendations for stakeholders (parents, schools, government agencies) who wish to support more digitally inclusive learning.
翻訳日:2023-12-11 16:35:48 公開日:2023-12-08
# ブラトフォース微調整を伴わない最強事前学習言語モデルの決定法 実証調査

How to Determine the Most Powerful Pre-trained Language Model without Brute Force Fine-tuning? An Empirical Survey ( http://arxiv.org/abs/2312.04775v1 )

ライセンス: Link先を確認
Jun Bai, Xiaofeng Zhang, Chen Li, Hanhua Hong, Xi Xu, Chenghua Lin, Wenge Rong(参考訳) 転送可能性の推定はコンピュータビジョンの分野で大きな注目を集めている。 研究者は、ソースタスクから所定のターゲットタスクに転送された場合、モデルの性能を計算コストの低い見積りを試みる。 このような推定の有効性を考えると、自然言語処理のコミュニティも、事前学習された言語モデルの選択に関する同様の問題を研究し始めた。 しかし、これらの推定方法にはまだ包括的比較が欠けている。 また、視覚と言語シナリオの違いは、フィールドにまたがって以前の結論が確立できるかどうか疑わしい。 本稿では,まず,最も適切なモデルを見出すことのできる既存トランスファー可能性推定手法の徹底的な調査を行い,次いでglueベンチマークに基づく調査方法に関する詳細な実証実験を行った。 定性的かつ定量的な分析から,既存の手法の長所と短所を実証し,H-Scoreが有効性と有効性に優れることを示す。 また, 学習の詳細, テキスト生成への適用性, 今後の方向性を浮き彫りにしたメトリクスとの一貫性について, 考察の難しさについて概説する。

Transferability estimation has been attached to great attention in the computer vision fields. Researchers try to estimate with low computational cost the performance of a model when transferred from a source task to a given target task. Considering the effectiveness of such estimations, the communities of natural language processing also began to study similar problems for the selection of pre-trained language models. However, there is a lack of a comprehensive comparison between these estimation methods yet. Also, the differences between vision and language scenarios make it doubtful whether previous conclusions can be established across fields. In this paper, we first conduct a thorough survey of existing transferability estimation methods being able to find the most suitable model, then we conduct a detailed empirical study for the surveyed methods based on the GLUE benchmark. From qualitative and quantitative analyses, we demonstrate the strengths and weaknesses of existing methods and show that H-Score generally performs well with superiorities in effectiveness and efficiency. We also outline the difficulties of consideration of training details, applicability to text generation, and consistency to certain metrics which shed light on future directions.
翻訳日:2023-12-11 16:35:29 公開日:2023-12-08
# 公正さを思い出す:シークエンシャル意思決定における非マルコフ的公正について(予備報告)

Remembering to Be Fair: On Non-Markovian Fairness in Sequential DecisionMaking (Preliminary Report) ( http://arxiv.org/abs/2312.04772v1 )

ライセンス: Link先を確認
Parand A. Alamdari, Toryn Q. Klassen, Elliot Creager, Sheila A. McIlraith(参考訳) 公正な意思決定は、主に単一の決定に関して研究されている。 本稿では、複数の利害関係者が意思決定の結果に影響を受け得る順序決定の文脈における公平性の概念と、公正性の要件を超えた追加の制約や基準によって意思決定が通知されるかを検討する。 この設定では、公平性は多くの場合、現在の状態だけでなく、シーケンシャルな意思決定プロセスの歴史に依存する。 このフェアネス問題のクラスを理解するために、逐次意思決定の文脈において、非マルコフ的フェアネスの概念を定義する。 非マルコフ的フェアネスの性質を同定し、長期的、時空的、周期的、有界公正の概念を含む。 我々はさらに,非マルコフ的公平性と記憶の相互作用と,これが連続的な意思決定における公正な政策の構築をどのように支援できるかについて検討する。

Fair decision making has largely been studied with respect to a single decision. In this paper we investigate the notion of fairness in the context of sequential decision making where multiple stakeholders can be affected by the outcomes of decisions, and where decision making may be informed by additional constraints and criteria beyond the requirement of fairness. In this setting, we observe that fairness often depends on the history of the sequential decision-making process and not just on the current state. To advance our understanding of this class of fairness problems, we define the notion of non-Markovian fairness in the context of sequential decision making. We identify properties of non-Markovian fairness, including notions of long-term, anytime, periodic, and bounded fairness. We further explore the interplay between non-Markovian fairness and memory, and how this can support construction of fair policies in sequential decision-making settings.
翻訳日:2023-12-11 16:35:11 公開日:2023-12-08
# オープンシステムにおけるキャビティを介する量子センシングの強化

Enhanced quantum sensing mediated by a cavity in open systems ( http://arxiv.org/abs/2312.04766v1 )

ライセンス: Link先を確認
Quinn Langfitt, Zain H. Saleem, Tian Zhong, Anil Shaji, Stephen K. Gray(参考訳) 我々は空洞に結合した$N$ = 1-20の量子ビットを持つ系の力学をシミュレートし、開系極限におけるパラメータの量子距離論のポテンシャルを評価する。 キュービットとキャビティの両方が損失を許容し、システムは様々な結合強度条件下で研究されている。 主に量子フィッシャー情報を測定パラメータとして使用する量子ビット間の結合に注目している。 qubit-cavity detuningパラメータを推定するいくつかの結果も提示された。 量子プローブとして機能する量子ビットの初期状態と、量子ビットの個数とのキュービット・キャビティ結合の推定における不確かさのスケーリングについて検討する。 最初のプローブ状態として、様々な励起数、GHZ状態、分離可能なX偏極状態を持つディック状態を考える。 強い結合状態、すなわち、量子ビットと空洞の間の結合が、量子ビットと空洞の双方の崩壊パラメータよりも大きいとき、大きな励起数を持つディック状態は、励起数が増加するにつれて精度が向上し、ハイゼンベルク限界を達成できることが示されている。 我々の研究の特に興味深い発見は、弱い結合状態において、および、量子ビットまたは空洞の崩壊パラメータがカップリングを超える状況において、分離可能な$X$偏極状態がスケーリングの観点で最高であり、これらの損失の少ない状態において、N$を考慮した場合のハイゼンベルク限界を達成できることである。

We simulate the dynamics of systems with $N$ = 1-20 qubits coupled to a cavity in order to assess their potential for quantum metrology of a parameter in the open systems limit. The qubits and the cavity are both allowed to have losses and the system is studied under various coupling strength regimes. The focus is primarily on the coupling between the qubits using the quantum Fisher information as the measured parameter. Some results on estimating the qubit-cavity detuning parameter are also presented. We investigate the scaling of the uncertainty in the estimate of the qubit-cavity coupling with the number of qubits and for different initial states of the qubits that act as the quantum probe. As initial probe states, we consider Dicke states with varying excitation numbers, the GHZ state, and separable X-polarized states. It is shown that in the strong coupling regime, i.e., when the coupling between the qubits and the cavity is greater than the decay parameters of both the qubits and the cavity, Dicke states with a large excitation number can achieve the Heisenberg limit, with the precision scaling improving as the excitation number increases. A particularly intriguing finding of our study is that in the weak coupling regime, as well as in situations where either the qubit or cavity decay parameters exceed the coupling, the separable $X$-polarized state is the best in terms of scaling and is even able to achieve the Heisenberg limit in these lossy regimes for the range of $N$ considered.
翻訳日:2023-12-11 16:34:54 公開日:2023-12-08
# インド北東部の低リソース言語における機械翻訳のための並列コーパス構築の試み

First Attempt at Building Parallel Corpora for Machine Translation of Northeast India's Very Low-Resource Languages ( http://arxiv.org/abs/2312.04764v1 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Melkamu Mersha, Ananya Kalita, Olga Kolesnikova, Jugal Kalita(参考訳) 本稿では,インド北東部の13の低資源言語を対象としたバイリンガルコーパスの作成について述べる。 また、これらの言語の初期翻訳作業の結果も提示している。 これらの言語で最初の並列コーパスを生成し、これらの言語に最初のベンチマークニューラルネットワーク翻訳結果を提供する。 我々は、これらのコーパスを、多数の低リソースのインド言語を含むように拡張し、アフリカやアメリカ・インディアン言語との以前の取り組みと統合して、世界中の多数の言語をカバーするコーパスを作成するつもりです。

This paper presents the creation of initial bilingual corpora for thirteen very low-resource languages of India, all from Northeast India. It also presents the results of initial translation efforts in these languages. It creates the first-ever parallel corpora for these languages and provides initial benchmark neural machine translation results for these languages. We intend to extend these corpora to include a large number of low-resource Indian languages and integrate the effort with our prior work with African and American-Indian languages to create corpora covering a large number of languages from across the world.
翻訳日:2023-12-11 16:34:27 公開日:2023-12-08
# Graph Lottery Ticket仮説:スパース・インフォーマティブ・グラフ構造を見つける

The Graph Lottery Ticket Hypothesis: Finding Sparse, Informative Graph Structure ( http://arxiv.org/abs/2312.04762v1 )

ライセンス: Link先を確認
Anton Tsitsulin and Bryan Perozzi(参考訳) グラフ学習手法は、データ項目間の暗黙の関係を利用して、トレーニングラベルの要求を減らし、タスクのパフォーマンスを向上させる。 しかし、特定の学習課題に対して最適なグラフ構造を決定することは、依然として困難な研究課題である。 本研究では,グラフロータリー・チケット (GLT) 仮説を導入し,全グラフに非常に疎いバックボーンが存在すること,グラフ学習アルゴリズムが全グラフと同じように,そのサブグラフ上でトレーニングされた時に同等のパフォーマンスが得られること,などを述べる。 グラフ学習アルゴリズムの性能に直接影響を及ぼす8つの重要な関心指標を特定し,体系的に検討した。 続いて、グラフ全体の性能を堅牢に近似できる、エッジの非常にスパースな部分集合のグラフ構造に対する「勝利チケット」の概念を定義する。 任意のグラフでこれらのGLTを見つけるための単純で効率的なアルゴリズムを提案する。 経験的に、異なるグラフ学習アルゴリズムのパフォーマンスは、平均次数が5であるグラフ上でマッチするか、あるいは超えられることを観察する。

Graph learning methods help utilize implicit relationships among data items, thereby reducing training label requirements and improving task performance. However, determining the optimal graph structure for a particular learning task remains a challenging research problem. In this work, we introduce the Graph Lottery Ticket (GLT) Hypothesis - that there is an extremely sparse backbone for every graph, and that graph learning algorithms attain comparable performance when trained on that subgraph as on the full graph. We identify and systematically study 8 key metrics of interest that directly influence the performance of graph learning algorithms. Subsequently, we define the notion of a "winning ticket" for graph structure - an extremely sparse subset of edges that can deliver a robust approximation of the entire graph's performance. We propose a straightforward and efficient algorithm for finding these GLTs in arbitrary graphs. Empirically, we observe that performance of different graph learning algorithms can be matched or even exceeded on graphs with the average degree as low as 5.
翻訳日:2023-12-11 16:34:16 公開日:2023-12-08
# 配電系統におけるサイバー異常検出のための物理インフォームド畳み込みオートエンコーダ

Physics-Informed Convolutional Autoencoder for Cyber Anomaly Detection in Power Distribution Grids ( http://arxiv.org/abs/2312.04758v1 )

ライセンス: Link先を確認
Mehdi Jabbari Zideh, Sarika Khushalani Solanki(参考訳) 配電システムの近代化に向けた傾向が高まり、高度な計測ユニットの設置やサイバー通信システムの推進が進められている。 しかし、これらのインフラは未だにステルスサイバー攻撃を起こしやすい。 既存のデータ駆動異常検出手法は、システムの物理に関する知識の欠如、解釈可能性の欠如、現実世界のシナリオにおける実用的応用を妨げるスケーラビリティの問題に悩まされている。 これらの問題に対処するため、物理情報ニューラルネットワーク(PINN)が導入された。 本稿では,電力配電網におけるステルスサイバー攻撃を検出するための多変量物理形畳み込みオートエンコーダ(piconvae)を提案する。 提案モデルは、キルヒホフの法則を適用して、物理的原理をニューラルネットワークの損失関数に統合する。 改良型IEEE 13-bus と 123-bus で OpenDSS ソフトウェアを用いてシミュレーションを行い,提案手法の有効性を検証した。 数値計算の結果,提案したPIConvAEの性能は3つの点で優れていた。 a) データ駆動型ConvAEモデルよりも正確な結果を提供する。 b) 収束する訓練時間が少ないこと c) モデルは、広範囲の攻撃規模を効果的に検出し、盗難攻撃を検出するのに強力である。

The growing trend toward the modernization of power distribution systems has facilitated the installation of advanced measurement units and promotion of the cyber communication systems. However, these infrastructures are still prone to stealth cyber attacks. The existing data-driven anomaly detection methods suffer from a lack of knowledge about the system's physics, lack of interpretability, and scalability issues hindering their practical applications in real-world scenarios. To address these concerns, physics-informed neural networks (PINNs) were introduced. This paper proposes a multivariate physics-informed convolutional autoencoder (PIConvAE) to detect stealthy cyber-attacks in power distribution grids. The proposed model integrates the physical principles into the loss function of the neural network by applying Kirchhoff's law. Simulations are performed on the modified IEEE 13-bus and 123-bus systems using OpenDSS software to validate the efficacy of the proposed model for stealth attacks. The numerical results prove the superior performance of the proposed PIConvAE in three aspects: a) it provides more accurate results compared to the data-driven ConvAE model, b) it requires less training time to converge c) the model excels in effectively detecting a wide range of attack magnitudes making it powerful in detecting stealth attacks.
翻訳日:2023-12-11 16:33:59 公開日:2023-12-08
# 生成反転粒子変圧器の誘導

Induced Generative Adversarial Particle Transformers ( http://arxiv.org/abs/2312.04757v1 )

ライセンス: Link先を確認
Anni Li and Venkat Krishnamohan and Raghav Kansal and Rounak Sen and Steven Tsan and Zhaoyu Zhang and Javier Duarte(参考訳) 高エネルギー物理学(HEP)において、LHC(Large Hadron Collider)における粒子衝突を正確にシミュレートする効果的な方法として機械学習法が登場した。 メッセージパス生成逆数ネットワーク(MPGAN)は、衝突を点としてシミュレートする最初のモデルであり、雲は最先端の結果を持つが、二次的な時間の複雑さに悩まされた。 近年, この欠点に対処するためにGAPT(generative adversarial Particle Transformer)を導入したが, 結果はMPGANを超えなかった。 誘導型GAPT (induction GAPT) を導入し, 「誘導型粒子保持ブロック」 と大域ジェット特性の条件付けを組み込むことで, 線形時間の複雑さだけでなく, 複雑なジェットサブ構造を捉えることができ, 多くの指標においてMPGANを上回っている。 本実験は,複雑なHEPデータを高精度かつ効率的にシミュレートするiGAPTの可能性を示す。

In high energy physics (HEP), machine learning methods have emerged as an effective way to accurately simulate particle collisions at the Large Hadron Collider (LHC). The message-passing generative adversarial network (MPGAN) was the first model to simulate collisions as point, or ``particle'', clouds, with state-of-the-art results, but suffered from quadratic time complexity. Recently, generative adversarial particle transformers (GAPTs) were introduced to address this drawback; however, results did not surpass MPGAN. We introduce induced GAPT (iGAPT) which, by integrating ``induced particle-attention blocks'' and conditioning on global jet attributes, not only offers linear time complexity but is also able to capture intricate jet substructure, surpassing MPGAN in many metrics. Our experiments demonstrate the potential of iGAPT to simulate complex HEP data accurately and efficiently.
翻訳日:2023-12-11 16:33:39 公開日:2023-12-08
# プロンプトによる複数知識統合によるニューラルマシン翻訳の改善

Improving Neural Machine Translation by Multi-Knowledge Integration with Prompting ( http://arxiv.org/abs/2312.04807v1 )

ライセンス: Link先を確認
Ke Wang, Jun Xie, Yuqi Zhang, Yu Zhao(参考訳) 近年,ニューラルマシン翻訳(NMT)システムの改良が顕著な進歩を遂げている。 本研究では,NMTモデルにマルチ知識,複数種類の知識を統合する方法に着目し,プロンプトによる性能向上を図る。 文,用語/フレーズ,翻訳テンプレートなど,複数の種類の知識をNMTモデルに効果的に統合する統合フレームワークを提案する。 我々は,NMTモデルのエンコーダおよびデコーダの入力のプレフィックス・プロンプトとして,複数の種類の知識を活用して翻訳プロセスを導出する。 このアプローチはモデルアーキテクチャの変更を必要とせず、再トレーニングせずにドメイン固有の翻訳に効果的に対応します。 英語と中国語とドイツ語の翻訳実験により,我々のアプローチは高い翻訳品質と用語の精度を達成し,強いベースラインを著しく上回ることを示した。

Improving neural machine translation (NMT) systems with prompting has achieved significant progress in recent years. In this work, we focus on how to integrate multi-knowledge, multiple types of knowledge, into NMT models to enhance the performance with prompting. We propose a unified framework, which can integrate effectively multiple types of knowledge including sentences, terminologies/phrases and translation templates into NMT models. We utilize multiple types of knowledge as prefix-prompts of input for the encoder and decoder of NMT models to guide the translation process. The approach requires no changes to the model architecture and effectively adapts to domain-specific translation without retraining. The experiments on English-Chinese and English-German translation demonstrate that our approach significantly outperform strong baselines, achieving high translation quality and terminology match accuracy.
翻訳日:2023-12-11 16:24:36 公開日:2023-12-08
# RLドリーム: スコア蒸留に基づく3次元生成のための政策勾配最適化

RL Dreams: Policy Gradient Optimization for Score Distillation based 3D Generation ( http://arxiv.org/abs/2312.04806v1 )

ライセンス: Link先を確認
Aradhya N. Mathur, Phu Pham, Aniket Bera, Ojaswa Sharma(参考訳) 3D生成は、生成モデル分野の進歩により、過去10年間で急速に加速している。 スコア蒸留サンプリング(SDS)に基づくレンダリングは、3Dアセット生成を大幅に改善した。 さらに,最近のDDPO (Denoising Diffusion Policy Optimization) 研究は,拡散過程が政策勾配法と互換性があることを示し,審美的スコアリング関数を用いて2次元拡散モデルを改善することを実証している。 まず,この美的スコアラが様々なSDS手法の強力なガイドとして機能し,テキストから3D合成における有効性を示す。 さらに,DDPO法を用いて2次元拡散モデルから得られた3次元レンダリングの品質を向上させる。 DDPO3Dのアプローチは,審美的評価を伴うタンデムのポリシー勾配法を用いている。 我々の知る限りでは、この手法はポリシー勾配法を3Dスコアベースレンダリングに拡張し、現在テキストから3D合成の研究を推進しているDreamGaussianのようなSDSベースの手法にまたがる改善を示す最初の方法である。 我々のアプローチはスコア蒸留法と互換性があり、様々な報酬関数を生成プロセスに統合しやすくする。 プロジェクトページはhttps://ddpo3d.github.ioからアクセスできます。

3D generation has rapidly accelerated in the past decade owing to the progress in the field of generative modeling. Score Distillation Sampling (SDS) based rendering has improved 3D asset generation to a great extent. Further, the recent work of Denoising Diffusion Policy Optimization (DDPO) demonstrates that the diffusion process is compatible with policy gradient methods and has been demonstrated to improve the 2D diffusion models using an aesthetic scoring function. We first show that this aesthetic scorer acts as a strong guide for a variety of SDS-based methods and demonstrates its effectiveness in text-to-3D synthesis. Further, we leverage the DDPO approach to improve the quality of the 3D rendering obtained from 2D diffusion models. Our approach, DDPO3D, employs the policy gradient method in tandem with aesthetic scoring. To the best of our knowledge, this is the first method that extends policy gradient methods to 3D score-based rendering and shows improvement across SDS-based methods such as DreamGaussian, which are currently driving research in text-to-3D synthesis. Our approach is compatible with score distillation-based methods, which would facilitate the integration of diverse reward functions into the generative process. Our project page can be accessed via https://ddpo3d.github.io.
翻訳日:2023-12-11 16:24:22 公開日:2023-12-08
# 完全自動・混合交通条件下における自動運転車の開発と評価

Development and Assessment of Autonomous Vehicles in Both Fully Automated and Mixed Traffic Conditions ( http://arxiv.org/abs/2312.04805v1 )

ライセンス: Link先を確認
Ahmed Abdelrahman(参考訳) 自動運転車(AV)技術は急速に進歩しており、道路交通の安全性が大きく変化し、様々な複雑な交通問題の解決を期待している。 さまざまな企業によるAVの展開の増加に伴い、AVと人間のドライバーとの相互作用、特に道路でのAVの普及状況に関する疑問が浮かび上がっている。 AVsとAVsと人間のドライバーとの協調的な相互作用を保証することは重要であるが、負の競合行動の可能性には懸念がある。 本稿では,単一のavの開発から始まり,相互協調性を高めるための共有・介護v2v通信戦略を取り入れ,avの接続化を進める多段階的アプローチを提案する。 avの運転性能を検証するために調査を行い、同じ道路を走行するavに人間のドライバーがどう反応するかに焦点を当てた混合交通事例研究に活用する予定である。 その結果, 深部強化学習を用いて, AVは人間の運転性能に到達した運転行動を得た。 AVネットワークにおける共有とケアに基づくV2Vコミュニケーションの採用は、その運転行動を高め、より効果的な行動計画を支援し、AV間の協調行動を促進する。 この調査は、混合交通における安全を保証できないことを示しており、それらがAVと競合することを決めた場合、人間によるエゴ駆動行動を制御することはできない。 そこで本稿は,公道におけるAVの安全化に関する研究の促進を提唱する。

Autonomous Vehicle (AV) technology is advancing rapidly, promising a significant shift in road transportation safety and potentially resolving various complex transportation issues. With the increasing deployment of AVs by various companies, questions emerge about how AVs interact with each other and with human drivers, especially when AVs are prevalent on the roads. Ensuring cooperative interaction between AVs and between AVs and human drivers is critical, though there are concerns about possible negative competitive behaviors. This paper presents a multi-stage approach, starting with the development of a single AV and progressing to connected AVs, incorporating sharing and caring V2V communication strategy to enhance mutual coordination. A survey is conducted to validate the driving performance of the AV and will be utilized for a mixed traffic case study, which focuses on how the human drivers will react to the AV driving alongside them on the same road. Results show that using deep reinforcement learning, the AV acquired driving behavior that reached human driving performance. The adoption of sharing and caring based V2V communication within AV networks enhances their driving behavior, aids in more effective action planning, and promotes collaborative behavior amongst the AVs. The survey shows that safety in mixed traffic cannot be guaranteed, as we cannot control human ego-driven actions if they decide to compete with AV. Consequently, this paper advocates for enhanced research into the safe incorporation of AVs on public roads.
翻訳日:2023-12-11 16:23:59 公開日:2023-12-08
# 憎しみは排除できない:ヘイトスピーチへの回答に続いて会話の近親相姦を予測する

Hate Cannot Drive out Hate: Forecasting Conversation Incivility following Replies to Hate Speech ( http://arxiv.org/abs/2312.04804v1 )

ライセンス: Link先を確認
Xinchen Yu, Eduardo Blanco, Lingzi Hong(参考訳) ヘイトスピーチに対するユーザー生成の返信は、憎悪と戦う手段として有望だが、フォローアップ会話のインキビティを止めることができるかという疑問がある。 我々は、効果的なリプライは、フォローアップの会話でインシヴィティが出現するのを阻止する、と主張する。 本研究は,ヘイトスピーチに対する回答の後,会話の不信感を予測するタスクを紹介する。 まず,公民・公民のコメント数と談話に関わった独特の著者数に基づいて,会話の市民性を測定する指標を提案する。 我々の計量は以前の測定値よりも人間の判断を正確に近似する。 次に、ヘイトスピーチに対する回答の結果を評価するためにメトリクスを使用します。 言語学的分析により,高次かつ低次的な会話を促す応答の言語の違いが明らかになった。 実験の結果,インキビティの予測が困難であることが判明した。 我々は、最良のモデルによってなされる最も一般的なエラーに光を流す質的分析で閉じる。

User-generated replies to hate speech are promising means to combat hatred, but questions about whether they can stop incivility in follow-up conversations linger. We argue that effective replies stop incivility from emerging in follow-up conversations - replies that elicit more incivility are counterproductive. This study introduces the task of predicting the incivility of conversations following replies to hate speech. We first propose a metric to measure conversation incivility based on the number of civil and uncivil comments as well as the unique authors involved in the discourse. Our metric approximates human judgments more accurately than previous metrics. We then use the metric to evaluate the outcomes of replies to hate speech. A linguistic analysis uncovers the differences in the language of replies that elicit follow-up conversations with high and low incivility. Experimental results show that forecasting incivility is challenging. We close with a qualitative analysis shedding light into the most common errors made by the best model.
翻訳日:2023-12-11 16:23:35 公開日:2023-12-08
# SuperNormal: Multi-View Normal Integration による神経表面再構成

SuperNormal: Neural Surface Reconstruction via Multi-View Normal Integration ( http://arxiv.org/abs/2312.04803v1 )

ライセンス: Link先を確認
Xu Cao, Takafumi Taketomi(参考訳) 表面正規写像を用いた多視点3次元再構成における高速かつ高忠実なアプローチであるSuperNormalを提案する。 数分で、SuperNormalは3Dスキャナーと同等の詳細な表面を生成する。 多分解能ハッシュ符号化を用いたニューラルサイン距離関数(SDF)を最適化するためにボリュームレンダリングを利用する。 トレーニングを加速するために,SDF勾配を数値的に近似するために,方向性有限差分とパッチベースの線マーチングを提案する。 復元の質を損なわないが、この戦略は解析的勾配の約2倍の効率であり、軸方向の有限差の約3倍の速度である。 ベンチマークデータセットの実験は、既存の多視点測光ステレオ法と比較して、効率と精度においてSuperNormalの優位性を示す。 キャプチャしたオブジェクトでは、supernormalは最近のニューラル3d再構成法よりもきめ細かい形状を作り出す。

We present SuperNormal, a fast, high-fidelity approach to multi-view 3D reconstruction using surface normal maps. With a few minutes, SuperNormal produces detailed surfaces on par with 3D scanners. We harness volume rendering to optimize a neural signed distance function (SDF) powered by multi-resolution hash encoding. To accelerate training, we propose directional finite difference and patch-based ray marching to approximate the SDF gradients numerically. While not compromising reconstruction quality, this strategy is nearly twice as efficient as analytical gradients and about three times faster than axis-aligned finite difference. Experiments on the benchmark dataset demonstrate the superiority of SuperNormal in efficiency and accuracy compared to existing multi-view photometric stereo methods. On our captured objects, SuperNormal produces more fine-grained geometry than recent neural 3D reconstruction methods.
翻訳日:2023-12-11 16:23:17 公開日:2023-12-08
# Mimic Diffusion:清浄拡散モデルによる対側摂動の浄化

MimicDiffusion: Purifying Adversarial Perturbation via Mimicking Clean Diffusion Model ( http://arxiv.org/abs/2312.04802v1 )

ライセンス: Link先を確認
Kaiyu Song, Hanjiang Lai(参考訳) ディープニューラルネットワーク(DNN)は、敵の摂動に対して脆弱であり、DNNを騙すイメージに知覚できない摂動が付加される。 拡散に基づく対向浄化は、拡散モデルを用いてそのような対向攻撃に対してクリーンな画像を生成することに焦点を当てる。 残念ながら、拡散モデルは、その入力が逆摂動を持つ深いネットワークであるため、拡散モデルの生成過程は、必然的に逆摂動に影響される。 本研究では,拡散モデルの生成過程とクリーンな画像を直接入力として近似する,拡散に基づく新たな逆浄化手法であるMimicDiffusionを提案する。 具体的には, クリーン画像と逆サンプルを用いて, 誘導語の違いを分析した。 その後、マンハッタン距離に基づいてMimicDiffusionを実装した。 次に, 逆摂動を浄化するための2つの指針を提案し, クリーン拡散モデルを近似する。 CIFAR-10、CIFAR-100、ImageNetを含む3つの画像データセットに対する大規模な実験では、WideResNet-70-16、WideResNet-28-10、ResNet50を含む3つの分類器バックボーンにより、MimicDiffusionは最先端のベースラインよりも大幅にパフォーマンスが向上することを示した。 CIFAR-10, CIFAR-100, ImageNetでは92.67\%, 61.35\%, 61.53\%の平均ロバスト精度は18.49\%, 13.23\%, 17.64\%である。 コードは補足資料で入手できる。

Deep neural networks (DNNs) are vulnerable to adversarial perturbation, where an imperceptible perturbation is added to the image that can fool the DNNs. Diffusion-based adversarial purification focuses on using the diffusion model to generate a clean image against such adversarial attacks. Unfortunately, the generative process of the diffusion model is also inevitably affected by adversarial perturbation since the diffusion model is also a deep network where its input has adversarial perturbation. In this work, we propose MimicDiffusion, a new diffusion-based adversarial purification technique, that directly approximates the generative process of the diffusion model with the clean image as input. Concretely, we analyze the differences between the guided terms using the clean image and the adversarial sample. After that, we first implement MimicDiffusion based on Manhattan distance. Then, we propose two guidance to purify the adversarial perturbation and approximate the clean diffusion model. Extensive experiments on three image datasets including CIFAR-10, CIFAR-100, and ImageNet with three classifier backbones including WideResNet-70-16, WideResNet-28-10, and ResNet50 demonstrate that MimicDiffusion significantly performs better than the state-of-the-art baselines. On CIFAR-10, CIFAR-100, and ImageNet, it achieves 92.67\%, 61.35\%, and 61.53\% average robust accuracy, which are 18.49\%, 13.23\%, and 17.64\% higher, respectively. The code is available in the supplementary material.
翻訳日:2023-12-11 16:23:03 公開日:2023-12-08
# mlcommons cloud maskベンチマークの概要:関連研究とデータ

An Overview of MLCommons Cloud Mask Benchmark: Related Research and Data ( http://arxiv.org/abs/2312.04799v1 )

ライセンス: Link先を確認
Gregor von Laszewski and Ruochen Gu(参考訳) 雲のマスキングは気象学とその環境・大気科学への応用に好意的な重要な課題である。 その目標は、衛星画像によって、雲か透明な空のいずれかを含む画像の各ピクセルを識別するクラウドマスクを正確に生成することだ。 本稿では,現在MLCommons Science Working Groupで実施されている研究とベンチマークを中心に,クラウドマスキングにおける研究活動について要約する。 この概要は、他の人がMLCommons Cloud Mask Benchmarkに関連するアクティビティに着手し、協力しやすくなることを期待して作成されます。

Cloud masking is a crucial task that is well-motivated for meteorology and its applications in environmental and atmospheric sciences. Its goal is, given satellite images, to accurately generate cloud masks that identify each pixel in image to contain either cloud or clear sky. In this paper, we summarize some of the ongoing research activities in cloud masking, with a focus on the research and benchmark currently conducted in MLCommons Science Working Group. This overview is produced with the hope that others will have an easier time getting started and collaborate on the activities related to MLCommons Cloud Mask Benchmark.
翻訳日:2023-12-11 16:22:32 公開日:2023-12-08
# Protuberance Detection Network を用いた非造影CT画像上の腎腫瘍の分離

Segmentation of Kidney Tumors on Non-Contrast CT Images using Protuberance Detection Network ( http://arxiv.org/abs/2312.04796v1 )

ライセンス: Link先を確認
Taro Hatsutani, Akimichi Ichinose, Keigo Nakamura, Yoshiro Kitamura(参考訳) 腎癌は非造影CT(non-contrast CT)画像で偶然発見された。 造影ct(cect)画像では,腎腫瘍,特に腎癌は正常組織と比較して強度値が異なる。 しかし、NCCT画像では、等度性腫瘍と呼ばれる一部の腫瘍は周囲の正常組織と同様の強度を有し、臓器形状の変化によってのみ検出できる。 CECT画像から腎腫瘍を分離する深層学習法が提案され,有望な結果が得られた。 しかし,これらの手法はNCCT画像の臓器形状の変化を捉えられなかった。 本稿では,腎腫瘍のより優れた分節を可能にするために,腎臓の隆起領域を明示的に捕捉する新しい枠組みを提案する。 プロトベーションをシミュレートする合成マスクデータセットを作成し,正常な腎臓領域からプロトルード領域を分離するセグメンテーションネットワークを訓練した。 腫瘍全体のセグメンテーションを実現するため,本フレームワークは3つのネットワークから構成される。 第1のネットワークは、腎臓領域マスクと初期腫瘍領域マスクを抽出する従来のセマンティックセグメンテーションネットワークである。 プロテバンス検出ネットワークと呼ばれる第2のネットワークは、腎臓領域のマスクから突出した領域を識別する。 初期腫瘍領域マスクと突出領域マスクとから、最終ネットワークはそれらを融合させ、最終腎臓腫瘍マスクを正確に予測する。 提案手法は 108 ncct 画像を含む kits19 データセット上で評価され、3d-unet と比較して 0.615 (+0.097) 高いダイススコアと 0.721 (+0.103) の感度を達成した。 私たちの知る限りでは、これはncct画像上の腎臓腫瘍のセグメンテーション用に特別に設計された最初の深層学習方法です。

Many renal cancers are incidentally found on non-contrast CT (NCCT) images. On contrast-enhanced CT (CECT) images, most kidney tumors, especially renal cancers, have different intensity values compared to normal tissues. However, on NCCT images, some tumors called isodensity tumors, have similar intensity values to the surrounding normal tissues, and can only be detected through a change in organ shape. Several deep learning methods which segment kidney tumors from CECT images have been proposed and showed promising results. However, these methods fail to capture such changes in organ shape on NCCT images. In this paper, we present a novel framework, which can explicitly capture protruded regions in kidneys to enable a better segmentation of kidney tumors. We created a synthetic mask dataset that simulates a protuberance, and trained a segmentation network to separate the protruded regions from the normal kidney regions. To achieve the segmentation of whole tumors, our framework consists of three networks. The first network is a conventional semantic segmentation network which extracts a kidney region mask and an initial tumor region mask. The second network, which we name protuberance detection network, identifies the protruded regions from the kidney region mask. Given the initial tumor region mask and the protruded region mask, the last network fuses them and predicts the final kidney tumor mask accurately. The proposed method was evaluated on a publicly available KiTS19 dataset, which contains 108 NCCT images, and showed that our method achieved a higher dice score of 0.615 (+0.097) and sensitivity of 0.721 (+0.103) compared to 3D-UNet. To the best of our knowledge, this is the first deep learning method that is specifically designed for kidney tumor segmentation on NCCT images.
翻訳日:2023-12-11 16:22:20 公開日:2023-12-08
# 3次元CT画像における全身X線撮影

Visual Grounding of Whole Radiology Reports for 3D CT Images ( http://arxiv.org/abs/2312.04794v1 )

ライセンス: Link先を確認
Akimichi Ichinose, Taro Hatsutani, Keigo Nakamura, Yoshiro Kitamura, Satoshi Iizuka, Edgar Simo-Serra, Shoji Kido, Noriyuki Tomiyama(参考訳) 医用画像認識システムの開発において,大規模なトレーニングデータセットの構築が不可欠である。 画像中のオブジェクトと対応する記述を自動的に関連付けるビジュアル接地技術は、多数の画像のラベリングを容易にする。 しかし,CT画像に対する画像診断では,CT画像から多くの異常が検出され,報告記述が長く複雑になるため,画像診断はいまだに困難である。 本稿では,ct画像とレポートペアを対象とし,様々な身体部位と多彩な異常タイプをカバーする最初の視覚接地フレームワークを提案する。 我々の枠組みは2つの要素を結合し 1)画像の解剖学的区分、および 2)報告の構造化 解剖学的セグメンテーションは、所定のct画像の複数の臓器マスクを提供し、詳細な解剖の認識を支援する。 レポート構造化は、対応するレポートに記述された各異常の有無、位置、種類に関する情報を正確に抽出するのに役立つ。 2つの追加のイメージ/レポート機能を考えると、接地モデルはより良いローカライゼーションを達成することができる。 検証プロセスでは,7,321人の患者を対象とした10,410件の地域記述対応アノテーションを用いた大規模データセットを構築した。 本手法は,接地精度,局所的異常率を指標として評価し,解剖学的セグメント化とレポート構造化の組み合わせにより,ベースラインモデルよりも大きなマージン(66.0%対77.8%)で性能が向上することを示した。 また,従来の手法との比較により,提案手法の性能が向上した。

Building a large-scale training dataset is an essential problem in the development of medical image recognition systems. Visual grounding techniques, which automatically associate objects in images with corresponding descriptions, can facilitate labeling of large number of images. However, visual grounding of radiology reports for CT images remains challenging, because so many kinds of anomalies are detectable via CT imaging, and resulting report descriptions are long and complex. In this paper, we present the first visual grounding framework designed for CT image and report pairs covering various body parts and diverse anomaly types. Our framework combines two components of 1) anatomical segmentation of images, and 2) report structuring. The anatomical segmentation provides multiple organ masks of given CT images, and helps the grounding model recognize detailed anatomies. The report structuring helps to accurately extract information regarding the presence, location, and type of each anomaly described in corresponding reports. Given the two additional image/report features, the grounding model can achieve better localization. In the verification process, we constructed a large-scale dataset with region-description correspondence annotations for 10,410 studies of 7,321 unique patients. We evaluated our framework using grounding accuracy, the percentage of correctly localized anomalies, as a metric and demonstrated that the combination of the anatomical segmentation and the report structuring improves the performance with a large margin over the baseline model (66.0% vs 77.8%). Comparison with the prior techniques also showed higher performance of our method.
翻訳日:2023-12-11 16:21:52 公開日:2023-12-08
# ユーザ対応のプレフィックスチューニングは、パーソナライズされた画像キャプションの学習に役立つ

User-Aware Prefix-Tuning is a Good Learner for Personalized Image Captioning ( http://arxiv.org/abs/2312.04793v1 )

ライセンス: Link先を確認
Xuan Wang, Guanhong Wang, Wenhao Chai, Jiayu Zhou, and Gaoang Wang(参考訳) 画像キャプションは、画像の自然言語記述を自動的に生成することで、視覚と言語の間のギャップを埋める。 従来の画像キャプション方式はユーザの好みや特徴を無視することが多い。 パーソナライズされた画像キャプションは、ユーザの事前知識を記述スタイルや好みの語彙などモデルに組み込むことで、この問題を解決する。 既存の手法のほとんどは、メモリネットワークやトランスフォーマーによるユーザーコンテキスト融合プロセスを強調している。 しかし、これらの方法は各データセットの異なるドメインを無視している。 したがって、新しいサンプルを満たす際にキャプションモデルパラメータ全体を更新する必要がある。 この課題に対処するために,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。 さらに,本フレームワークはプレフィックスチューニングパラダイムを利用して,凍結した大規模言語モデルから知識を抽出し,異なる言語領域間のギャップを低減する。 具体的には,画像の視覚的特徴抽出にクリップを用い,クエリ誘導マッピングネットワークを用いて意味空間の調整を行う。 変換器層を組み込むことで、視覚的特徴とユーザの文脈的事前知識を融合させ、情報的接頭辞を生成する。 さらに,凍結した大言語モデルとして GPT-2 を用いる。 少数のパラメータをトレーニングすれば、モデルが効率的かつ効果的に動作します。 我々のモデルは、Instagramの既存のベースラインモデルと5つの評価指標のYFCC100Mデータセットより優れており、BLEU-4やCIDErのようなメトリクスの2倍の改善を含む、その優位性を示している。

Image captioning bridges the gap between vision and language by automatically generating natural language descriptions for images. Traditional image captioning methods often overlook the preferences and characteristics of users. Personalized image captioning solves this problem by incorporating user prior knowledge into the model, such as writing styles and preferred vocabularies. Most existing methods emphasize the user context fusion process by memory networks or transformers. However, these methods ignore the distinct domains of each dataset. Therefore, they need to update the entire caption model parameters when meeting new samples, which is time-consuming and calculation-intensive. To address this challenge, we propose a novel personalized image captioning framework that leverages user context to consider personality factors. Additionally, our framework utilizes the prefix-tuning paradigm to extract knowledge from a frozen large language model, reducing the gap between different language domains. Specifically, we employ CLIP to extract the visual features of an image and align the semantic space using a query-guided mapping network. By incorporating the transformer layer, we merge the visual features with the user's contextual prior knowledge to generate informative prefixes. Moreover, we employ GPT-2 as the frozen large language model. With a small number of parameters to be trained, our model performs efficiently and effectively. Our model outperforms existing baseline models on Instagram and YFCC100M datasets across five evaluation metrics, demonstrating its superiority, including twofold improvements in metrics such as BLEU-4 and CIDEr.
翻訳日:2023-12-11 16:21:27 公開日:2023-12-08
# 後悔の最小化によるAIの安全性の議論

AI safety by debate via regret minimization ( http://arxiv.org/abs/2312.04792v1 )

ライセンス: Link先を確認
Xinyi Chen, Angelica Chen, Dean Foster, Elad Hazan(参考訳) 我々は、議論によるAI安全性の設定を繰り返しゲームと考える。 この環境では、プレイヤーがAIか人間かのいずれかであり、計算上優れたAIにアクセス可能である場合、効率的な後悔の最小化の問題を考える。 このような設定では、内部および外部の後悔を効率的に最小化できる場合に特徴付ける。 我々は,一連の戦略が相関均衡に収束する条件で結論づける。

We consider the setting of AI safety by debate as a repeated game. We consider the question of efficient regret minimization in this setting, when the players are either AIs or humans, equipped with access to computationally superior AIs. In such a setting, we characterize when internal and external regret can be minimized efficiently. We conclude with conditions in which a sequence of strategies converges to a correlated equilibrium.
翻訳日:2023-12-11 16:21:02 公開日:2023-12-08
# マルチIRS支援UAV通信のための共同ユーザアソシエーション、干渉キャンセル、電力制御

Joint User Association, Interference Cancellation and Power Control for Multi-IRS Assisted UAV Communications ( http://arxiv.org/abs/2312.04786v1 )

ライセンス: Link先を確認
Zhaolong Ning, Hao Hu, Xiaojie Wang, Qingqing Wu, Chau Yuen, F. Richard Yu, Yan Zhang(参考訳) インテリジェント反射面(IRS)支援無人航空機(UAV)通信は、地上基地局の負荷を低コストで軽減することが期待されている。 既存の研究は主に、複数のIRSではなく単一のIRSの配置とリソース割り当てに重点を置いているが、制約のあるリソースと動的シナリオによるUAV通信における複数IRSマルチユーザ連携は極めて困難である。 上記の課題に対処するために,irs-userアソシエーション,uavの軌道最適化,逐次干渉キャンセル(sic)デコード順序スケジューリングと電力割当によるシステムエネルギー効率の最大化のための新しい最適化アルゴリズムを提案する。 まず,マルチIRSマルチユーザアソシエーションを最適化する逆ソフトQ学習アルゴリズムを提案する。 次に、SCAとディンケルバッハに基づくアルゴリズムを用いてUAV軌道を最適化し、SIC復号順序スケジューリングと電力配分を最適化する。 最後に、理論解析と性能結果から、収束率とエネルギー効率における設計アルゴリズムの顕著な利点が示された。

Intelligent reflecting surface (IRS)-assisted unmanned aerial vehicle (UAV) communications are expected to alleviate the load of ground base stations in a cost-effective way. Existing studies mainly focus on the deployment and resource allocation of a single IRS instead of multiple IRSs, whereas it is extremely challenging for joint multi-IRS multi-user association in UAV communications with constrained reflecting resources and dynamic scenarios. To address the aforementioned challenges, we propose a new optimization algorithm for joint IRS-user association, trajectory optimization of UAVs, successive interference cancellation (SIC) decoding order scheduling and power allocation to maximize system energy efficiency. We first propose an inverse soft-Q learning-based algorithm to optimize multi-IRS multi-user association. Then, SCA and Dinkelbach-based algorithm are leveraged to optimize UAV trajectory followed by the optimization of SIC decoding order scheduling and power allocation. Finally, theoretical analysis and performance results show significant advantages of the designed algorithm in convergence rate and energy efficiency.
翻訳日:2023-12-11 16:20:55 公開日:2023-12-08
# realityのcanvas、language's brush:モノクロビデオから3dアバターを作る

Reality's Canvas, Language's Brush: Crafting 3D Avatars from Monocular Video ( http://arxiv.org/abs/2312.04784v1 )

ライセンス: Link先を確認
Yuchen Rao, Eduardo Perez Pellitero, Benjamin Busam, Yiren Zhou, Jifei Song(参考訳) フォトリアリスティックモデルのための多視点監視による3次元アバター生成の最近の進歩 しかし、モノクロ版は幅広い適用性にもかかわらず品質が遅れる。 このギャップを埋めるためにReCaLabを提案する。 ReCaLabは、単一のRGBビデオから高忠実な3Dアバターを学習する、完全に微分可能なパイプラインである。 ポーズ条件付き変形可能なNeRFは、標準T位置において人間の被写体を体積的に表現するように最適化される。 次に、標準表現を利用して、2D-3D対応を用いて視点非依存のテクスチャを効率的に関連付ける。 これにより、RGB予測を共同で構成するアルベドとシェーディングを別々に生成することができる。 このデザインは、人間のポーズ、体の形、テクスチャ、そしてテキストプロンプトによる照明の中間結果を制御できる。 これにより、画像条件付き拡散モデルにより、3Dアバターの外観とポーズをアニメーション化し、これまで見えない人間の動きを伴う映像シーケンスを生成する。 大規模な実験により、ReCaLabは画像合成タスクにおける画像品質の観点から、以前の単分子的アプローチよりも優れていることが示された。 recalabは、新しいポーズレンダリングのタスクに最大19倍の同期ビデオを活用するマルチビューメソッドよりも優れています。 さらに、自然言語は3dアバターを創造的に操作するための直感的なユーザーインターフェイスを提供する。

Recent advancements in 3D avatar generation excel with multi-view supervision for photorealistic models. However, monocular counterparts lag in quality despite broader applicability. We propose ReCaLab to close this gap. ReCaLab is a fully-differentiable pipeline that learns high-fidelity 3D human avatars from just a single RGB video. A pose-conditioned deformable NeRF is optimized to volumetrically represent a human subject in canonical T-pose. The canonical representation is then leveraged to efficiently associate viewpoint-agnostic textures using 2D-3D correspondences. This enables to separately generate albedo and shading which jointly compose an RGB prediction. The design allows to control intermediate results for human pose, body shape, texture, and lighting with text prompts. An image-conditioned diffusion model thereby helps to animate appearance and pose of the 3D avatar to create video sequences with previously unseen human motion. Extensive experiments show that ReCaLab outperforms previous monocular approaches in terms of image quality for image synthesis tasks. ReCaLab even outperforms multi-view methods that leverage up to 19x more synchronized videos for the task of novel pose rendering. Moreover, natural language offers an intuitive user interface for creative manipulation of 3D human avatars.
翻訳日:2023-12-11 16:20:36 公開日:2023-12-08
# 豆をこぼせ! 生産)llmからの強制的知識抽出

Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs ( http://arxiv.org/abs/2312.04782v1 )

ライセンス: Link先を確認
Zhuo Zhang, Guangyu Shen, Guanhong Tao, Siyuan Cheng, Xiangyu Zhang(参考訳) 大規模言語モデル(llm)は現在、様々なアプリケーションで広く使われており、倫理基準を人間の価値観に合わせることが重要である。 しかし、最近の脱獄法は、慎重に構築されたプロンプトを使って、このアライメントを弱めることができることを示している。 本研究は,オープンソースLLMと多くの商用LLM API(例えば,一部のGPTモデル)の共通機能である,悪いアクターがモデルの出力ロジットにアクセスした場合に,LCMアライメントに対する新たな脅威を明らかにするものである。 特定のプロンプトの作成には依存していない。 代わりに、LSMが有害な要求を拒絶しても、有害な応答が出力ログの奥深くに隠れるという事実を利用する。 自動回帰生成プロセス中の低ランク出力トークンをいくつかの臨界出力位置で強制的に選択することにより、モデルにこれらの隠れ応答を明らかにすることができる。 この過程モデルを尋問と呼ぶ。 このアプローチは刑務所収監方法と異なり、有効率は62%に対して92%で、10倍から20倍高速である。 私たちの方法で発見された有害なコンテンツは、より関連性があり、完全で、明確です。 さらに、脱獄戦略を補完し、攻撃性能をさらに向上させることができる。 本研究は,コーディングタスク用に特別に設計されたモデルからでも有毒な知識を抽出できることを示す。

Large Language Models (LLMs) are now widely used in various applications, making it crucial to align their ethical standards with human values. However, recent jail-breaking methods demonstrate that this alignment can be undermined using carefully constructed prompts. In our study, we reveal a new threat to LLM alignment when a bad actor has access to the model's output logits, a common feature in both open-source LLMs and many commercial LLM APIs (e.g., certain GPT models). It does not rely on crafting specific prompts. Instead, it exploits the fact that even when an LLM rejects a toxic request, a harmful response often hides deep in the output logits. By forcefully selecting lower-ranked output tokens during the auto-regressive generation process at a few critical output positions, we can compel the model to reveal these hidden responses. We term this process model interrogation. This approach differs from and outperforms jail-breaking methods, achieving 92% effectiveness compared to 62%, and is 10 to 20 times faster. The harmful content uncovered through our method is more relevant, complete, and clear. Additionally, it can complement jail-breaking strategies, with which results in further boosting attack performance. Our findings indicate that interrogation can extract toxic knowledge even from models specifically designed for coding tasks.
翻訳日:2023-12-11 16:20:16 公開日:2023-12-08
# 境界条件をもつ格子ボルツマン方程式の量子カールマン線形化

Quantum Carleman Linearization of the Lattice Boltzmann Equation with Boundary Conditions ( http://arxiv.org/abs/2312.04781v1 )

ライセンス: Link先を確認
Bastien Bakker and Thomas Watts(参考訳) 格子ボルツマン法(Lattice Boltzmann Method, LBM)は, 単相・多相両方の流れをシミュレーションする効率的なアルゴリズムとして広く認識されている。 本研究では, bhatnagar gross と krook 平衡関数を用いて, 格子ボルツマン方程式の量子カールマン線形定式化について述べる。 提案手法は, 境界条件をバウンスバックスキームを用いて処理する手法である。 提案アルゴリズムの精度は, 従来のLBMシミュレーションと比較して, 矩形プリズムを過ぎる流れをシミュレートし, 流体流速と一致することを示す。 この改良された定式化は、幅広い流体流アプリケーションで計算スピードアップを提供する可能性を示している。 さらに、読み込みおよび読み出しのテクニックの詳細も提供します。

The Lattice Boltzmann Method (LBM) is widely recognized as an efficient algorithm for simulating fluid flows in both single-phase and multi-phase scenarios. In this research, a quantum Carleman Linearization formulation of the Lattice Boltzmann equation is described, employing the Bhatnagar Gross and Krook equilibrium function. Our approach addresses the treatment of boundary conditions with the commonly used bounce back scheme. The accuracy of the proposed algorithm is demonstrated by simulating flow past a rectangular prism, achieving agreement with respect to fluid velocity In comparison to classical LBM simulations. This improved formulation showcases the potential to provide computational speed-ups in a wide range of fluid flow applications. Additionally, we provide details on read in and read out techniques.
翻訳日:2023-12-11 16:19:52 公開日:2023-12-08
# 3D生成のためのデノイングスコアの最適化を学ぶ:NeRFおよび3Dガウススプレイティングに先立つ統一的で改良された拡散

Learn to Optimize Denoising Scores for 3D Generation: A Unified and Improved Diffusion Prior on NeRF and 3D Gaussian Splatting ( http://arxiv.org/abs/2312.04820v1 )

ライセンス: Link先を確認
Xiaofeng Yang, Yiwen Chen, Cheng Chen, Chi Zhang, Yi Xu, Xulei Yang, Fayao Liu and Guosheng Lin(参考訳) 本稿では,3次元生成タスクの拡散優先性向上を目的とした統一フレームワークを提案する。 これらのタスクの重要な重要性にもかかわらず、既存の方法論はしばしば高い評価結果を生み出すのに苦労している。 従来の拡散前の制約について検討することから始める。 拡散前処理と3次元生成の質を実質的に損なう拡散モデルの訓練手順との相違を同定する。 この問題に対処するために,3次元モデルと拡散前の拡散を反復的に最適化する新しい統一フレームワークを提案する。 従来の拡散の異なる学習可能なパラメータを利用することで、我々のアプローチは複数の構成を提供し、パフォーマンスと実装の複雑さの間に様々なトレードオフをもたらす。 特に,本手法が既存の手法を著しく上回っており,テキストから3d生成の領域において新たな最先端技術を確立することを実証した。 さらに,NeRFと新たに導入された3D Gaussian Splattingのバックボーンに優れた性能を示す。 さらに,vsd や dds の損失など,最近のスコア蒸留法の理解に対する洞察的な貢献も得られている。

We propose a unified framework aimed at enhancing the diffusion priors for 3D generation tasks. Despite the critical importance of these tasks, existing methodologies often struggle to generate high-caliber results. We begin by examining the inherent limitations in previous diffusion priors. We identify a divergence between the diffusion priors and the training procedures of diffusion models that substantially impairs the quality of 3D generation. To address this issue, we propose a novel, unified framework that iteratively optimizes both the 3D model and the diffusion prior. Leveraging the different learnable parameters of the diffusion prior, our approach offers multiple configurations, affording various trade-offs between performance and implementation complexity. Notably, our experimental results demonstrate that our method markedly surpasses existing techniques, establishing new state-of-the-art in the realm of text-to-3D generation. Furthermore, our approach exhibits impressive performance on both NeRF and the newly introduced 3D Gaussian Splatting backbones. Additionally, our framework yields insightful contributions to the understanding of recent score distillation methods, such as the VSD and DDS loss.
翻訳日:2023-12-11 16:14:24 公開日:2023-12-08
# MoVQA: 長期的な映画理解のためのVersatile Question-Answeringのベンチマーク

MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie Understanding ( http://arxiv.org/abs/2312.04817v1 )

ライセンス: Link先を確認
Hongjie Zhang, Yi Liu, Lu Dong, Yifei Huang, Zhen-Hua Ling, Yali Wang, Limin Wang, Yu Qiao(参考訳) 長い形式のビデオQAデータセットがいくつか紹介されているが、質問をキュレートするために使用されるビデオの長さと、これらの質問に答えるために利用されるヒントのサブクリップは、真の長い形式のビデオ理解の基準に達していない。 さらに、彼らのQAは明らかに狭く、モダリティに偏ったものであり、リッチなダイナミックスと複雑な物語を持つ長期的なビデオコンテンツを理解するというより広い視点を欠いている。 そこで本研究では,映像長と手がかり長の両方を考慮し,マルチモーダルシステムの多様な認知能力を多段階時間長に依存して評価するための,長大な映画質問応答データセットであるMoVQAを紹介する。 さらに,長大映像における人間レベルの理解に向けて,様々な知覚的・認知的軸のモデル能力を評価するために,多目的・多様質問応答が映画製作者から設計され,様々なベースラインによる分析から,映像や手がかりの長さの増加とともに,すべての手法の性能が著しく低下する傾向が明らかとなった。 一方、確立されたベースライン手法ではいくつかの改善が見られたが、挑戦的なMoVQAデータセットの強化にはまだまだ十分な範囲がある。 私たちは、MoVQAが新たな視点を提供し、長期的なビデオ理解研究に刺激を与えることを期待しています。

While several long-form VideoQA datasets have been introduced, the length of both videos used to curate questions and sub-clips of clues leveraged to answer those questions have not yet reached the criteria for genuine long-form video understanding. Moreover, their QAs are unduly narrow and modality-biased, lacking a wider view of understanding long-term video content with rich dynamics and complex narratives. To remedy this, we introduce MoVQA, a long-form movie question-answering dataset, and benchmark to assess the diverse cognitive capabilities of multimodal systems rely on multi-level temporal lengths, with considering both video length and clue length. Additionally, to take a step towards human-level understanding in long-form video, versatile and multimodal question-answering is designed from the moviegoer-perspective to assess the model capabilities on various perceptual and cognitive axes.Through analysis involving various baselines reveals a consistent trend: the performance of all methods significantly deteriorate with increasing video and clue length. Meanwhile, our established baseline method has shown some improvements, but there is still ample scope for enhancement on our challenging MoVQA dataset. We expect our MoVQA to provide a new perspective and encourage inspiring works on long-form video understanding research.
翻訳日:2023-12-11 16:14:07 公開日:2023-12-08
# すべての否定がそうであるわけではない: リンク予測のためのメタブートストラップネガティブサンプリングフレームワーク

Not All Negatives AreWorth Attending to: Meta-Bootstrapping Negative Sampling Framework for Link Prediction ( http://arxiv.org/abs/2312.04815v1 )

ライセンス: Link先を確認
Yakun Wang, Binbin Hu, Shuo Yang, Meiqi Zhu, Zhiqiang Zhang, Qiyang Zhang, Jun Zhou, Guo Ye, Huimei He(参考訳) グラフニューラルネットワーク(GNN)の急速な開発はリンク予測の増大を促し、様々なアプリケーションで有望なパフォーマンスを達成する。 残念ながら、包括的な分析によって、動的負のサンプル(DNS)を持つ現在のリンク予測器が、"easy" と "hard" のサンプル間の移行現象に悩まされていることがわかりました。 そこで本研究では,現在の負サンプリングベースリンク予測器を改善するための汎用プラグインとして,MeBNSフレームワークを提案する。 特に,メタラーニング支援型教員-学生GNN(MST-GNN)を精巧に考案し,教師-学生アーキテクチャ上に構築した「易しい」サンプルと「堅い」サンプルの移動を緩和するだけでなく,GNNが「堅い」サンプルをきめ細かな方法で識別するのを支援するメタラーニングベースサンプル再重みモジュールも備えた。 MST-GNNの学習を効果的に指導するために,教師と学生のGNNを支援するためのStructure enhanced Training Data Generator (STD-Generator)とUncertainty based Meta Data Collector (UMD-Collector)を用意した。 大規模な実験により、MeBNSは6つのリンク予測ベンチマークデータセットで顕著な性能を達成した。

The rapid development of graph neural networks (GNNs) encourages the rising of link prediction, achieving promising performance with various applications. Unfortunately, through a comprehensive analysis, we surprisingly find that current link predictors with dynamic negative samplers (DNSs) suffer from the migration phenomenon between "easy" and "hard" samples, which goes against the preference of DNS of choosing "hard" negatives, thus severely hindering capability. Towards this end, we propose the MeBNS framework, serving as a general plugin that can potentially improve current negative sampling based link predictors. In particular, we elaborately devise a Meta-learning Supported Teacher-student GNN (MST-GNN) that is not only built upon teacher-student architecture for alleviating the migration between "easy" and "hard" samples but also equipped with a meta learning based sample re-weighting module for helping the student GNN distinguish "hard" samples in a fine-grained manner. To effectively guide the learning of MST-GNN, we prepare a Structure enhanced Training Data Generator (STD-Generator) and an Uncertainty based Meta Data Collector (UMD-Collector) for supporting the teacher and student GNN, respectively. Extensive experiments show that the MeBNS achieves remarkable performance across six link prediction benchmark datasets.
翻訳日:2023-12-11 16:13:41 公開日:2023-12-08
# DARNet:動的適応を伴うクロスドメインFewショットセグメンテーションにおけるブリッジングドメインギャップ

DARNet: Bridging Domain Gaps in Cross-Domain Few-Shot Segmentation with Dynamic Adaptation ( http://arxiv.org/abs/2312.04813v1 )

ライセンス: Link先を確認
Haoran Fan, Qi Fan, Maurice Pagnucco, Yang Song(参考訳) Few-shot segmentation (FSS) は、ベースクラスからの少数のサポートイメージを使用することで、新しいクラスをクエリイメージにセグメントすることを目的としている。 しかし、ラベルに富んだドメインからリソース制約のあるドメインに機能を活用したクロスドメインのショットセグメンテーション(CD-FSS)では、ドメインの相違による課題が生じる。 本研究は,CD-FSSの一般化と特異性を両立するDARNet法を提案する。 提案手法は,ソース領域のチャネル統計を乱し,未知のターゲット領域への一般化を促進するChannel Statistics Disruption(CSD)戦略を含む。 さらに,対象領域にまたがる可変性を認識した適応精錬自己マッチング(arsm)法も提案し,マッチング閾値を調整し,予測結果を動的に自己マッチング法で精錬し,精度を向上させる。 また,様々な特徴分布に対するモデルの適応性を向上させるためのテスト時間適応法(tta)を提案する。 本手法は,CD-FSSタスクにおける最先端手法に対する優れた性能を示す。

Few-shot segmentation (FSS) aims to segment novel classes in a query image by using only a small number of supporting images from base classes. However, in cross-domain few-shot segmentation (CD-FSS), leveraging features from label-rich domains for resource-constrained domains poses challenges due to domain discrepancies. This work presents a Dynamically Adaptive Refine (DARNet) method that aims to balance generalization and specificity for CD-FSS. Our method includes the Channel Statistics Disruption (CSD) strategy, which perturbs feature channel statistics in the source domain, bolstering generalization to unknown target domains. Moreover, recognizing the variability across target domains, an Adaptive Refine Self-Matching (ARSM) method is also proposed to adjust the matching threshold and dynamically refine the prediction result with the self-matching method, enhancing accuracy. We also present a Test-Time Adaptation (TTA) method to refine the model's adaptability to diverse feature distributions. Our approach demonstrates superior performance against state-of-the-art methods in CD-FSS tasks.
翻訳日:2023-12-11 16:13:10 公開日:2023-12-08
# RS-Corrector:潜伏拡散モデルにおける顔面ステレオタイプ補正

RS-Corrector: Correcting the Racial Stereotypes in Latent Diffusion Models ( http://arxiv.org/abs/2312.04810v1 )

ライセンス: Link先を確認
Yue Jiang, Yueming Lyu, Tianxiang Ma, Bo Peng, Jing Dong(参考訳) 近年のテキストコンディショニング画像生成モデルは、視覚的品質の高い多彩で創造的な画像を生成する能力を示した。 しかし、偏りのある人間の好みが存在するインターネットからランダムに収集された10億規模のデータセットを事前にトレーニングすると、これらのモデルは、特に特定の人種グループにおいて、共通のステレオタイプを持つ画像を生成する傾向がある。 本稿では,公開可能な安定拡散モデルとその誘導体について初期分析を行い,人種的ステレオタイプの存在を強調した。 これらのモデルはしばしば、特定の人種グループに対して歪んだ画像や偏りの画像を生成し、ステレオタイプの特徴を強調する。 これらの問題に対処するため、我々は、潜伏空間における反ステレオタイプ的嗜好を確立し、洗練された結果を得るために潜伏コードを更新する「RS-Corrector」というフレームワークを提案する。 補正プロセスは、原モデルの微調整を必要とせず、推論段階で発生する。 広範な経験的評価により、導入された \themodel は、訓練された安定拡散モデルの人種的ステレオタイプを効果的に修正し、元のモデルを変更しないことを示した。

Recent text-conditioned image generation models have demonstrated an exceptional capacity to produce diverse and creative imagery with high visual quality. However, when pre-trained on billion-sized datasets randomly collected from the Internet, where potential biased human preferences exist, these models tend to produce images with common and recurring stereotypes, particularly for certain racial groups. In this paper, we conduct an initial analysis of the publicly available Stable Diffusion model and its derivatives, highlighting the presence of racial stereotypes. These models often generate distorted or biased images for certain racial groups, emphasizing stereotypical characteristics. To address these issues, we propose a framework called "RS-Corrector", designed to establish an anti-stereotypical preference in the latent space and update the latent code for refined generated results. The correction process occurs during the inference stage without requiring fine-tuning of the original model. Extensive empirical evaluations demonstrate that the introduced \themodel effectively corrects the racial stereotypes of the well-trained Stable Diffusion model while leaving the original model unchanged.
翻訳日:2023-12-11 16:12:48 公開日:2023-12-08
# ソフトウェア工学における女性の道をナビゲートする - アカデミックから産業へ

Navigating the Path of Women in Software Engineering: From Academia to Industry ( http://arxiv.org/abs/2312.04809v1 )

ライセンス: Link先を確認
Tatalina Oliveira, Ann Barcomb, Ronnie de Souza Santos, Helda Barros, Maria Teresa Baldassarre, C\'esar Fran\c{c}a(参考訳) コンテキスト。 女性はソフトウェア工学において著しく不足しており、ソフトウェア産業における男女差が持続している。 この格差は教育から始まり、産業に広がり、敵対的な労働環境や不平等な機会などの課題を引き起こします。 これらの問題に対処することは、包括的で多様なソフトウェアエンジニアリングの労働力を育てるために不可欠です。 エイム。 本研究は, ソフトウェア工学における女性文学の充実, 産学から産学への道のりを探り, 視点, 課題, サポートについて議論することを目的とする。 私たちはブラジルの女性に焦点を合わせ、北米と欧州の状況に主に焦点をあてた既存の研究を拡張させます。 方法。 本研究では,大学からソフトウェア産業への旅を探究するために,ソフトウェア工学における女性の経験に注目し,定量的・定性的なデータを集め,横断的な調査を行った。 発見。 男女バイアス,ハラスメント,ワークライフの不均衡,過小評価,帰属意識の低さ,インポスタシンドロームなど,ソフトウェアエンジニアリングにおいて女性が直面する継続的な課題に注目した。 これらの困難は大学経験から生じ、生涯を通して女性に影響を与え続けている。 結論だ まとめると、我々の研究は女性のソフトウェアエンジニアリングにおける体系的な課題を特定し、これらの問題に対処するための組織的コミットメントの必要性を強調します。 我々は実践者に対して行動可能な推奨を提供する。

Context. Women remain significantly underrepresented in software engineering, leading to a lasting gender gap in the software industry. This disparity starts in education and extends into the industry, causing challenges such as hostile work environments and unequal opportunities. Addressing these issues is crucial for fostering an inclusive and diverse software engineering workforce. Aim. This study aims to enhance the literature on women in software engineering, exploring their journey from academia to industry and discussing perspectives, challenges, and support. We focus on Brazilian women to extend existing research, which has largely focused on North American and European contexts. Method. In this study, we conducted a cross-sectional survey, collecting both quantitative and qualitative data, focusing on women's experiences in software engineering to explore their journey from university to the software industry. Findings. Our findings highlight persistent challenges faced by women in software engineering, including gender bias, harassment, work-life imbalance, undervaluation, low sense of belonging, and impostor syndrome. These difficulties commonly emerge from university experiences and continue to affect women throughout their entire careers. Conclusion. In summary, our study identifies systemic challenges in women's software engineering journey, emphasizing the need for organizational commitment to address these issues. We provide actionable recommendations for practitioners.
翻訳日:2023-12-11 16:12:28 公開日:2023-12-08
# 深層学習に基づくテーブル認識に関する一検討

A Review On Table Recognition Based On Deep Learning ( http://arxiv.org/abs/2312.04808v1 )

ライセンス: Link先を確認
Shi Jiyuan, Shi chunqi(参考訳) テーブル認識は、コンピュータを用いてテーブルを自動的に理解し、文書や画像からテーブルの位置を検出し、テーブルの内部構造や内容を正しく抽出して識別する。 ヒューリスティックなルールと機械学習に基づく以前の主流のアプローチの後、ディープラーニング技術の開発がこの分野に新しいパラダイムをもたらした。 本稿では,5つの側面から表認識問題について考察する。 第1部では、データセット、ベンチマーク、一般的な評価指標を紹介します。 本節では、研究者が頻繁に使用する代表データセット、ベンチマーク、評価指標を選択する。 第2部では,表認識モデルを紹介する。 本稿では,テーブル認識モデル,特に深層学習に基づくテーブル認識モデルの開発について紹介する。 一般に、テーブル認識はテーブル検出とテーブル構造認識の2つの段階に分けられる。 本節では、このパラダイム(tdおよびtsr)に従うモデルを紹介する。 第3部はEnd-to-End法であり、この節では、データ拡張、ベンチマークの整合化、その他の方法など、データ中心の手法であるテーブル認識問題を解決するために、エンド・ツー・エンドのアプローチを導入している。 第4の部分は、データ強化やアライメントベンチマークなど、データ中心のアプローチである。 第5部は、フォーム認識の分野での実験データを要約して比較し、主流でより有利な方法を分析する。 最後に, テーブル認識の分野の研究者に対して, 今後のフォーム処理の展開方向と動向について述べる。 (resourceはhttps://github.com/wa1den-jy/topic-on-table-recognitionでリリースされる。)

Table recognition is using the computer to automatically understand the table, to detect the position of the table from the document or picture, and to correctly extract and identify the internal structure and content of the table. After earlier mainstream approaches based on heuristic rules and machine learning, the development of deep learning techniques has brought a new paradigm to this field. This review mainly discusses the table recognition problem from five aspects. The first part introduces data sets, benchmarks, and commonly used evaluation indicators. This section selects representative data sets, benchmarks, and evaluation indicators that are frequently used by researchers. The second part introduces the table recognition model. This survey introduces the development of the table recognition model, especially the table recognition model based on deep learning. It is generally accepted that table recognition is divided into two stages: table detection and table structure recognition. This section introduces the models that follow this paradigm (TD and TSR). The third part is the End-to-End method, this section introduces some scholars' attempts to use an end-to-end approach to solve the table recognition problem once and for all and the part are Data-centric methods, such as data augmentation, aligning benchmarks, and other methods. The fourth part is the data-centric approach, such as data enhancement, alignment benchmark, and so on. The fifth part summarizes and compares the experimental data in the field of form recognition, and analyzes the mainstream and more advantageous methods. Finally, this paper also discusses the possible development direction and trend of form processing in the future, to provide some ideas for researchers in the field of table recognition. (Resource will be released at https://github.com/Wa1den-jy/Topic-on-Table-Recognition .)
翻訳日:2023-12-11 16:12:03 公開日:2023-12-08
# 視覚コモンセンスモデルのための局所化記号知識蒸留

Localized Symbolic Knowledge Distillation for Visual Commonsense Models ( http://arxiv.org/abs/2312.04837v1 )

ライセンス: Link先を確認
Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi(参考訳) 視覚言語(VL)モデルに従う命令は、ゼロショット方式で幅広いマルチモーダルタスクをサポートする柔軟なインタフェースを提供する。 しかし、フルイメージで動作するインターフェースは、ユーザーが画像内の特定の領域を直接「指差す」ことができません。 この機能は、基準基底のVLベンチマークをサポートするだけでなく、正確な画像内推論を必要とする実用的なアプリケーションにも重要である。 ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。 我々は,大言語モデル (LLM) から局所化コモンセンス知識をサンプリングすることによってモデルを訓練する。具体的には,大域的リテラル画像記述と,VLモデルの集合によって自動生成される局所リテラル領域記述から,LLMにコモンセンス知識を収集するよう促す。 高品質な例を選択するための個別に訓練された批評家モデルにより、局所化されたコモンセンスコーパスのトレーニングが既存のVLモデルを蒸留し、参照・アズ・インプットインターフェースをサポートすることができることがわかった。 ゼロショット装置における実験結果と人的評価から, 蒸留法は, 生成した参照式をLLMに渡すベースラインと比較して, 推論の精度の高いVLモデルが得られることが示された。

Instruction following vision-language (VL) models offer a flexible interface that supports a broad range of multimodal tasks in a zero-shot fashion. However, interfaces that operate on full images do not directly enable the user to "point to" and access specific regions within images. This capability is important not only to support reference-grounded VL benchmarks, but also, for practical applications that require precise within-image reasoning. We build Localized Visual Commonsense models, which allow users to specify (multiple) regions as input. We train our model by sampling localized commonsense knowledge from a large language model (LLM): specifically, we prompt an LLM to collect commonsense knowledge given a global literal image description and a local literal region description automatically generated by a set of VL models. With a separately trained critic model that selects high-quality examples, we find that training on the localized commonsense corpus can successfully distill existing VL models to support a reference-as-input interface. Empirical results and human evaluations in a zero-shot setup demonstrate that our distillation method results in more precise VL models of reasoning compared to a baseline of passing a generated referring expression to an LLM.
翻訳日:2023-12-11 16:10:40 公開日:2023-12-08
# AI応用のための熱力学計算システム

Thermodynamic Computing System for AI Applications ( http://arxiv.org/abs/2312.04836v1 )

ライセンス: Link先を確認
Denis Melanson, Mohammad Abu Khater, Maxwell Aifer, Kaelan Donatella, Max Hunter Gordon, Thomas Ahle, Gavin Crooks, Antonio J. Martinez, Faris Sbahi, Patrick J. Coles(参考訳) 人工知能(AI)アルゴリズムの最近の進歩は、AIの可能性を真に解き明かすために、新しいコンピューティングハードウェアの必要性を強調している。 熱力学コンピューティングのような物理ベースのハードウェアは、AIプリミティブ、特に生成AIと確率AIを加速する高速で低消費電力の手段を提供する可能性がある。 本研究では, 確率処理ユニット (spu) と呼ばれる, 最初の連続変数熱力学計算機を提案する。 我々のSPUは、プリント基板上のRCC回路を単位セルとして構成し、8個の単位セルをスイッチトキャパシタンスを介して全て結合する。 サンプリングプリミティブまたは線形代数プリミティブとして使用することができ、ガウスサンプリングおよび行列反転をハードウェア上で実演する。 後者は最初の熱力学線形代数実験である。 また,ニューラルネットワーク分類における不確実性定量化に対するspuの適用性を示す。 このハードウェアは、規模を拡大すると、様々な確率的aiアプリケーションの加速に大きな影響を与えると私たちは考えています。

Recent breakthroughs in artificial intelligence (AI) algorithms have highlighted the need for novel computing hardware in order to truly unlock the potential for AI. Physics-based hardware, such as thermodynamic computing, has the potential to provide a fast, low-power means to accelerate AI primitives, especially generative AI and probabilistic AI. In this work, we present the first continuous-variable thermodynamic computer, which we call the stochastic processing unit (SPU). Our SPU is composed of RLC circuits, as unit cells, on a printed circuit board, with 8 unit cells that are all-to-all coupled via switched capacitances. It can be used for either sampling or linear algebra primitives, and we demonstrate Gaussian sampling and matrix inversion on our hardware. The latter represents the first thermodynamic linear algebra experiment. We also illustrate the applicability of the SPU to uncertainty quantification for neural network classification. We envision that this hardware, when scaled up in size, will have significant impact on accelerating various probabilistic AI applications.
翻訳日:2023-12-11 16:10:17 公開日:2023-12-08
# 新型コロナウイルス後のデジタル疫学 : 影響と展望

Digital Epidemiology after COVID-19: impact and prospects ( http://arxiv.org/abs/2312.04835v1 )

ライセンス: Link先を確認
Sara Mesquita, L\'ilia Perfeito, Daniela Paolotti, Joana Gon\c{c}alves-S\'a(参考訳) 疫学と公衆衛生は、一般的な健康システムの内外で収集される構造的および非構造的なデータにますます依存して、人口レベルでの疾患を研究、特定、緩和している。 感染症を中心に、2020年初頭のデジタル疫学(Digital Epidemiology, DE)と、COVID-19のパンデミックによって、自然と広さの両面でどのように変化したかを検討する。 我々は、DEがその可能性を認識し、そのリスクを最小限に抑える限り、徐々に有用なツールになると論じる。 したがって、現在のビューを拡大し、データセットの統計的性質を強調することで、可能なバイアスを特定するのに役立つdeの新たな定義を提示します。 我々は,プライバシに対する不平等と脅威を減らすための推奨事項をいくつか提示し,感染症に取り組むための複雑な多分野のアプローチを支持する。

Epidemiology and Public Health have increasingly relied on structured and unstructured data, collected inside and outside of typical health systems, to study, identify, and mitigate diseases at the population level. Focusing on infectious disease, we review how Digital Epidemiology (DE) was at the beginning of 2020 and how it was changed by the COVID-19 pandemic, in both nature and breadth. We argue that DE will become a progressively useful tool as long as its potential is recognized and its risks are minimized. Therefore, we expand on the current views and present a new definition of DE that, by highlighting the statistical nature of the datasets, helps in identifying possible biases. We offer some recommendations to reduce inequity and threats to privacy and argue in favour of complex multidisciplinary approaches to tackling infectious diseases.
翻訳日:2023-12-11 16:10:02 公開日:2023-12-08
# 現代社会におけるアルゴリズムの識別とその関連性:スコーピング研究から

Exposing Algorithmic Discrimination and Its Consequences in Modern Society: Insights from a Scoping Study ( http://arxiv.org/abs/2312.04832v1 )

ライセンス: Link先を確認
Ramandeep Singh Dehal, Mehak Sharma, Ronnie de Souza Santos(参考訳) アルゴリズムによる差別は、人種、人種、性別、性的指向、宗教、年齢、障害、その他の個人的特性などの属性に基づいて、データ駆動ソフトウェアがユーザーを不公平に扱うときに生じる条件である。 現在、機械学習が普及するにつれて、アルゴリズムによる差別の事例がいくつかの文脈で報告されている。 この研究は、アルゴリズム的差別を報告している長年にわたる様々な研究を掘り下げている。 我々は,この問題の鍵となる特徴を議論することで,この問題に対処するソフトウェア工学研究者や実践者を支援することを目的とする。

Algorithmic discrimination is a condition that arises when data-driven software unfairly treats users based on attributes like ethnicity, race, gender, sexual orientation, religion, age, disability, or other personal characteristics. Nowadays, as machine learning gains popularity, cases of algorithmic discrimination are increasingly being reported in several contexts. This study delves into various studies published over the years reporting algorithmic discrimination. We aim to support software engineering researchers and practitioners in addressing this issue by discussing key characteristics of the problem
翻訳日:2023-12-11 16:09:47 公開日:2023-12-08
# 安定かつ忠実な塗装に向けて

Towards Stable and Faithful Inpainting ( http://arxiv.org/abs/2312.04831v1 )

ライセンス: Link先を確認
Yikai Wang and Chenjie Cao and Yanwei Fu(参考訳) 塗装の最近の進歩は生成モデルにますます依存し、不条件問題に対処する強力な生成能力を活用している。 しかし、この拡張された生成はしばしば不安定をもたらし、マスクされた領域内で任意のオブジェクト生成をもたらす。 本稿では,生成能力を維持しつつ塗り込みを指導する上で,未マスク領域の重要性を強調するバランスのとれた解を提案する。 ASUKA(Aigned Staable Inpainting with UnKnown Areas Prior)は,再建型マスク付きオートエンコーダ(MAE)を従来型として採用している。 安定拡散塗装モデル (SD) により, ASUKA は塗装安定性を著しく向上させる。 ASUKAはさらに、塗装された特定のデコーダを通じてマスクされた領域と未加工領域を調整し、より忠実な塗布を確実にする。 ドメインとマスキングシナリオ間の有効性を検証するため,既存のデータセットの集合であるMISATOを評価した。 その結果,ASUKAの安定性と忠実度はSDおよび他の塗布アルゴリズムと比較した。

Recent progress in inpainting increasingly relies on generative models, leveraging their strong generation capabilities for addressing ill-conditioned problems. However, this enhanced generation often introduces instability, leading to arbitrary object generation within masked regions. This paper proposes a balanced solution, emphasizing the importance of unmasked regions in guiding inpainting while preserving generative capacity. Our approach, Aligned Stable Inpainting with UnKnown Areas Prior (ASUKA), employs a reconstruction-based masked auto-encoder (MAE) as a stable prior. Aligned with the robust Stable Diffusion inpainting model (SD), ASUKA significantly improves inpainting stability. ASUKA further aligns masked and unmasked regions through an inpainting-specialized decoder, ensuring more faithful inpainting. To validate effectiveness across domains and masking scenarios, we evaluate on MISATO, a collection of several existing dataset. Results confirm ASUKA's efficacy in both stability and fidelity compared to SD and other inpainting algorithms.
翻訳日:2023-12-11 16:09:37 公開日:2023-12-08
# HuRef: 大規模言語モデルのためのHUman対応フィンガープリント

HuRef: HUman-REadable Fingerprint for Large Language Models ( http://arxiv.org/abs/2312.04828v1 )

ライセンス: Link先を確認
Boyi Zeng, Chenghu Zhou, Xinbing Wang, Zhouhan Lin(参考訳) 大規模言語モデル(LLM)の著作権保護は、リソース集約的なトレーニングと、慎重に設計されたライセンスを伴うため、重要になっている。 しかし,微調整や継続前訓練によるパラメータ変更の可能性から,llmの原ベースモデルの同定は困難である。 本研究では,モデルパラメータを暴露したり,トレーニングに干渉したりすることなく,基本モデルを一意に識別するLLM用人読指紋であるHuRefを紹介する。 まず, LLMパラメータのベクトル方向が, モデルが事前訓練中に収束した後も安定であり, 継続事前訓練, 教師付き微調整(SFT), RLHFなどの訓練段階を通じて無視可能な摂動を示す。 この必要性は、モデルパラメータの方向を追い出すために余分な項でLSMを訓練し続け、モデルが損傷することによって検証される。 しかし、この方向は次元置換や行列回転のような単純な攻撃に弱いため、性能に影響を与えずに大きく変化する。 そこで本研究では,トランスフォーマー構造を利用して,潜在的攻撃を系統的に解析し,LLMのベースモデルを特定する3つの不変項を定義する。 これらの不変項を畳み込みエンコーダを用いてガウスベクトルにマッピングし、それをスタイルガン2で自然画像に変換することで、人間に読めるようにする。 本手法では,犬の外観がllmの基本モデルを強く示すように,llmの識別指紋として犬画像を生成する。 実験結果から,本手法の有効性を実証した犬画像は,sft,rlhf,あるいは新たな言語で拡張語彙を用いた事前学習を継続するなど,異なる訓練ステップに不変であることがわかった。

Protecting the copyright of large language models (LLMs) has become crucial due to their resource-intensive training and accompanying carefully designed licenses. However, identifying the original base model of an LLM is challenging due to potential parameter alterations through fine-tuning or continued pretraining. In this study, we introduce HuRef, a human-readable fingerprint for LLMs that uniquely identifies the base model without exposing model parameters or interfering with training. We first observe that the vector direction of LLM parameters remains stable after the model has converged during pretraining, showing negligible perturbations through subsequent training steps, including continued pretraining, supervised fine-tuning (SFT), and RLHF, which makes it a sufficient condition to identify the base model. The necessity is validated by continuing to train an LLM with an extra term to drive away the model parameters' direction and the model becomes damaged. However, this direction is vulnerable to simple attacks like dimension permutation or matrix rotation, which significantly change it without affecting performance. To address this, leveraging the Transformer structure, we systematically analyze potential attacks and define three invariant terms that identify an LLM's base model. We make these invariant terms human-readable by mapping them to a Gaussian vector using a convolutional encoder and then converting it into a natural image with StyleGAN2. Our method generates a dog image as an identity fingerprint for an LLM, where the dog's appearance strongly indicates the LLM's base model. Experimental results across various LLMs demonstrate the effectiveness of our method, the generated dog image remains invariant to different training steps, including SFT, RLHF, or even continued pretraining with augmented vocabulary in a new language.
翻訳日:2023-12-11 16:09:20 公開日:2023-12-08
# SiCP:コネクテッド・オートマチック車両における3次元物体検出のための同時的個人・協調的知覚

SiCP: Simultaneous Individual and Cooperative Perception for 3D Object Detection in Connected and Automated Vehicles ( http://arxiv.org/abs/2312.04822v1 )

ライセンス: Link先を確認
Deyuan Qu, Qi Chen, Tianyu Bai, Andy Qin, Hongsheng Lu, Heng Fan, Song Fu, Qing Yang(参考訳) 連結車両と自動車両の協調認識は、伝統的に2台以上の車両の特徴マップの融合によって達成される。 しかし、他の車両から共有される特徴マップがないことは、スタンドアロンの3次元検出モデルと比較して、協調認識モデルにおける物体検出性能が著しく低下する可能性がある。 この欠点は、車両資源が2つの知覚モデルを同時に使用するには不十分なため、協調的な知覚の採用を妨げる。 この問題に対処するため,我々は,最先端のスタンドアロン知覚バックボーンをサポートし,個人と協調的な知覚を容易にするように設計された新しいデュアル・パーセプション・ネットワーク(dp-net)を用いて,それらを強化する汎用フレームワークであるsicp(sonic individual and cooperative perception)を提案する。 0.13Mのパラメータしか持たない軽量な性質に加えて、DP-Netは頑丈であり、特徴マップの融合時に重要な勾配情報を保持する。 DP-NetによるOPV2Vデータセットの総合評価で示されているように、SiCPはスタンドアロンの知覚ソリューションの性能を維持しながら、最先端の協調認識ソリューションを超越している。

Cooperative perception for connected and automated vehicles is traditionally achieved through the fusion of feature maps from two or more vehicles. However, the absence of feature maps shared from other vehicles can lead to a significant decline in object detection performance for cooperative perception models compared to standalone 3D detection models. This drawback impedes the adoption of cooperative perception as vehicle resources are often insufficient to concurrently employ two perception models. To tackle this issue, we present Simultaneous Individual and Cooperative Perception (SiCP), a generic framework that supports a wide range of the state-of-the-art standalone perception backbones and enhances them with a novel Dual-Perception Network (DP-Net) designed to facilitate both individual and cooperative perception. In addition to its lightweight nature with only 0.13M parameters, DP-Net is robust and retains crucial gradient information during feature map fusion. As demonstrated in a comprehensive evaluation on the OPV2V dataset, thanks to DP-Net, SiCP surpasses state-of-the-art cooperative perception solutions while preserving the performance of standalone perception solutions.
翻訳日:2023-12-11 16:08:47 公開日:2023-12-08
# 移動モード識別のための回帰作業における変更点検出とセグメント分類

Unify Change Point Detection and Segment Classification in a Regression Task for Transportation Mode Identification ( http://arxiv.org/abs/2312.04821v1 )

ライセンス: Link先を確認
Rongsong Li, Xin Pei(参考訳) 旅行者の交通手段の特定は交通科学や位置情報サービスにおいて重要である。 スマートフォンなどのGPS対応デバイスの人気で、GPSトラジェクトリデータを使って交通手段を推測することが、研究者にアピールしている。 既存の研究ではこの問題を分類課題として扱っている。 支配的な2段階の研究は、トリップをまず1つのモードセグメントに分割し、次にこれらのセグメントを分類する。 オーバーセグメンテーション戦略と避けられないエラー伝播は、分類段階に困難をもたらし、システム全体の最適化を難しくする。 最近の1段階の研究では、軌道のセグメンテーションを完全に排除し、旅行のポイントワイズ分類を直接実行し、予測は不連続である。 オブジェクト検出におけるyoloとssdに触発された上記の課題を解決するため,既存の分類タスクに代えて,変更点検出とセグメント分類を統一回帰タスクとして再フレーム化する手法を提案する。 変更点の座標を直接回帰し、関連するセグメントを分類する。 このようにして,本手法はトラヒックを教師付き方式でセグメントに分割し,よりコンテキスト情報を活用し,高精度で連続的な予測を行う。 TrajYOLOとTrajSSDという2つのフレームワークがレグレッションタスクを解決するために提案され、さまざまな機能抽出バックボーンが利用される。 ジオライフデータセットの徹底的な実験により,歩行,自転車,バス,車,電車の5つのモードを識別した場合,提案手法の総合識別精度は0.853であった。 変化点検出については,リコールコストの低減により精度が向上する。 すべてのコードはhttps://github.com/RadetzkyLi/TrajYOLO-SSDで入手できる。

Identifying travelers' transportation modes is important in transportation science and location-based services. It's appealing for researchers to leverage GPS trajectory data to infer transportation modes with the popularity of GPS-enabled devices, e.g., smart phones. Existing studies frame this problem as classification task. The dominant two-stage studies divide the trip into single-one mode segments first and then categorize these segments. The over segmentation strategy and inevitable error propagation bring difficulties to classification stage and make optimizing the whole system hard. The recent one-stage works throw out trajectory segmentation entirely to avoid these by directly conducting point-wise classification for the trip, whereas leaving predictions dis-continuous. To solve above-mentioned problems, inspired by YOLO and SSD in object detection, we propose to reframe change point detection and segment classification as a unified regression task instead of the existing classification task. We directly regress coordinates of change points and classify associated segments. In this way, our method divides the trip into segments under a supervised manner and leverage more contextual information, obtaining predictions with high accuracy and continuity. Two frameworks, TrajYOLO and TrajSSD, are proposed to solve the regression task and various feature extraction backbones are exploited. Exhaustive experiments on GeoLife dataset show that the proposed method has competitive overall identification accuracy of 0.853 when distinguishing five modes: walk, bike, bus, car, train. As for change point detection, our method increases precision at the cost of drop in recall. All codes are available at https://github.com/RadetzkyLi/TrajYOLO-SSD.
翻訳日:2023-12-11 16:08:28 公開日:2023-12-08
# 解釈可能な水中ダイビングジェスチャ認識

Interpretable Underwater Diver Gesture Recognition ( http://arxiv.org/abs/2312.04874v1 )

ライセンス: Link先を確認
Sudeep Mangalvedhekar, Shreyas Nahar, Sudarshan Maskare, Kaushal Mahajan, Dr. Anant Bagade(参考訳) 近年,自律型水中車両の利用と利用が急速に増加している。 ダイバーとAUVの相互作用は、様々な用途におけるAUVの使用に不可欠な部分であり、堅牢で効率的な水中ジェスチャー認識システムの構築を極めて重要にしている。 本稿では,このデータセット上で98.01\%の精度を達成できる深層学習を用いて,認知自律的な潜水行動データセットに基づいて訓練された水中ジェスチャー認識システムを提案する。 また,xai技術を用いてモデルの予測を可視化することで,ジェスチャ認識システムの解釈性を向上させる。

In recent years, usage and applications of Autonomous Underwater Vehicles has grown rapidly. Interaction of divers with the AUVs remains an integral part of the usage of AUVs for various applications and makes building robust and efficient underwater gesture recognition systems extremely important. In this paper, we propose an Underwater Gesture Recognition system trained on the Cognitive Autonomous Diving Buddy Underwater gesture dataset using deep learning that achieves 98.01\% accuracy on the dataset, which to the best of our knowledge is the best performance achieved on this dataset at the time of writing this paper. We also improve the Gesture Recognition System Interpretability by using XAI techniques to visualize the model's predictions.
翻訳日:2023-12-11 16:01:05 公開日:2023-12-08
# 効率的な変化検出のための適応型視覚変換器

Adapting Vision Transformer for Efficient Change Detection ( http://arxiv.org/abs/2312.04869v1 )

ライセンス: Link先を確認
Yang Zhao, Yuxiang Zhang, Yanni Dong, Bo Du(参考訳) 視覚トランスフォーマーに基づくほとんどの変更検出モデルは、現在"事前訓練と微調整"戦略に従っている。 これは、大規模な分類データセットを使用してモデル重みを初期化することを含み、これは自然画像かリモートセンシング画像のいずれかである。 しかし、そのようなモデルを完全にチューニングするにはかなりの時間とリソースが必要である。 本稿では,プリトレーニングされた画像エンコーダのパラメータを凍結し,追加のトレーニングパラメータを導入する効率的なチューニング手法を提案する。 このアプローチを通じて、私たちは6つの変更検出ベンチマークで非常に低いリソース消費を維持しながら、競争力やより良い結果を得ました。 例えば、変更検出ベンチマークであるLEVIR-CDのトレーニング時間は、9GBのメモリ使用量で30分に過ぎず、ほとんどの研究者にとって非常に便利である。 さらに、分離されたチューニングフレームワークは、セマンティックチェンジ検出とマルチテンポラリチェンジ検出のための事前訓練されたモデルにも拡張することができる。 今後,我々の提案したアプローチが,より統一されたトレーニングアプローチを刺激する基盤モデルの一部として機能することを願っている。

Most change detection models based on vision transformers currently follow a "pretraining then fine-tuning" strategy. This involves initializing the model weights using large scale classification datasets, which can be either natural images or remote sensing images. However, fully tuning such a model requires significant time and resources. In this paper, we propose an efficient tuning approach that involves freezing the parameters of the pretrained image encoder and introducing additional training parameters. Through this approach, we have achieved competitive or even better results while maintaining extremely low resource consumption across six change detection benchmarks. For example, training time on LEVIR-CD, a change detection benchmark, is only half an hour with 9 GB memory usage, which could be very convenient for most researchers. Additionally, the decoupled tuning framework can be extended to any pretrained model for semantic change detection and multi temporal change detection as well. We hope that our proposed approach will serve as a part of foundational model to inspire more unified training approaches on change detection in the future.
翻訳日:2023-12-11 16:00:54 公開日:2023-12-08
# handdiffuse:拡散モデルによる双方向インタラクション生成制御

HandDiffuse: Generative Controllers for Two-Hand Interactions via Diffusion Models ( http://arxiv.org/abs/2312.04867v1 )

ライセンス: Link先を確認
Pei Lin, Sihang Xu, Hongdi Yang, Yiran Liu, Xin Chen, Jingya Wang, Jingyi Yu, Lan Xu(参考訳) 既存のハンドデータセットは、主に短距離であり、手の動き生成の必要性に相応しい、自己閉塞と自己相似性のために相互作用が弱い。 データの不足を解消するために,強い双方向相互作用を持つ時間列からなる新しいデータセットであるHandDiffuse12.5Mを提案する。 HandDiffuse12.5Mは、既存の2手データセットの中で最大のスケールとリッチなインタラクションを持つ。 さらに,各種コントローラを用いた対話型手の制御可能な動作生成のための強力なベースライン手法HandDiffuseを提案する。 具体的には、拡散モデルをバックボーンとして適用し、異なるコントローラに対する2つのモーション表現を設計する。 人工物を減らすため,動的相互作用過程を明示的に定量化するインタラクション損失も提案する。 当社のハンドディフュースでは,双方向インタラクションの活発なアプリケーション,すなわちモーションインタッピングと軌道制御が実現されている。 実験により,本手法は動作生成における最先端技術よりも優れており,他のデータセットのデータ拡張にも寄与することが示された。 当社のデータセット、対応するコード、トレーニング済みのモデルは、双方向インタラクションモデリングに向けた今後の研究のためにコミュニティに広められます。

Existing hands datasets are largely short-range and the interaction is weak due to the self-occlusion and self-similarity of hands, which can not yet fit the need for interacting hands motion generation. To rescue the data scarcity, we propose HandDiffuse12.5M, a novel dataset that consists of temporal sequences with strong two-hand interactions. HandDiffuse12.5M has the largest scale and richest interactions among the existing two-hand datasets. We further present a strong baseline method HandDiffuse for the controllable motion generation of interacting hands using various controllers. Specifically, we apply the diffusion model as the backbone and design two motion representations for different controllers. To reduce artifacts, we also propose Interaction Loss which explicitly quantifies the dynamic interaction process. Our HandDiffuse enables various applications with vivid two-hand interactions, i.e., motion in-betweening and trajectory control. Experiments show that our method outperforms the state-of-the-art techniques in motion generation and can also contribute to data augmentation for other datasets. Our dataset, corresponding codes, and pre-trained models will be disseminated to the community for future research towards two-hand interaction modeling.
翻訳日:2023-12-11 16:00:38 公開日:2023-12-08
# StructComp: グラフコントラスト学習における構造圧縮による伝達の代替

StructComp: Substituting propagation with Structural Compression in Training Graph Contrastive Learning ( http://arxiv.org/abs/2312.04865v1 )

ライセンス: Link先を確認
Shengzhong Zhang, Wenjie Yang, Xinyuan Cao, Hongwei Zhang, Zengfeng Huang(参考訳) グラフ対比学習(GCL)はグラフデータ学習の強力なツールとなっているが、そのスケーラビリティは依然として大きな課題である。 本研究では,この問題を解決するために,構造圧縮(StructComp)と呼ばれるシンプルで効果的なトレーニングフレームワークを提案する。 拡散行列上の疎低ランク近似にインスパイアされたStructCompは、圧縮ノードでエンコーダを訓練する。 これにより、エンコーダはトレーニング期間中にメッセージパッシングを行わず、対照的な損失でサンプルペアの数を大幅に削減できる。 理論上は、オリジナルのgcl損失はstructcompによって計算されたコントラスト損失と近似できる。 さらに、StructCompはGCLモデルのさらなる正規化用語と見なすことができ、より堅牢なエンコーダとなる。 7つのベンチマークデータセットに関する実証研究によると、StructCompは、バニラGCLモデルやスケーラブルなトレーニング方法と比較して、モデルパフォーマンスを改善しながら、時間とメモリ消費を大幅に削減する。

Graph contrastive learning (GCL) has become a powerful tool for learning graph data, but its scalability remains a significant challenge. In this work, we propose a simple yet effective training framework called Structural Compression (StructComp) to address this issue. Inspired by a sparse low-rank approximation on the diffusion matrix, StructComp trains the encoder with the compressed nodes. This allows the encoder not to perform any message passing during the training stage, and significantly reduces the number of sample pairs in the contrastive loss. We theoretically prove that the original GCL loss can be approximated with the contrastive loss computed by StructComp. Moreover, StructComp can be regarded as an additional regularization term for GCL models, resulting in a more robust encoder. Empirical studies on seven benchmark datasets show that StructComp greatly reduces the time and memory consumption while improving model performance compared to the vanilla GCL models and scalable training methods.
翻訳日:2023-12-11 16:00:20 公開日:2023-12-08
# pca, t-sne, umapの可視化と分類による5gネットワークトラフィック侵入の臨界解析

Critical Analysis of 5G Networks Traffic Intrusion using PCA, t-SNE and UMAP Visualization and Classifying Attacks ( http://arxiv.org/abs/2312.04864v1 )

ライセンス: Link先を確認
Humera Ghani, Shahram Salekzamankhani, Bal Virdee(参考訳) ネットワーク、脅威モデル、悪意のあるアクターは急速に進歩している。 5Gネットワークの展開の増加に伴い、接続された5G物理デバイスのセキュリティ問題も増加した。 したがって、ネットワークトラフィックの異常を検出することによって、入ってくる脅威に対処できる人工知能ベースの自律的エンドツーエンドセキュリティ設計が必要である。 そこで本研究では,最近発表された5gトラヒックデータセットである5g-niddを用いて,機械学習とディープラーニングを用いたネットワークトラヒック異常の検出を行った。 まず、t-Distributed Stochastic Neighbor Embedding (t-SNE)、Uniform Manifold Approximation and Projection (UMAP)、Principal Component Analysis (PCA)の3つの可視化手法を用いてデータセットを分析した。 第2に、相互情報とPCA技術を用いてデータ次元を削減した。 第3に,マイノリティクラスの合成レコードを挿入することで,クラス不均衡問題を解決する。 最後に,6種類の分類器を用いて分類を行い,評価指標を提示した。 k-nearest neighbors分類器を用いた場合, 精度 (97.2%), 検出率 (96.7%), 偽陽性率 (2.2%) が最良であった。

Networks, threat models, and malicious actors are advancing quickly. With the increased deployment of the 5G networks, the security issues of the attached 5G physical devices have also increased. Therefore, artificial intelligence based autonomous end-to-end security design is needed that can deal with incoming threats by detecting network traffic anomalies. To address this requirement, in this research, we used a recently published 5G traffic dataset, 5G-NIDD, to detect network traffic anomalies using machine and deep learning approaches. First, we analyzed the dataset using three visualization techniques: t-Distributed Stochastic Neighbor Embedding (t-SNE), Uniform Manifold Approximation and Projection (UMAP), and Principal Component Analysis (PCA). Second, we reduced the data dimensionality using mutual information and PCA techniques. Third, we solve the class imbalance issue by inserting synthetic records of minority classes. Last, we performed classification using six different classifiers and presented the evaluation metrics. We received the best results when K-Nearest Neighbors classifier was used: accuracy (97.2%), detection rate (96.7%), and false positive rate (2.2%).
翻訳日:2023-12-11 16:00:01 公開日:2023-12-08
# 損害GAN:不均衡データの生成モデル

Damage GAN: A Generative Model for Imbalanced Data ( http://arxiv.org/abs/2312.04862v1 )

ライセンス: Link先を確認
Ali Anaissi, Yuanzhe Jia, Ali Braytee, Mohamad Naji, Widad Alyassine(参考訳) この研究は、不均衡データセットのコンテキストにおけるGAN(Generative Adversarial Networks)の適用について検討する。 我々の主な目的は、そのようなデータセットにおけるGANの性能と安定性を高めることである。 この目的を追求するため,我々はコントラD GANフレームワークを基盤として,GANとコントラスト学習をシームレスに統合した新しいネットワークアーキテクチャである損傷GANを導入する。 対照学習の利用により、判別器は提供されたすべてのサンプルを識別できる教師なし表現を開発するように訓練される。 このアプローチは,視覚表現(simclr)のコントラスト学習のための直接的なフレームワークからインスピレーションを得て,特徴的損失関数の定式化に繋がる。 また、ContraD GANモデルをさらに最適化するために、自己損傷型コントラスト学習(SDCLR)の実装についても検討する。 深部畳み込みGAN (DCGAN) やContraD GAN (ContraD GAN) を含むベースラインモデルとの比較評価により,不均衡データセットに適用した場合の画像分布,モデル安定性,画像品質の面で,提案モデルである損傷GANの明らかな優位性を示す。

This study delves into the application of Generative Adversarial Networks (GANs) within the context of imbalanced datasets. Our primary aim is to enhance the performance and stability of GANs in such datasets. In pursuit of this objective, we introduce a novel network architecture known as Damage GAN, building upon the ContraD GAN framework which seamlessly integrates GANs and contrastive learning. Through the utilization of contrastive learning, the discriminator is trained to develop an unsupervised representation capable of distinguishing all provided samples. Our approach draws inspiration from the straightforward framework for contrastive learning of visual representations (SimCLR), leading to the formulation of a distinctive loss function. We also explore the implementation of self-damaging contrastive learning (SDCLR) to further enhance the optimization of the ContraD GAN model. Comparative evaluations against baseline models including the deep convolutional GAN (DCGAN) and ContraD GAN demonstrate the evident superiority of our proposed model, Damage GAN, in terms of generated image distribution, model stability, and image quality when applied to imbalanced datasets.
翻訳日:2023-12-11 15:59:39 公開日:2023-12-08
# 自律走行におけるレーダー知覚:異なるデータ表現の探索

Radar Perception in Autonomous Driving: Exploring Different Data Representations ( http://arxiv.org/abs/2312.04861v1 )

ライセンス: Link先を確認
Shanliang Yao, Runwei Guan, Zitian Peng, Chenhang Xu, Yilu Shi, Yong Yue, Eng Gee Lim, Hyungjoon Seo, Ka Lok Man, Xiaohui Zhu, Yutao Yue(参考訳) センサー技術とディープラーニングの急速な進歩により、自動運転システムはインテリジェントな輸送だけでなく、インテリジェントな車両にも安全かつ効率的なアクセスを提供する。 これらの装備されたセンサーのうち、レーダーセンサーは多様な環境条件においてロバストな知覚情報を提供する上で重要な役割を担っている。 このレビューでは、自律運転システムで使用される異なるレーダーデータ表現の探索に焦点を当てる。 まず,レーダ知覚の動作原理とレーダ計測の信号処理を検証し,レーダセンサの機能と限界を紹介する。 次に、ADC信号、レーダーテンソル、点雲、グリッドマップ、マイクロドップラーシグネチャを含む5つのレーダ表現の生成過程を探索する。 各レーダ表現について、関連するデータセット、方法、利点、限界について検討する。 さらに,これらのデータ表現における課題について議論し,今後の研究方向性を提案する。 この総合的なレビューは、これらの表現が自律システムの能力をどのように強化するかを詳細に把握し、レーダー知覚研究者のためのガイダンスを提供する。 異なるデータ表現、データセット、メソッドの検索と比較を容易にするため、https://radar-camera-fusion.github.io/radar.comでインタラクティブなWebサイトを提供する。

With the rapid advancements of sensor technology and deep learning, autonomous driving systems are providing safe and efficient access to intelligent vehicles as well as intelligent transportation. Among these equipped sensors, the radar sensor plays a crucial role in providing robust perception information in diverse environmental conditions. This review focuses on exploring different radar data representations utilized in autonomous driving systems. Firstly, we introduce the capabilities and limitations of the radar sensor by examining the working principles of radar perception and signal processing of radar measurements. Then, we delve into the generation process of five radar representations, including the ADC signal, radar tensor, point cloud, grid map, and micro-Doppler signature. For each radar representation, we examine the related datasets, methods, advantages and limitations. Furthermore, we discuss the challenges faced in these data representations and propose potential research directions. Above all, this comprehensive review offers an in-depth insight into how these representations enhance autonomous system capabilities, providing guidance for radar perception researchers. To facilitate retrieval and comparison of different data representations, datasets and methods, we provide an interactive website at https://radar-camera-fusion.github.io/radar.
翻訳日:2023-12-11 15:59:16 公開日:2023-12-08
# テスト中か、テスト中か? ソフトウェアテストにおける大規模言語モデルの実践的応用を探る

Are We Testing or Being Tested? Exploring the Practical Applications of Large Language Models in Software Testing ( http://arxiv.org/abs/2312.04860v1 )

ライセンス: Link先を確認
Robson Santos, Italo Santos, Cleyton Magalhaes, Ronnie de Souza Santos(参考訳) LLM(Large Language Model)は、文法的に正確な文、人間に似た段落、構文的に正確なコードスニペットを含むコヒーレントなコンテンツを生成する最先端の人工知能モデルである。 LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。 llmは要件分析やドキュメントといった従来の役割を越えて,テストケース生成をサポートすることが可能です。 そこで本研究では,産業現場におけるソフトウェアテストにおけるllmの実践的応用について検討する。 このような状況下では,既存のデータに頼るのではなく,横断的な調査を実施し,実作業環境,特に産業現場における実践者との関わりに関するデータ収集を行った。 収集したデータを分析し,分析するために定量的,定性的手法を適用した。 その結果、llmはテスト文書を効果的に強化し、デバッグやテストケース自動化のようなプログラミングタスクのプロフェッショナルを著しく支援できることがわかりました。 LLMは、コーディングが必要な手動テストに従事する個人をサポートすることができる。 しかしながら、この初期段階において、ソフトウェアテスティングの専門家は、これらのツールを安全に採用するために、明確に定義されたメソッドやガイドラインが構築されている間、慎重にLSMを使用するべきであることを強調することが重要です。

A Large Language Model (LLM) represents a cutting-edge artificial intelligence model that generates coherent content, including grammatically precise sentences, human-like paragraphs, and syntactically accurate code snippets. LLMs can play a pivotal role in software development, including software testing. LLMs go beyond traditional roles such as requirement analysis and documentation and can support test case generation, making them valuable tools that significantly enhance testing practices within the field. Hence, we explore the practical application of LLMs in software testing within an industrial setting, focusing on their current use by professional testers. In this context, rather than relying on existing data, we conducted a cross-sectional survey and collected data within real working contexts, specifically, engaging with practitioners in industrial settings. We applied quantitative and qualitative techniques to analyze and synthesize our collected data. Our findings demonstrate that LLMs effectively enhance testing documents and significantly assist testing professionals in programming tasks like debugging and test case automation. LLMs can support individuals engaged in manual testing who need to code. However, it is crucial to emphasize that, at this early stage, software testing professionals should use LLMs with caution while well-defined methods and guidelines are being built for the secure adoption of these tools.
翻訳日:2023-12-11 15:58:56 公開日:2023-12-08
# Wirtinger Calculusの簡単なチュートリアルと量子情報への応用

A short tutorial on Wirtinger Calculus with applications in quantum information ( http://arxiv.org/abs/2312.04858v1 )

ライセンス: Link先を確認
Kelvin Koor, Yixian Qiu, Leong Chuan Kwek, Patrick Rebentrost(参考訳) システムパラメータの最適化は、科学と工学におけるユビキタスな問題である。 従来のアプローチでは、最適解を抽出するために、各パラメータに関して目的関数の部分微分をゼロに設定する。 しかし、システムパラメータは複雑な行列の形をとることが多い。 このような場合、従来の手法は扱いにくい。 Wirtinger Calculus' はそのような最適化問題に対する比較的単純な方法論を提供する。 本稿では,wirtinger calculusの教育的紹介を行う。 量子情報理論におけるこのフレームワークの有用性を説明するために、いくつかの応用例についても論じる。

The optimization of system parameters is a ubiquitous problem in science and engineering. The traditional approach involves setting to zero the partial derivatives of the objective function with respect to each parameter, in order to extract the optimal solution. However, the system parameters often take the form of complex matrices. In such situations, conventional methods become unwieldy. The `Wirtinger Calculus' provides a relatively simple methodology for such optimization problems. In this tutorial, we provide a pedagogical introduction to Wirtinger Calculus. To illustrate the utility of this framework in quantum information theory, we also discuss a few example applications.
翻訳日:2023-12-11 15:58:35 公開日:2023-12-08
# Apollo の Oracle: マルチエージェント議論における検索強化推論

Apollo's Oracle: Retrieval-Augmented Reasoning in Multi-Agent Debates ( http://arxiv.org/abs/2312.04854v1 )

ライセンス: Link先を確認
Haotian Wang, Xiyuan Du, Weijiang Yu, Qianglong Chen, Kun Zhu, Zheng Chu, Lian Yan, Yi Guan(参考訳) 多エージェント討論システムは、エージェント間の敵対的相互作用を通じて正確で一貫した結論を導き出すように設計されている。 しかし,これらのシステムは,(1) エージェントが不適切な視点に固執し,(2) 正しい視点を捨てる傾向を示す,認知的制約による課題にしばしば遭遇する。 これらの問題は、主にそのような議論の非効率性に責任がある。 認知的制約の課題に対処するため,新たな枠組みであるMulti-Agent Debate with Retrieval Augmented (MADRA)を導入する。 MADRAは、事前知識の検索を議論プロセスに取り入れ、認知的制約を効果的に破り、エージェントの推論能力を高める。 さらに,本フレームワーク内での自己選択モジュールの開発により,エージェントが関連する証拠を自律的に選択し,無関係データやノイズデータの影響を最小限に抑えることができる。 我々は6つの多様なデータセットでMADRAを総合的に検証し分析した。 実験の結果,提案手法は様々なタスクにまたがる性能を著しく向上させ,提案手法の有効性を実証した。

Multi-agent debate systems are designed to derive accurate and consistent conclusions through adversarial interactions among agents. However, these systems often encounter challenges due to cognitive constraints, manifesting as (1) agents' obstinate adherence to incorrect viewpoints and (2) their propensity to abandon correct viewpoints. These issues are primarily responsible for the ineffectiveness of such debates. Addressing the challenge of cognitive constraints, we introduce a novel framework, the Multi-Agent Debate with Retrieval Augmented (MADRA). MADRA incorporates retrieval of prior knowledge into the debate process, effectively breaking cognitive constraints and enhancing the agents' reasoning capabilities. Furthermore, we have developed a self-selection module within this framework, enabling agents to autonomously select pertinent evidence, thereby minimizing the impact of irrelevant or noisy data. We have comprehensively tested and analyzed MADRA across six diverse datasets. The experimental results demonstrate that our approach significantly enhances performance across various tasks, proving the effectiveness of our proposed method.
翻訳日:2023-12-11 15:58:28 公開日:2023-12-08
# DiffCMR : 拡散確率モデルを用いた高速心臓MRI

DiffCMR: Fast Cardiac MRI Reconstruction with Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.04853v1 )

ライセンス: Link先を確認
Tianqi Xiang, Wenjun Yue, Yiqun Lin, Jiewen Yang, Zhenkun Wang, Xiaomeng Li(参考訳) アンダーサンプリングされたk空間データからMRIを再構成することで、MRIスキャンの取得を加速し、患者の不快感を軽減することができる。 再建問題は、通常、アンダーサンプリングされたMRI画像スライスでノイズを取り除くデノナイジングタスクとして定式化される。 従来のGANベースの手法は画像復調において優れた性能を発揮しているが、訓練は困難であり、ハイパーパラメータの注意深いチューニングが必要である。 本稿では,条件付きデノナイズ拡散確率モデルを利用した新しいMRIデノナイズフレームワークDiffCMRを提案する。 具体的には、DiffCMRは、アンダーサンプルMRI画像スライスからコンディショニング信号を知覚し、対応するフルサンプルMRI画像スライスを生成する。 推論中、我々は性能を安定させるためにマルチラウンドのアンサンブル戦略を採用する。 我々は,MICCAI 2023 Cardiac MRI Reconstruction Challenge (CMRxRecon)データセットを用いたDiffCMRとT1/T2マッピングタスクの検証を行った。 その結果,従来の手法をはるかに超え,最先端の性能を実現することができた。 コードはhttps://github.com/xmed-lab/DiffCMRで入手できる。

Performing magnetic resonance imaging (MRI) reconstruction from under-sampled k-space data can accelerate the procedure to acquire MRI scans and reduce patients' discomfort. The reconstruction problem is usually formulated as a denoising task that removes the noise in under-sampled MRI image slices. Although previous GAN-based methods have achieved good performance in image denoising, they are difficult to train and require careful tuning of hyperparameters. In this paper, we propose a novel MRI denoising framework DiffCMR by leveraging conditional denoising diffusion probabilistic models. Specifically, DiffCMR perceives conditioning signals from the under-sampled MRI image slice and generates its corresponding fully-sampled MRI image slice. During inference, we adopt a multi-round ensembling strategy to stabilize the performance. We validate DiffCMR with cine reconstruction and T1/T2 mapping tasks on MICCAI 2023 Cardiac MRI Reconstruction Challenge (CMRxRecon) dataset. Results show that our method achieves state-of-the-art performance, exceeding previous methods by a significant margin. Code is available at https://github.com/xmed-lab/DiffCMR.
翻訳日:2023-12-11 15:58:09 公開日:2023-12-08
# fredsum: フランスの政治討論のための対話要約コーパス

FREDSum: A Dialogue Summarization Corpus for French Political Debates ( http://arxiv.org/abs/2312.04843v1 )

ライセンス: Link先を確認
Virgile Rennard, Guokan Shang, Damien Grari, Julie Hunter, Michalis Vazirgiannis(参考訳) 近年のディープラーニング,特にエンコーダデコーダアーキテクチャの発明は,抽象的な要約システムの性能を大幅に向上させた。 しかし、多くの研究は文書に焦点を合わせており、多人数の対話要約の問題を無視している。 本稿では,多言語対話要約のための資源強化を目的としたフランスの政治討論のデータセットを提案する。 われわれのデータセットは、手書きと注釈付き政治討論から成り、さまざまなトピックや視点をカバーしている。 本稿では,正確かつ効果的な対話要約モデルの訓練における高品質な書き起こしと注釈の重要性を強調し,非英語言語における対話要約を支援するための多言語資源の必要性を強調する。 また,最先端手法によるベースライン実験も実施し,対話要約の分野を推し進めるため,この分野のさらなる研究を奨励する。 私たちのデータセットは、研究コミュニティによって公開されています。

Recent advances in deep learning, and especially the invention of encoder-decoder architectures, has significantly improved the performance of abstractive summarization systems. The majority of research has focused on written documents, however, neglecting the problem of multi-party dialogue summarization. In this paper, we present a dataset of French political debates for the purpose of enhancing resources for multi-lingual dialogue summarization. Our dataset consists of manually transcribed and annotated political debates, covering a range of topics and perspectives. We highlight the importance of high quality transcription and annotations for training accurate and effective dialogue summarization models, and emphasize the need for multilingual resources to support dialogue summarization in non-English languages. We also provide baseline experiments using state-of-the-art methods, and encourage further research in this area to advance the field of dialogue summarization. Our dataset will be made publicly available for use by the research community.
翻訳日:2023-12-11 15:57:51 公開日:2023-12-08
# 分裂型ニューロモルフィックシステムにおける断層要素の影響の解析

Analysis on Effects of Fault Elements in Memristive Neuromorphic Systems ( http://arxiv.org/abs/2312.04840v1 )

ライセンス: Link先を確認
Hyun-Jong Lee, Jae-Han Lim(参考訳) 近年、スパイキングニューラルネットワーク(SNN)に基づくニューロモーフィックシステムは、多くの研究者の注目を集めている。 ニューロモルフィックシステムの性能を改善するための多くの研究がある。 これらの研究は満足な結果を示している。 ニューロモルフィックシステムの性能を拡大するには、実際のニューロモルフィックシステムの開発が不可欠である。 それらの発達のために、memristorはその有用な特性のために重要な役割を果たす。 memristorは実際の神経形態システムにとって必須であるが、それらは障害に対して脆弱である。 しかし、memristorsを用いた神経形態形成系における障害要素の影響を分析する研究は少ない。 そこで本研究では,断層要素が故障率,タイプ,位置を変化させた記憶型ニューロモルフィックシステムの性能解析を行う。 障害を注入するためにニューロンとシナプスを選択します。 SA0とSA1の2種類の障害をシナプスに注入する。 断層シナプスはランダムで重要な位置に存在する。 分析の結果,以下の4点が明らかになった。 第一に、経験的特徴は、障害要素に対するニューロモルフィックシステムの脆弱性を増加させる。 第2に、性能を著しく低下させる断層ニューロン比が存在する。 第三に、フォールトシナプスによる性能劣化はフォールトタイプに依存する。 最後に、sa1フォールトシナプスは重要な位置に現れるとパフォーマンスが向上する。

Nowadays, neuromorphic systems based on Spiking Neural Networks (SNNs) attract attentions of many researchers. There are many studies to improve performances of neuromorphic systems. These studies have been showing satisfactory results. To magnify performances of neuromorphic systems, developing actual neuromorphic systems is essential. For developing them, memristors play key role due to their useful characteristics. Although memristors are essential for actual neuromorphic systems, they are vulnerable to faults. However, there are few studies analyzing effects of fault elements in neuromorphic systems using memristors. To solve this problem, we analyze performance of a memristive neuromorphic system with fault elements changing fault ratios, types, and positions. We choose neurons and synapses to inject faults. We inject two types of faults to synapses: SA0 and SA1 faults. The fault synapses appear in random and important positions. Through our analysis, we discover the following four interesting points. First, memristive characteristics increase vulnerability of neuromorphic systems to fault elements. Second, fault neuron ratios reducing performance sharply exist. Third, performance degradation by fault synapses depends on fault types. Finally, SA1 fault synapses improve performance when they appear in important positions.
翻訳日:2023-12-11 15:57:36 公開日:2023-12-08
# 中学生教室におけるAIリテラシーカリキュラム導入後の教師の視点と経験

Understanding Teacher Perspectives and Experiences after Deployment of AI Literacy Curriculum in Middle-school Classrooms ( http://arxiv.org/abs/2312.04839v1 )

ライセンス: Link先を確認
Prerna Ravi, Annalisa Broski, Glenda Stump, Hal Abelson, Eric Klopfer, Cynthia Breazeal(参考訳) 人工知能(ai)とその関連アプリケーションは、今日の世界においてユビキタスであり、生徒とその教師が、その動作方法と、その使用から生じる影響を理解することが不可欠である。 本研究では,MIT RAICA(Responsible AI for Computational Action)カリキュラムのモジュール実装後の7人の教師の経験について検討する。 半構造化インタビューを通じて,授業中のaiカリキュラムに携わる指導戦略,カリキュラムでaiに関する指導と学習の信念がどう進化したか,そしてこれらの信念がカリキュラムの実施にどのように影響したかを検討した。 我々の分析によると、AIモジュールは、その分野における教師の知識を拡大するだけでなく、彼らの日々の応用と倫理的・社会的意味を認識し、学生に提供したコンテンツにより深く関与できるようにしている。 教師は自身の学際的背景を利用して、学生に基礎的なaiトピックを創造的に導入し、エンゲージメントと遊び心のある学習を最大化することができた。 教員は, 技術資源の移動, カリキュラムの新規性, カリキュラムのタイムラインの柔軟性向上, 留学生のための追加の配慮等において, より良い外的支援の必要性を示唆した。 我々の発見は、AIリテラシーカリキュラムと教師の専門的開発(PD)リソースの今後のイテレーションを強化するための貴重な洞察を提供する。

Artificial Intelligence (AI) and its associated applications are ubiquitous in today's world, making it imperative that students and their teachers understand how it works and the ramifications arising from its usage. In this study, we investigate the experiences of seven teachers following their implementation of modules from the MIT RAICA (Responsible AI for Computational Action) curriculum. Through semi-structured interviews, we investigated their instructional strategies as they engaged with the AI curriculum in their classroom, how their teaching and learning beliefs about AI evolved with the curriculum as well as how those beliefs impacted their implementation of the curriculum. Our analysis suggests that the AI modules not only expanded our teachers' knowledge in the field, but also prompted them to recognize its daily applications and their ethical and societal implications, so that they could better engage with the content they deliver to students. Teachers were able to leverage their own interdisciplinary backgrounds to creatively introduce foundational AI topics to students to maximize engagement and playful learning. Our teachers advocated their need for better external support when navigating technological resources, additional time for preparation given the novelty of the curriculum, more flexibility within curriculum timelines, and additional accommodations for students of determination. Our findings provide valuable insights for enhancing future iterations of AI literacy curricula and teacher professional development (PD) resources.
翻訳日:2023-12-11 15:57:23 公開日:2023-12-08
# データ効率非参照画像品質評価のための学習一般化された知覚表現

Learning Generalizable Perceptual Representations for Data-Efficient No-Reference Image Quality Assessment ( http://arxiv.org/abs/2312.04838v1 )

ライセンス: Link先を確認
Suhas Srinath, Shankhanil Mitra, Shika Rao and Rajiv Soundararajan(参考訳) no-reference (NR) Image Quality Assessment (IQA) は多様な視覚アプリケーションにおけるユーザエクスペリエンスを高める重要なツールである。 最先端のNR-IQA技術の大きな欠点は、ターゲットのIQAアプリケーションのためのモデルをトレーニングするための多数の人間のアノテーションに依存していることである。 この要求を緩和するためには、様々な歪みを捉える一般化可能な品質表現の教師なし学習が必要である。 我々は,新しい品質認識型コントラスト損失を導入することで,歪み型に非依存な低品質特徴の学習を可能にする。 さらに,視覚言語モデルの汎用性を活用し,関連するテキストプロンプトから高レベル画像品質情報を抽出する。 2つの特徴セットを組み合わせて、ターゲットデータセットにごく少数のサンプルを持つ単純な回帰器をトレーニングすることで、品質を効果的に予測する。 さらに,両経路からのゼロショット品質予測を,完全に盲目な設定で設計する。 様々な歪みを含む多様なデータセットに対する実験により,データ効率およびゼロショット設定における特徴の一般化性と優れた性能を示す。 コードはhttps://github.com/suhas-srinath/grepqで入手できる。

No-reference (NR) image quality assessment (IQA) is an important tool in enhancing the user experience in diverse visual applications. A major drawback of state-of-the-art NR-IQA techniques is their reliance on a large number of human annotations to train models for a target IQA application. To mitigate this requirement, there is a need for unsupervised learning of generalizable quality representations that capture diverse distortions. We enable the learning of low-level quality features agnostic to distortion types by introducing a novel quality-aware contrastive loss. Further, we leverage the generalizability of vision-language models by fine-tuning one such model to extract high-level image quality information through relevant text prompts. The two sets of features are combined to effectively predict quality by training a simple regressor with very few samples on a target dataset. Additionally, we design zero-shot quality predictions from both pathways in a completely blind setting. Our experiments on diverse datasets encompassing various distortions show the generalizability of the features and their superior performance in the data-efficient and zero-shot settings. Code will be made available at https://github.com/suhas-srinath/GRepQ.
翻訳日:2023-12-11 15:56:58 公開日:2023-12-08
# BELT: 昔ながらのバックドア攻撃は、バックドアの排他的リフティングで最先端の防御を回避できる

BELT: Old-School Backdoor Attacks can Evade the State-of-the-Art Defense with Backdoor Exclusivity Lifting ( http://arxiv.org/abs/2312.04902v1 )

ライセンス: Link先を確認
Huming Qiu, Junjie Sun, Mi Zhang, Xudong Pan, Min Yang(参考訳) ディープニューラルネットワーク(DNN)はバックドア攻撃の影響を受けやすく、悪意のある機能を組み込んで攻撃者が誤った分類をトリガーできるようにする。 旧来のバックドア攻撃は、被害者モデルで容易に学習できる強力なトリガー機能を使用する。 入力変動に対する堅牢性にもかかわらず、ロバスト性は意図しないトリガー活性化の可能性を高める。 これは既存の防御を辿り、例えばリバースエンジニアリングやサンプルオーバーレイなどを通じてバックドアと同一でないようにバックドアを活性化できる元のトリガーの近似的な置き換えを見つける。 本稿では,バックドア攻撃の新たな特徴,すなわち,入力変動の存在下で有効なバックドアトリガの能力を測定する,バックドア攻撃の新たな特徴について検討する。 バックドア排他性の概念に基づいて,バックドア排他性向上のためのバックドア排他性を高めるために,バックドアとファジィトリガーの関係を抑制する新しい手法であるバックドア排他性向上法を提案する。 3つの人気のあるバックドアベンチマークの広範な評価が検証されている。このアプローチは、4つの古いバックドア攻撃のステルス性を大幅に向上させ、バックドアの独占解除後に攻撃成功率と正常なユーティリティのコストをほとんど必要とせずに、6つの最先端バックドア対策を回避できる。 例えば、初期のバックドア攻撃の1つは、BELTによって強化されたBadNetで、バックドアモデルを認識するABSやMOTHを含む最先端の防御を回避している。

Deep neural networks (DNNs) are susceptible to backdoor attacks, where malicious functionality is embedded to allow attackers to trigger incorrect classifications. Old-school backdoor attacks use strong trigger features that can easily be learned by victim models. Despite robustness against input variation, the robustness however increases the likelihood of unintentional trigger activations. This leaves traces to existing defenses, which find approximate replacements for the original triggers that can activate the backdoor without being identical to the original trigger via, e.g., reverse engineering and sample overlay. In this paper, we propose and investigate a new characteristic of backdoor attacks, namely, backdoor exclusivity, which measures the ability of backdoor triggers to remain effective in the presence of input variation. Building upon the concept of backdoor exclusivity, we propose Backdoor Exclusivity LifTing (BELT), a novel technique which suppresses the association between the backdoor and fuzzy triggers to enhance backdoor exclusivity for defense evasion. Extensive evaluation on three popular backdoor benchmarks validate, our approach substantially enhances the stealthiness of four old-school backdoor attacks, which, after backdoor exclusivity lifting, is able to evade six state-of-the-art backdoor countermeasures, at almost no cost of the attack success rate and normal utility. For example, one of the earliest backdoor attacks BadNet, enhanced by BELT, evades most of the state-of-the-art defenses including ABS and MOTH which would otherwise recognize the backdoored model.
翻訳日:2023-12-11 15:50:11 公開日:2023-12-08
# 目撃者からの絡み合いの量に縛られること

Bounding the amount of entanglement from witness operators ( http://arxiv.org/abs/2312.04897v1 )

ライセンス: Link先を確認
Liang-Liang Sun, Xiang Zhou, Armin Tavakoli, Zhen-Peng Xu, Sixia Yu(参考訳) 本稿では, 絡み合った状態と分離可能な状態との操作的区別性を, 絡み合った証人から直接推定する手法を提案する。 この推定は、他のよく知られた絡み合い量化器の有界性も示している。 エンタングルメント推定のアプローチは、測定デバイス非依存のシナリオと完全にデバイス非依存のシナリオの両方に拡張され、非自明だが準最適境界が得られる。 この手順は数値最適化を必要とせず、計算が容易である。 これは実験者が標準的な絡み込みの目撃手順から、検出するだけでなく、定量化する方法を提供する。

We present an approach to estimate the operational distinguishability between an entangled state and any separable state directly from measuring an entanglement witness. We show that this estimation also implies bounds on a variety of other well-known entanglement quantifiers. This approach for entanglement estimation is then extended to to both the measurement-device-independent scenario and the fully device-independent scenario, where we obtain non-trivial but sub-optimal bounds. The procedure requires no numerical optimization and is easy to compute. It offers ways for experimenters to not only detect, but also quantify, entanglement from the standard entanglement witness procedure.
翻訳日:2023-12-11 15:49:38 公開日:2023-12-08
# 損失に基づく再サンプリングによるアノテーションフリーグループロバスト性

Annotation-Free Group Robustness via Loss-Based Resampling ( http://arxiv.org/abs/2312.04893v1 )

ライセンス: Link先を確認
Mahdi Ghaznavi, Hesam Asadollahzadeh, HamidReza Yaghoubi Araghi, Fahimeh Hosseini Noohdani, Mohammad Hossein Rohban and Mahdieh Soleymani Baghshah(参考訳) 経験的リスク最小化(erm)による画像分類のためのニューラルネットワークのトレーニングは、予測のための因果的属性ではなくスプリアス属性に依存することに対して脆弱であることはよく知られている。 これまで、DFR(Deep Feature Re-weighting)は、スプリアス特性に関するバランスのとれたデータに基づいて、事前訓練されたネットワークの最後の層をトレーニングすることを提案した。 しかし、スプリアス属性アノテーションは必ずしも利用できない。 そこで,このようなアノテーションを使わずにグループロバスト性を実現するために,訓練データの左端分割によるerm事前学習モデルの評価により,データのグループ化を推定するロスベース特徴重み付け(lfr)という新しい手法を提案する。 そして、誤って分類されたデータポイントから高損失サンプルを選択し、正しく分類されたデータポイントから低損失サンプルを選択する。 最後に、選択した平衡群の最後の層をトレーニングし、モデルがスプリアス相関に頑健になるようにした。 水鳥とCelebAデータセットの様々なバージョンにおけるLFRを,様々なスプリケートな相関関係で評価し,このモデルの性能を広範囲のスプリケートレートで観察する新しい手法を提案する。 LFRは非常に高速で単純であるが、トレーニングデータに急激な相関がある場合、グループラベルの可用性を前提としない従来の手法や、グループアノテーションを提供するDFRよりも優れている。

It is well-known that training neural networks for image classification with empirical risk minimization (ERM) makes them vulnerable to relying on spurious attributes instead of causal ones for prediction. Previously, deep feature re-weighting (DFR) has proposed retraining the last layer of a pre-trained network on balanced data concerning spurious attributes, making it robust to spurious correlation. However, spurious attribute annotations are not always available. In order to provide group robustness without such annotations, we propose a new method, called loss-based feature re-weighting (LFR), in which we infer a grouping of the data by evaluating an ERM-pre-trained model on a small left-out split of the training data. Then, a balanced number of samples is chosen by selecting high-loss samples from misclassified data points and low-loss samples from correctly-classified ones. Finally, we retrain the last layer on the selected balanced groups to make the model robust to spurious correlation. For a complete assessment, we evaluate LFR on various versions of Waterbirds and CelebA datasets with different spurious correlations, which is a novel technique for observing the model's performance in a wide range of spuriosity rates. While LFR is extremely fast and straightforward, it outperforms the previous methods that do not assume group label availability, as well as the DFR with group annotations provided, in cases of high spurious correlation in the training data.
翻訳日:2023-12-11 15:49:27 公開日:2023-12-08
# 着想的ポテンシャルによる多体状態のフロッケ工学

Floquet engineering of many-body states by the Ponderomotive potential ( http://arxiv.org/abs/2312.04892v1 )

ライセンス: Link先を確認
Zhiyuan Sun(参考訳) ポンデロモーティブ力(英: ponderomotive force)は、粒子が振動する場で感じる静的な二次力であり、その静的ポテンシャルはポンデロモーティブポテンシャル(英: ponderomotive potential)と呼ばれる。 この概念を、周期的に駆動される量子多体系における一般自由度のために一般化し、単一粒子レベルを超えた非平衡定常状態を設計するための便利なツールとして提案する。 光によって駆動される材料に応用すると、ポンデロモティブポテンシャルは共鳴に近い光伝導度と密接に関連している。 入射光からの電顕的ポテンシャルは、半導体中の励起子凝縮を誘導し、ある電子-フォノン系で超伝導につながる魅力的な相互作用を生成し、電荷/スピン/電子子秩序を持つ系で追加の自由エネルギーミニマを作成するのに利用できる。 これらの効果は、超高速実験で容易に検証できるような現実的なパラメータに対して示される。

The Ponderomotive force is a static second order force that a particle feels in an oscillating field, whose static potential may be called the Ponderomotive potential. We generalize this notion to that for generic degrees of freedom in periodically driven quantum many-body systems, and propose it as a convenient tool to engineer the non-equilibrium steady states beyond the single particle level. Applied to materials driven by light, the Ponderomotive potential is intimately related to the optical conductivity, which is enhanced close to resonances. We show that the Ponderomotive potential from the incident light may be used to induce exciton condensates in semiconductors, to generate attractive interactions leading to superconductivity in certain electron-phonon systems, and to create additional free energy minima in systems with charge/spin/excitonic orders. These effects are shown for realistic parameters such that they can be readily verified in ultrafast experiments.
翻訳日:2023-12-11 15:48:58 公開日:2023-12-08
# 点雲予知のためのクロスバースト

Cross-BERT for Point Cloud Pretraining ( http://arxiv.org/abs/2312.04891v1 )

ライセンス: Link先を確認
Xin Li, Peng Li, Zeyong Wei, Zhe Zhu, Mingqiang Wei, Junhui Hou, Liangliang Nan, Jing Qin, Haoran Xie, and Fu Lee Wang(参考訳) BERTをクロスモーダル設定に導入することは、複数のモダリティを扱う最適化において困難を生じさせる。 BERTアーキテクチャとトレーニング目的の両方を、異なるモダリティからの情報を組み込んでモデル化する必要がある。 本稿では,同じオブジェクト/シーンの2次元データと3次元データ間の暗黙的意味と幾何学的相関を探索することにより,これらの課題に対処する。 我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。 不規則でスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進する。 ポイントイメージアライメント(Point-Image Alignment)と呼ばれる最初のタスクは、2Dモダリティと3Dモダリティの対応を捉えるために、非モーダル表現とクロスモーダル表現を並べ合わせることを目的としている。 第2のタスクであるMasked Cross-modal Modelingは、クロスモーダル相互作用によって得られる高次元の意味情報を組み込むことで、BERTのマスクモデリングをさらに改善する。 クロスモーダルなインタラクションを実行することで、Cross-BERTは事前トレーニング中にマスクされたトークンをスムーズに再構築することができる。 実験により,Cross-BERTは3次元下流アプリケーションにおいて既存の最先端手法よりも優れていることを示す。 本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。

Introducing BERT into cross-modal settings raises difficulties in its optimization for handling multiple modalities. Both the BERT architecture and training objective need to be adapted to incorporate and model information from different modalities. In this paper, we address these challenges by exploring the implicit semantic and geometric correlations between 2D and 3D data of the same objects/scenes. We propose a new cross-modal BERT-style self-supervised learning paradigm, called Cross-BERT. To facilitate pretraining for irregular and sparse point clouds, we design two self-supervised tasks to boost cross-modal interaction. The first task, referred to as Point-Image Alignment, aims to align features between unimodal and cross-modal representations to capture the correspondences between the 2D and 3D modalities. The second task, termed Masked Cross-modal Modeling, further improves mask modeling of BERT by incorporating high-dimensional semantic information obtained by cross-modal interaction. By performing cross-modal interaction, Cross-BERT can smoothly reconstruct the masked tokens during pretraining, leading to notable performance enhancements for downstream tasks. Through empirical evaluation, we demonstrate that Cross-BERT outperforms existing state-of-the-art methods in 3D downstream applications. Our work highlights the effectiveness of leveraging cross-modal 2D knowledge to strengthen 3D point cloud representation and the transferable capability of BERT across modalities.
翻訳日:2023-12-11 15:48:38 公開日:2023-12-08
# KwaiAgents:大規模言語モデルを用いた汎用情報探索エージェントシステム

KwaiAgents: Generalized Information-seeking Agent System with Large Language Models ( http://arxiv.org/abs/2312.04889v1 )

ライセンス: Link先を確認
Haojie Pan, Zepeng Zhai, Hao Yuan, Yaojia Lv, Ruiji Fu, Ming Liu, Zhongyuan Wang, Bing Qin(参考訳) 好奇心に駆られ、人間は周囲の世界を探究し、理解し続け、この不審さを満足させる様々な道具が発明された。 大量の情報を脳に処理し記憶する能力がないにもかかわらず、人間は批判的な思考、計画、リフレクション、利用可能なツールを使って世界と対話し、解釈し、効率的に答えを見つけることができる。 近年の大規模言語モデル(LLM)の進歩は、マシンが前述の人間のような能力を持つ可能性を示し、制約されたパラメータ数でも強力な能力を発揮することを示唆している。 本稿では,llmsに基づく汎用情報検索エージェントシステムであるkwaiagentsについて紹介する。 kwaiagents内では、llmsを認知コアとして使用し、ユーザのクエリや行動ガイドラインを理解し、外部ドキュメントを参照可能なエージェントシステムを提案する。 エージェントは、内部メモリから情報を更新し、取得し、タイムアウェアな検索・バッファーツールキットを使用してアクションを計画し、実行し、最終的に包括的な応答を提供する。 さらに, GPT-4 よりも低出力の LLM を用いた場合のシステム性能について検討し, オープンソース 7B や 13B モデルでさえ,多くのエージェントシステムで良好に動作するように設計された Meta-Agent Tuning (MAT) フレームワークを導入する。 我々は、ベンチマークとヒューマン評価の両方を利用して、これらの能力を体系的に検証する。 広範囲な実験により、他の自律エージェントと比較してエージェントシステムの優位性が示され、微調整LDMの汎用エージェント能力の向上が強調された。

Driven by curiosity, humans have continually sought to explore and understand the world around them, leading to the invention of various tools to satiate this inquisitiveness. Despite not having the capacity to process and memorize vast amounts of information in their brains, humans excel in critical thinking, planning, reflection, and harnessing available tools to interact with and interpret the world, enabling them to find answers efficiently. The recent advancements in large language models (LLMs) suggest that machines might also possess the aforementioned human-like capabilities, allowing them to exhibit powerful abilities even with a constrained parameter count. In this paper, we introduce KwaiAgents, a generalized information-seeking agent system based on LLMs. Within KwaiAgents, we propose an agent system that employs LLMs as its cognitive core, which is capable of understanding a user's query, behavior guidelines, and referencing external documents. The agent can also update and retrieve information from its internal memory, plan and execute actions using a time-aware search-browse toolkit, and ultimately provide a comprehensive response. We further investigate the system's performance when powered by LLMs less advanced than GPT-4, and introduce the Meta-Agent Tuning (MAT) framework, designed to ensure even an open-sourced 7B or 13B model performs well among many agent systems. We exploit both benchmark and human evaluations to systematically validate these capabilities. Extensive experiments show the superiority of our agent system compared to other autonomous agents and highlight the enhanced generalized agent-abilities of our fine-tuned LLMs.
翻訳日:2023-12-11 15:48:09 公開日:2023-12-08
# 低ノイズ近接同心光学空洞設計

Low Noise Near-Concentric Optical Cavity Design ( http://arxiv.org/abs/2312.04888v1 )

ライセンス: Link先を確認
Florentin Adam, Wen Xin Chiew, Adrian Nugraha Utama, Christian Kurtsiefer(参考訳) 近接共心キャビティは、小さなモードボリュームと大きな光学アクセスを組み合わせた原子-光相互作用を向上するための優れたツールである。 しかし、縦および横方向の誤用に敏感である。 この感度に対処するために, 残留キャビティ長変化$\delta l_{c, rms}$=36(9) pmの小型近心光学キャビティシステムを提案する。 このシステムの重要な部分は、縦および横方向の不一致を補正できるケージ状のテンセグリティミラー支持構造である。 このシステムは、キャビティQED応用における原子-光結合強度を高めるために、キャビティ微細度の高いミラーの使用を可能にするのに十分安定である。

Near-concentric cavities are excellent tools for enhancing atom--light interaction as they combine a small mode volume with a large optical access for atom manipulation. However, they are sensitive to longitudinal and transverse misalignment. To address this sensitivity, we present a compact near-concentric optical cavity system with a residual cavity length variation $\delta L_{C, rms}$=36(9) pm. A key part of this system is a cage-like tensegrity mirror support structure that allows to correct for longitudinal and transverse misalignment. The system is stable enough to allow the use of mirrors with higher cavity finesse to enhance the atom--light coupling strength in cavity-QED applications.
翻訳日:2023-12-11 15:47:41 公開日:2023-12-08
# VISAGE: 外観改善によるビデオインスタンスセグメンテーション

VISAGE: Video Instance Segmentation with Appearance-Guided Enhancement ( http://arxiv.org/abs/2312.04885v1 )

ライセンス: Link先を確認
Hanjung Kim, Jaehyun Kang, Miran Heo, Sukjun Hwang, Seoung Wug Oh, Seon Joo Kim(参考訳) 近年, オンラインビデオインスタンスセグメンテーション (VIS) 手法は, 強力なクエリベースの検出器によって著しく進歩している。 フレームレベルでの検出器の出力クエリを利用することで、挑戦的なベンチマークにおいて高い精度を実現する。 しかし,これらの手法が,曖昧さの解消に足りていない位置情報と一致しない位置情報に重く依存していることを観察した。 この問題に対処するため, 外観情報を明示的に活用し, インスタンス関連性を高めるVISAGEを提案する。 提案手法は,バックボーン特徴写像から外見を埋め込んだクエリを生成し,ロバストな関連付けのための単純なトラッカーとして利用する。 最後に,位置情報の過度な信頼の問題を解決することで複雑なシナリオにおける正確なマッチングを可能にし,複数のvisベンチマークで競合性能を実現する。 例えば、YTVIS19 と YTVIS21 では、54.5 AP と 50.8 AP を達成する。 さらに,既存のベンチマークでは十分に対応していない外観認識を強調するために,出現傾向を生かして他者よりも優れる合成データセットを生成する。 コードはhttps://github.com/kimhanjung/visageで入手できる。

In recent years, online Video Instance Segmentation (VIS) methods have shown remarkable advancement with their powerful query-based detectors. Utilizing the output queries of the detector at the frame level, these methods achieve high accuracy on challenging benchmarks. However, we observe the heavy reliance of these methods on the location information that leads to incorrect matching when positional cues are insufficient for resolving ambiguities. Addressing this issue, we present VISAGE that enhances instance association by explicitly leveraging appearance information. Our method involves a generation of queries that embed appearances from backbone feature maps, which in turn get used in our suggested simple tracker for robust associations. Finally, enabling accurate matching in complex scenarios by resolving the issue of over-reliance on location information, we achieve competitive performance on multiple VIS benchmarks. For instance, on YTVIS19 and YTVIS21, our method achieves 54.5 AP and 50.8 AP. Furthermore, to highlight appearance-awareness not fully addressed by existing benchmarks, we generate a synthetic dataset where our method outperforms others significantly by leveraging the appearance cue. Code will be made available at https://github.com/KimHanjung/VISAGE.
翻訳日:2023-12-11 15:47:29 公開日:2023-12-08
# UDiffText:文字認識拡散モデルによる任意画像の高品質テキスト合成のための統一フレームワーク

UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models ( http://arxiv.org/abs/2312.04884v1 )

ライセンス: Link先を確認
Yiming Zhao, Zhouhui Lian(参考訳) 近年,拡散モデルに基づくテキスト・ツー・イメージ(T2I)生成手法が注目されている。 これらの画像合成手法は視覚的に魅力的な結果を生み出すが、生成された画像内でテキストをレンダリングする際にスペルエラーが頻繁に発生する。 このような誤りは、誤り、誤り、または外部文字として現れ、拡散モデルに基づくテキスト画像生成の性能を著しく制限する。 上記の問題に対処するため,本研究では,事前学習した拡散モデル(安定拡散[27])を利用したテキスト画像生成手法を提案する。 提案手法では,従来のCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練を行い,条件付きガイダンスとしてより堅牢なテキスト埋め込みを提供する。 次に,文字レベルセグメンテーションマップの監督下に局所注意制御を組み込んだ大規模データセットを用いて拡散モデルを微調整する。 最後に, 任意の画像にテキストを合成する場合, 推定段階の精細化処理を用いることで, 特に高いシーケンス精度を実現する。 定性的かつ定量的な結果は,我々の手法が最先端技術であることを示すものである。 さらに,テキスト中心の画像合成やシーンテキスト編集など,提案するUDiffTextの潜在的な応用について紹介する。 コードとモデルはhttps://github.com/ZYM-PKU/UDiffTextで入手できる。

Text-to-Image (T2I) generation methods based on diffusion model have garnered significant attention in the last few years. Although these image synthesis methods produce visually appealing results, they frequently exhibit spelling errors when rendering text within the generated images. Such errors manifest as missing, incorrect or extraneous characters, thereby severely constraining the performance of text image generation based on diffusion models. To address the aforementioned issue, this paper proposes a novel approach for text image generation, utilizing a pre-trained diffusion model (i.e., Stable Diffusion [27]). Our approach involves the design and training of a light-weight character-level text encoder, which replaces the original CLIP encoder and provides more robust text embeddings as conditional guidance. Then, we fine-tune the diffusion model using a large-scale dataset, incorporating local attention control under the supervision of character-level segmentation maps. Finally, by employing an inference stage refinement process, we achieve a notably high sequence accuracy when synthesizing text in arbitrarily given images. Both qualitative and quantitative results demonstrate the superiority of our method to the state of the art. Furthermore, we showcase several potential applications of the proposed UDiffText, including text-centric image synthesis, scene text editing, etc. Code and model will be available at https://github.com/ZYM-PKU/UDiffText .
翻訳日:2023-12-11 15:47:11 公開日:2023-12-08
# グラフ表現学習におけるコミュニティバイアス増幅の理解

Understanding Community Bias Amplification in Graph Representation Learning ( http://arxiv.org/abs/2312.04883v1 )

ライセンス: Link先を確認
Shengzhong Zhang, Wenjie Yang, Yimin Zhang, Hongwei Zhang, Divin Yan, Zengfeng Huang(参考訳) 本研究では,グラフ表現学習におけるコミュニティバイアス増幅現象を発見し,グラフ表現学習によって異なるクラス間でのパフォーマンスバイアスが悪化することを示す。 我々は、新しいスペクトルの観点から、この現象の深い理論的研究を行う。 分析の結果,コミュニティ間の構造バイアスがノード埋め込みの局所収束速度の変化をもたらすことが示唆された。 この現象は下流タスクの分類結果にバイアス増幅をもたらす。 理論的知見に基づき,上記の問題に対処する上で有効であることが証明されたランダムグラフの粗化を提案する。 最後に,ランダム粗粒化をデータ拡張として活用し,粗粒化グラフと元のグラフを対比することによりコミュニティバイアスを軽減する,ランダムグラフ粗粒化比較学習(rgccl)と呼ばれる新しいグラフコントラスト学習モデルを提案する。 各種データセットに対する大規模な実験により,コミュニティバイアス増幅における手法の利点が示された。

In this work, we discover a phenomenon of community bias amplification in graph representation learning, which refers to the exacerbation of performance bias between different classes by graph representation learning. We conduct an in-depth theoretical study of this phenomenon from a novel spectral perspective. Our analysis suggests that structural bias between communities results in varying local convergence speeds for node embeddings. This phenomenon leads to bias amplification in the classification results of downstream tasks. Based on the theoretical insights, we propose random graph coarsening, which is proved to be effective in dealing with the above issue. Finally, we propose a novel graph contrastive learning model called Random Graph Coarsening Contrastive Learning (RGCCL), which utilizes random coarsening as data augmentation and mitigates community bias by contrasting the coarsened graph with the original graph. Extensive experiments on various datasets demonstrate the advantage of our method when dealing with community bias amplification.
翻訳日:2023-12-11 15:46:50 公開日:2023-12-08
# 英語・フランス語・ドイツ語・スペイン語における人文・AI文の分類

Classification of Human- and AI-Generated Texts for English, French, German, and Spanish ( http://arxiv.org/abs/2312.04882v1 )

ライセンス: Link先を確認
Kristina Schaaff, Tim Schlippe, Lorenz Mindner(参考訳) 本稿では、英語、フランス語、ドイツ語、スペイン語の人文およびAI生成テキストを分類し、言語間の比較を行う。 我々は,(1)AIが生成したテキストのスクラッチからの検出,(2)AIが書き起こしたテキストの検出の2つのシナリオについて検討する。 この多言語環境での分類器の訓練とテストのために、各言語について10のトピックをカバーする新しいテキストコーパスを作成しました。 AI生成テキストの検出では、提案されたすべての機能の組み合わせがベストであり、私たちの機能が他の関連言語に移植可能であることを示している。 aiリフレッシュされたテキストの検出には、多くのケースで、すべての機能が他の機能を持つシステムよりも優れているが、ドキュメント機能のみを使用すると、ドイツ語(72%)とスペイン語(86%)でパフォーマンスが向上し、テキストベクトル機能のみが英語で最高の結果をもたらす(78%)。

In this paper we analyze features to classify human- and AI-generated text for English, French, German and Spanish and compare them across languages. We investigate two scenarios: (1) The detection of text generated by AI from scratch, and (2) the detection of text rephrased by AI. For training and testing the classifiers in this multilingual setting, we created a new text corpus covering 10 topics for each language. For the detection of AI-generated text, the combination of all proposed features performs best, indicating that our features are portable to other related languages: The F1-scores are close with 99% for Spanish, 98% for English, 97% for German and 95% for French. For the detection of AI-rephrased text, the systems with all features outperform systems with other features in many cases, but using only document features performs best for German (72%) and Spanish (86%) and only text vector features leads to best results for English (78%).
翻訳日:2023-12-11 15:46:36 公開日:2023-12-08
# テキスト検索による予測化学

Predictive Chemistry Augmented with Text Retrieval ( http://arxiv.org/abs/2312.04881v1 )

ライセンス: Link先を確認
Yujie Qian, Zhening Li, Zhengkai Tu, Connor W. Coley, Regina Barzilay(参考訳) 本稿では,化学分野での予測モデルを強化するために,自然言語記述を使うことに着目する。 従来の化学情報学モデルは、文献から手作業で抽出した広範な構造化データを用いて訓練される。 本稿では,本論文から得られたテキストを用いて予測化学を直接拡張する新しい手法であるTextReactを紹介する。 TextReactは、所定の化学反応に関連するテキスト記述を取得し、それらを反応の分子的表現と整合させる。 このアライメントは、予測者訓練に組み込まれた補助マスクlm目標を介して強化される。 反応条件の推薦と1段階の逆合成という2つの化学課題の枠組みを実証的に検証した。 テキスト検索を活用することで、TextReactは分子データのみに基づいてトレーニングされた最先端のケモインフォマティクスモデルを大幅に上回る。

This paper focuses on using natural language descriptions to enhance predictive models in the chemistry field. Conventionally, chemoinformatics models are trained with extensive structured data manually extracted from the literature. In this paper, we introduce TextReact, a novel method that directly augments predictive chemistry with texts retrieved from the literature. TextReact retrieves text descriptions relevant for a given chemical reaction, and then aligns them with the molecular representation of the reaction. This alignment is enhanced via an auxiliary masked LM objective incorporated in the predictor training. We empirically validate the framework on two chemistry tasks: reaction condition recommendation and one-step retrosynthesis. By leveraging text retrieval, TextReact significantly outperforms state-of-the-art chemoinformatics models trained solely on molecular data.
翻訳日:2023-12-11 15:46:18 公開日:2023-12-08
# HC-Ref:GNNのロバスト対応トレーニングのための階層的制約付きリファインメント

HC-Ref: Hierarchical Constrained Refinement for Robust Adversarial Training of GNNs ( http://arxiv.org/abs/2312.04879v1 )

ライセンス: Link先を確認
Xiaobing Pei, Haoran Yang, and Gang Shen(参考訳) 近年の研究では、攻撃者はグラフ上のグラフ構造やノードの特徴を悪質に修正することで、GNNの性能を壊滅的に低下させることができることが示されている。 コンピュータビジョンにおける敵意攻撃に対する最も効果的な防御機構の1つとして示されている敵意訓練は、gnnの堅牢性を高めるための大きな約束を持っている。 グラフ上で敵の訓練を行うことによる攻撃に対する防御に関する研究は限られており、その効果を最適化するためにこのアプローチを深く掘り下げることが重要である。 そこで,グラフ上での頑健な敵対的トレーニングに基づいて,GNNと下流分類器の対摂動能力を向上させる階層的制約強化フレームワーク(HC-Ref)を提案する。 本研究では,各層の特徴に応じて,通常の部分と摂動部分との領域ギャップを適応的に狭め,両者の予測分布の滑らかさを促進させる,対応する逆正則化項を提案する。 さらに、グラフロバストな逆行訓練に関する既存の研究は、主にノード特徴の摂動の観点からのトレーニングに集中しており、グラフ構造の変化を考慮することはほとんどない。 この制限により、グラフのトポロジ的変化に基づく攻撃の防止が困難になる。 本稿では, グラフ構造の摂動を利用して, トポロジ的変化に基づく攻撃手法を効果的に防御する手法を提案する。 2つの実世界のグラフベンチマークに関する広範囲な実験により、hc-refは様々な攻撃にうまく耐えられ、複数のベースライン法と比較してノード分類性能が向上した。

Recent studies have shown that attackers can catastrophically reduce the performance of GNNs by maliciously modifying the graph structure or node features on the graph. Adversarial training, which has been shown to be one of the most effective defense mechanisms against adversarial attacks in computer vision, holds great promise for enhancing the robustness of GNNs. There is limited research on defending against attacks by performing adversarial training on graphs, and it is crucial to delve deeper into this approach to optimize its effectiveness. Therefore, based on robust adversarial training on graphs, we propose a hierarchical constraint refinement framework (HC-Ref) that enhances the anti-perturbation capabilities of GNNs and downstream classifiers separately, ultimately leading to improved robustness. We propose corresponding adversarial regularization terms that are conducive to adaptively narrowing the domain gap between the normal part and the perturbation part according to the characteristics of different layers, promoting the smoothness of the predicted distribution of both parts. Moreover, existing research on graph robust adversarial training primarily concentrates on training from the standpoint of node feature perturbations and seldom takes into account alterations in the graph structure. This limitation makes it challenging to prevent attacks based on topological changes in the graph. This paper generates adversarial examples by utilizing graph structure perturbations, offering an effective approach to defend against attack methods that are based on topological changes. Extensive experiments on two real-world graph benchmarks show that HC-Ref successfully resists various attacks and has better node classification performance compared to several baseline methods.
翻訳日:2023-12-11 15:46:07 公開日:2023-12-08
# 埋め込みに基づくエンティティアライメントの理解と修復のための説明の生成

Generating Explanations to Understand and Repair Embedding-based Entity Alignment ( http://arxiv.org/abs/2312.04877v1 )

ライセンス: Link先を確認
Xiaobin Tian and Zequn Sun and Wei Hu(参考訳) エンティティアライメントは、データベース研究における長年の課題である、異なる知識グラフにおける同一のエンティティを求める。 最近の研究は、ディープラーニングを利用してベクトル空間にエンティティを埋め込み、近隣の探索によってそれらを整列させる。 組み込みベースのエンティティアライメントは近年、大きな成功を収めているが、アライメント決定の説明が欠けている。 本稿では,埋め込み型エンティティアライメント結果の理解と修正のための説明を生成できる最初のフレームワークを提案する。 埋め込みモデルによって生成されるエンティティアライメントペアが与えられた場合、まずその近傍のエンティティと関係を比較して、局所的な説明として一致する部分グラフを構築する。 次に、抽象的な観点からペアを理解するためにアライメント依存グラフを構築します。 最後に,依存性グラフに基づく3種類のアライメント競合を解決することで,ペアを修復する。 5つのデータセットの実験は、埋め込みに基づくエンティティアライメント結果の説明と修復におけるフレームワークの有効性と一般化を実証している。

Entity alignment seeks identical entities in different knowledge graphs, which is a long-standing task in the database research. Recent work leverages deep learning to embed entities in vector space and align them via nearest neighbor search. Although embedding-based entity alignment has gained marked success in recent years, it lacks explanations for alignment decisions. In this paper, we present the first framework that can generate explanations for understanding and repairing embedding-based entity alignment results. Given an entity alignment pair produced by an embedding model, we first compare its neighbor entities and relations to build a matching subgraph as a local explanation. We then construct an alignment dependency graph to understand the pair from an abstract perspective. Finally, we repair the pair by resolving three types of alignment conflicts based on dependency graphs. Experiments on five datasets demonstrate the effectiveness and generalization of our framework in explaining and repairing embedding-based entity alignment results.
翻訳日:2023-12-11 15:45:39 公開日:2023-12-08
# MVDD:多視点深度拡散モデル

MVDD: Multi-View Depth Diffusion Models ( http://arxiv.org/abs/2312.04875v1 )

ライセンス: Link先を確認
Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang(参考訳) 拡散モデルは2次元画像生成において顕著な結果を示したが、3次元形状生成の成功を再現することは依然として困難である。 本稿では,複雑な3次元形状を表現するマルチビュー奥行きを利用した2次元データ形式を提案する。 この表現を拡散モデルMVDDと組み合わせ、20K以上の点と細かな詳細を持つ高品質の高密度点雲を生成することができる。 多視点深度で3次元の整合性を実現するために, 隣接する視点の視界に対して, 偏極線セグメントの注意を規定する。 さらに、深度マップのアライメントをより確実にするために、深度融合モジュールを拡散ステップに組み込む。 表面再構成で拡張すると、MVDDは高品質な3Dメッシュを生成することができる。 さらに、MVDDは深度補完のような他のタスクで際立っているため、3D先行として機能し、GANインバージョンのような下流タスクを著しく増加させる。 MVDDの3次元形状生成, 深度完了, 下流作業における3次元前処理の可能性について検討した。

Denoising diffusion models have demonstrated outstanding results in 2D image generation, yet it remains a challenge to replicate its success in 3D shape generation. In this paper, we propose leveraging multi-view depth, which represents complex 3D shapes in a 2D data format that is easy to denoise. We pair this representation with a diffusion model, MVDD, that is capable of generating high-quality dense point clouds with 20K+ points with fine-grained details. To enforce 3D consistency in multi-view depth, we introduce an epipolar line segment attention that conditions the denoising step for a view on its neighboring views. Additionally, a depth fusion module is incorporated into diffusion steps to further ensure the alignment of depth maps. When augmented with surface reconstruction, MVDD can also produce high-quality 3D meshes. Furthermore, MVDD stands out in other tasks such as depth completion, and can serve as a 3D prior, significantly boosting many downstream tasks, such as GAN inversion. State-of-the-art results from extensive experiments demonstrate MVDD's excellent ability in 3D shape generation, depth completion, and its potential as a 3D prior for downstream tasks.
翻訳日:2023-12-11 15:45:22 公開日:2023-12-08
# カナリアとホイッスル: 深層強化学習による(あるいは不要な)レジリエントなドローン通信ネットワーク

Canaries and Whistles: Resilient Drone Communication Networks with (or without) Deep Reinforcement Learning ( http://arxiv.org/abs/2312.04940v1 )

ライセンス: Link先を確認
Chris Hicks, Vasilios Mavroudis, Myles Foley, Thomas Davies, Kate Highnam, Tim Watson(参考訳) 敵対的な環境に耐えられる通信ネットワークは,災害救助活動において極めて重要である。 本稿では,サプライチェーンにおいて,製造中にドローンが侵入され,広範囲かつ感染性のあるソフトウェアを封じ込めた,困難なシナリオについて考察する。 通信帯域幅を最大化する防衛戦略の学習ツールとして多エージェント深層強化学習を検討した。 ネットワークのレジリエンス戦略を学ぶためのパブリックチャレンジを用いて,最先端のエキスパートテクニックを提案し,深層強化学習エージェントに対するその優位性について検討する。 そこで我々は,(1)各観察に必要な情報が含まれていることを保証すること,(2)専門家を用いて学習カリキュラムを提供すること,(3)報酬に注意を払うこと,の3つの具体的手法を同定した。 提案手法を適用し,エキスパートと学習ベースのエージェントが連携して,すべての先行結果を改善するための,新たな混合戦略を提案する。

Communication networks able to withstand hostile environments are critically important for disaster relief operations. In this paper, we consider a challenging scenario where drones have been compromised in the supply chain, during their manufacture, and harbour malicious software capable of wide-ranging and infectious disruption. We investigate multi-agent deep reinforcement learning as a tool for learning defensive strategies that maximise communications bandwidth despite continual adversarial interference. Using a public challenge for learning network resilience strategies, we propose a state-of-the-art expert technique and study its superiority over deep reinforcement learning agents. Correspondingly, we identify three specific methods for improving the performance of our learning-based agents: (1) ensuring each observation contains the necessary information, (2) using expert agents to provide a curriculum for learning, and (3) paying close attention to reward. We apply our methods and present a new mixed strategy enabling expert and learning-based agents to work together and improve on all prior results.
翻訳日:2023-12-11 15:41:17 公開日:2023-12-08
# 光力学における長距離信頼の分配

Distributing long-distance trust in optomechanics ( http://arxiv.org/abs/2312.04935v1 )

ライセンス: Link先を確認
Jamal El Qars(参考訳) 量子ステアリングは、絡み合いとベル非局所性とは異なる固有の非対称性を示す。 基本的な関心の他に、ステアリングは多くの非対称な量子情報タスクに関係している。 本稿では,光ファイバーを介して結合された2つのオプトメカニカルキャビティの空間的に離れた2つのメカニカルモード間のガウス量子ステアリングを生成し,操作する手法を提案する。 未解決のサイドバンド方式では、現実的な実験条件下では、2つのモードの間に強い非対称なステアリングが生成可能であることを示す。 また,片道ステアリングをレーザー駆動パワーとキャビティの温度で実現し,実際に操作できることも示す。 さらに, 片方向ステアリングの方向は, メカニカルモードのエネルギー差の兆候に依存することを明らかにした。 最後に、生成したステアリングへのアクセス方法について議論する。 この研究は、セキュアな量子通信に大きな関心を持つ長距離信頼の分布に対する新たな視点を開く。

Quantum steering displays an inherent asymmetric property that differs from entanglement and Bell nonlocality. Besides being of fundamental interest, steering is relevant to many asymmetric quantum information tasks. Here, we propose a scheme to generate and manipulate Gaussian quantum steering between two spatially distant mechanical modes of two optomechanical cavities coupled via an optical fiber, and driven by blue detuned lasers. In the unresolved sideband regime, we show, under realistic experimental conditions, that strong asymmetric steering can be generated between the two considered modes. Also, we show that one-way steering can be achieved and practically manipulated through the lasers drive powers and the temperatures of the cavities. Further, we reveal that the direction of one-way steering depends on the sign of the difference between the energies of the mechanical modes. Finally, we discuss how to access the generated steering. This work opens up new perspectives for the distribution of long-distance trust which is of great interest in secure quantum communication.
翻訳日:2023-12-11 15:41:01 公開日:2023-12-08
# ハイブリッド古典量子HPCワークロード

A Hybrid Classical-Quantum HPC Workload ( http://arxiv.org/abs/2312.04933v1 )

ライセンス: Link先を確認
Aniello Esposito, Sebastien Cabaniols, Jessica R. Jones, David Brayford(参考訳) 量子デバイスを特徴とするスーパーコンピュータ上でのハイブリッド古典量子ワークロードのオーケストレーション戦略を提案する。 この方法は、Slurmとの不均一なジョブ起動を利用して古典的および量子計算をインターリーブし、量子成分のアイドル時間を短縮する。 このようなワークロードの欠点やボトルネックをよく理解するために、量子デバイスに計算の一部をオフロードするサンプルアプリケーションを調べる。 これは、SlurmのMPMDパラダイム内で、量子デバイスを模倣するサーバを備えた古典的なHPCシステムで実行される。 量子回路は科学的応用のニーズに応じてclassiqソフトウェアスイートによって合成され、qiskit aer回路シミュレータは状態ベクトルを計算する。 方程式の線形系に対するHHL量子アルゴリズムは、線形微分方程式の離散化から代数問題を解くために用いられる。 コミュニケーションは、HPCコミュニティで広く採用されているMPI上で行われる。 状態ベクトルの抽出と回路合成は最も時間がかかるが、通信はこの設定では無視できる。 現在のテストベッドは、最終的に実際の量子デバイスを含むより高度なハイブリッドワークロードの基礎として機能する。

A strategy for the orchestration of hybrid classical-quantum workloads on supercomputers featuring quantum devices is proposed. The method makes use of heterogeneous job launches with Slurm to interleave classical and quantum computation, thereby reducing idle time of the quantum components. To better understand the possible shortcomings and bottlenecks of such a workload, an example application is investigated that offloads parts of the computation to a quantum device. It executes on a classical HPC system, with a server mimicking the quantum device, within the MPMD paradigm in Slurm. Quantum circuits are synthesized by means of the Classiq software suite according to the needs of the scientific application, and the Qiskit Aer circuit simulator computes the state vectors. The HHL quantum algorithm for linear systems of equations is used to solve the algebraic problem from the discretization of a linear differential equation. Communication takes place over the MPI, which is broadly employed in the HPC community. Extraction of state vectors and circuit synthesis are the most time consuming, while communication is negligible in this setup. The present test bed serves as a basis for more advanced hybrid workloads eventually involving a real quantum device.
翻訳日:2023-12-11 15:40:44 公開日:2023-12-08
# 検索型ビデオ言語モデルによるビデオ質問応答の効率化

Retrieval-based Video Language Model for Efficient Long Video Question Answering ( http://arxiv.org/abs/2312.04931v1 )

ライセンス: Link先を確認
Jiaqi Xu, Cuiling Lan, Wenxuan Xie, Xuejin Chen, Yan Lu(参考訳) 大規模言語モデル(LLM)の目覚ましい自然言語理解、推論、生成能力は、ビデオ質問応答(ビデオQA)タスクに適用し、ビデオトークンをコンテキスト入力として利用する上で魅力的なものとなっている。 しかし、長いビデオ理解にllmを採用することは大きな課題であり、未検討のままである。 膨大な数のビデオトークンがllmの計算コストを増大させる一方で、集約されたトークンを使用すると視覚詳細が失われる。 さらに、豊富な疑問関連トークンの存在は、ビデオQAプロセスにノイズをもたらす。 これらの課題に対処するために,より効率的かつ解釈可能な長いビデオQAのための検索ベースビデオ言語モデル(R-VLM)を提案する。 特に、質問(クエリ)と長いビデオが与えられた場合、モデルは最も関連する$k$ビデオチャンクを特定し、選択し、関連するビジュアルトークンを使用してllm推論のコンテキストとして機能します。 これにより、ビデオトークンの数を効果的に減らし、ノイズ干渉をなくし、システム性能を向上させる。 実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。 さらに、得られたチャンクに基づいて、我々のモデルは解釈可能であり、答えを得る場所の正当性を提供する。

The remarkable natural language understanding, reasoning, and generation capabilities of large language models (LLMs) have made them attractive for application to video question answering (Video QA) tasks, utilizing video tokens as contextual input. However, employing LLMs for long video understanding presents significant challenges and remains under-explored. The extensive number of video tokens leads to considerable computational costs for LLMs while using aggregated tokens results in loss of vision details. Moreover, the presence of abundant question-irrelevant tokens introduces noise to the video QA process. To address these issues, we introduce a simple yet effective retrieval-based video language model (R-VLM) for efficient and interpretable long video QA. Specifically, given a question (query) and a long video, our model identifies and selects the most relevant $K$ video chunks and uses their associated visual tokens to serve as context for the LLM inference. This effectively reduces the number of video tokens, eliminates noise interference, and enhances system performance. Our experimental results validate the effectiveness of our framework for comprehending long videos. Furthermore, based on the retrieved chunks, our model is interpretable that provides the justifications on where we get the answers.
翻訳日:2023-12-11 15:40:27 公開日:2023-12-08
# 動物学:効率的な言語モデルにおけるリコールの測定と改善

Zoology: Measuring and Improving Recall in Efficient Language Models ( http://arxiv.org/abs/2312.04927v1 )

ライセンス: Link先を確認
Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli, James Zou, Atri Rudra, and Christopher R\'e(参考訳) ゲーティングと畳み込みを組み合わせるアテンションフリー言語モデルは、その効率性と競争性の向上によって人気が高まっている。 これらのアーキテクチャをよりよく理解するために、17の注意点と"ゲーテッドコンボリューション"言語モデルを事前トレーニングし、somaゲートコンボリューションアーキテクチャが最大2.1のパープレキシティポイントで注目度を上回っていることを発見した。 きめ細かい分析では、各モデルの82%が、前述した情報をテキストでリコールする能力によって説明されている(例:「ハクナ・マタタ」とは、ハクナ・マタタがノーを意味することを心配しない」など)。 この課題は「連想リコール(associative recall)」と呼ばれ、70mのパラメータ・アテンション・モデルは連想リコールの14億のパラメータ・ゲート・コンボリューション・モデルよりも、大きなマージンでゲート・コンボリューションよりもアテンションの方が優れています。 以前の研究では、AR機能のための合成テストが完全に解決できたため、これは驚くべきことです。 合成語と実言語とのギャップを埋めるため,実言語をよりよく反映したマルチクエリ連想リコール(MQAR)と呼ばれるタスクの新たな形式化を開発する。 我々は、注意のパラメータ効率とゲート畳み込みリコールの違いを解明するMQARの実証的および理論的研究を行う。 本分析により, 簡単な畳み込み型ハイブリッドの評価を行い, サブクアドラティックスケーリングを維持しながら, 入力依存スパークアテンションパターンのハイブリッドが注意ギャップの97.4%を埋めることを示した。 私たちのコードは、https://github.com/HazyResearch/zoologyでアクセスできます。

Attention-free language models that combine gating and convolutions are growing in popularity due to their efficiency and increasingly competitive performance. To better understand these architectures, we pretrain a suite of 17 attention and "gated-convolution" language models, finding that SoTA gated-convolution architectures still underperform attention by up to 2.1 perplexity points on the Pile. In fine-grained analysis, we find 82% of the gap is explained by each model's ability to recall information that is previously mentioned in-context, e.g. "Hakuna Matata means no worries Hakuna Matata it means no" $\rightarrow$ "??". On this task, termed "associative recall", we find that attention outperforms gated-convolutions by a large margin: a 70M parameter attention model outperforms a 1.4 billion parameter gated-convolution model on associative recall. This is surprising because prior work shows gated convolutions can perfectly solve synthetic tests for AR capability. To close the gap between synthetics and real language, we develop a new formalization of the task called multi-query associative recall (MQAR) that better reflects actual language. We perform an empirical and theoretical study of MQAR that elucidates differences in the parameter-efficiency of attention and gated-convolution recall. Informed by our analysis, we evaluate simple convolution-attention hybrids and show that hybrids with input-dependent sparse attention patterns can close 97.4% of the gap to attention, while maintaining sub-quadratic scaling. Our code is accessible at: https://github.com/HazyResearch/zoology.
翻訳日:2023-12-11 15:40:05 公開日:2023-12-08
# 空間オーラエントロピーによる畳み込みニューラルネットワークの高速化

Accelerating Convolutional Neural Network Pruning via Spatial Aura Entropy ( http://arxiv.org/abs/2312.04926v1 )

ライセンス: Link先を確認
Bogdan Musat, Razvan Andonie(参考訳) 近年,畳み込みニューラルネットワーク(CNN)モデルの計算複雑性とメモリフットプリントを低減する手法として,プルーニングが普及している。 ミューチュアル・インフォメーション(MI)は、重要でないフィルタをプーンに識別するための基準として広く使われている。 しかし、既存のmi計算手法は高い計算コストとノイズに対する感度に苦しむため、準最適プルーニング性能に繋がる。 空間オーラエントロピーを用いたCNNプルーニングのためのMI計算の改良手法を提案する。 空間オーラエントロピーは、周辺領域における神経活性化の分布の不均一性を評価し、局所的な特徴に関する情報を提供するのに有用である。 提案手法はCNNプルーニングのMI計算を効果的に改善し,より堅牢で効率的なプルーニングを実現する。 CIFAR-10ベンチマークデータセットの実験結果から, 刈り取り性能と計算効率の観点から, 提案手法の優位性を示した。

In recent years, pruning has emerged as a popular technique to reduce the computational complexity and memory footprint of Convolutional Neural Network (CNN) models. Mutual Information (MI) has been widely used as a criterion for identifying unimportant filters to prune. However, existing methods for MI computation suffer from high computational cost and sensitivity to noise, leading to suboptimal pruning performance. We propose a novel method to improve MI computation for CNN pruning, using the spatial aura entropy. The spatial aura entropy is useful for evaluating the heterogeneity in the distribution of the neural activations over a neighborhood, providing information about local features. Our method effectively improves the MI computation for CNN pruning, leading to more robust and efficient pruning. Experimental results on the CIFAR-10 benchmark dataset demonstrate the superiority of our approach in terms of pruning performance and computational efficiency.
翻訳日:2023-12-11 15:39:19 公開日:2023-12-08
# 慣性境界はきつくない

The inertia bound is far from tight ( http://arxiv.org/abs/2312.04925v1 )

ライセンス: Link先を確認
Matthew Kwan and Yuval Wigderson(参考訳) inertia bound と ratio bound(cvetkovi\'c bound および hoffman bound とも呼ばれる)は、スペクトルグラフ理論における2つの基本的な不等式であり、重み付き隣接行列に関するスペクトル情報に関して、グラフの独立数 $\alpha(g)$ の上限を与える。 2つの不等式に対して、グラフ $g$ が与えられると、できるだけ強い束縛を得るためには重み付き隣接行列を公平に選択する必要がある。 比境界を取り巻くよく確立された理論があるが、慣性境界はずっと神秘的であり、その限界はかなり不明瞭である。 実際、最近になってシュノビッチは、慣性束縛が(任意の重み付き隣接行列に対して)タイトでないグラフの最初の例を見つけ、ゴドシルの長年の疑問に答えた。 例えば、我々の結果の1つは、無限に多くの$n$に対して、非重み付き比縛でさえ$\alpha(G)\leq 4n^{3/4}$を証明できる$n$-vertex graphが存在するが、慣性境界は常に$n/4$である。 特に、これらの結果はrooney、stovic、wocjan--elphick-abiadの疑問に答えている。

The inertia bound and ratio bound (also known as the Cvetkovi\'c bound and Hoffman bound) are two fundamental inequalities in spectral graph theory, giving upper bounds on the independence number $\alpha(G)$ of a graph $G$ in terms of spectral information about a weighted adjacency matrix of $G$. For both inequalities, given a graph $G$, one needs to make a judicious choice of weighted adjacency matrix to obtain as strong a bound as possible. While there is a well-established theory surrounding the ratio bound, the inertia bound is much more mysterious, and its limits are rather unclear. In fact, only recently did Sinkovic find the first example of a graph for which the inertia bound is not tight (for any weighted adjacency matrix), answering a longstanding question of Godsil. We show that the inertia bound can be extremely far from tight, and in fact can significantly underperform the ratio bound: for example, one of our results is that for infinitely many $n$, there is an $n$-vertex graph for which even the unweighted ratio bound can prove $\alpha(G)\leq 4n^{3/4}$, but the inertia bound is always at least $n/4$. In particular, these results address questions of Rooney, Sinkovic, and Wocjan--Elphick--Abiad.
翻訳日:2023-12-11 15:39:04 公開日:2023-12-08
# エントロピー最小化による強化学習によるプルーニング畳み込みフィルタ

Pruning Convolutional Filters via Reinforcement Learning with Entropy Minimization ( http://arxiv.org/abs/2312.04918v1 )

ライセンス: Link先を確認
Bogdan Musat, Razvan Andonie(参考訳) 構造的プルーニングはニューラルネットワーク最適化の不可欠な部分となり、組み込みデバイス上でより効率的にデプロイおよび実行可能なアーキテクチャ構成を達成するために使用される。 前報では,ネットワークの精度を最大化することにより,各神経層のスパーシティレベルを判断する強化学習エージェントを用いることで,最小性能損失でプルーニングが可能であった。 本稿では,畳み込み活性化の空間エントロピーを最小化する情報理論報酬関数を提案する。 この最小化は最終的に正確性を維持するためのプロキシとして機能するが、これらの2つの基準はいかなる方法にも関連しない。 提案手法は,エージェントの報酬関数で直接最適化することなく,精度を維持できる可能性を示している。 実験では、複数の人気ニューラルネットワークアーキテクチャのFLOPSの総数を5~10倍に減らし、性能低下を最小限に抑え、精度を最大化することで得られる解と同等にすることができた。

Structural pruning has become an integral part of neural network optimization, used to achieve architectural configurations which can be deployed and run more efficiently on embedded devices. Previous results showed that pruning is possible with minimum performance loss by utilizing a reinforcement learning agent which makes decisions about the sparsity level of each neural layer by maximizing as a reward the accuracy of the network. We introduce a novel information-theoretic reward function which minimizes the spatial entropy of convolutional activations. This minimization ultimately acts as a proxy for maintaining accuracy, although these two criteria are not related in any way. Our method shows that there is another possibility to preserve accuracy without the need to directly optimize it in the agent's reward function. In our experiments, we were able to reduce the total number of FLOPS of multiple popular neural network architectures by 5-10x, incurring minimal or no performance drop and being on par with the solution found by maximizing the accuracy.
翻訳日:2023-12-11 15:38:34 公開日:2023-12-08
# データサイエンティストのための保証ケースの運用:機械学習のためのテストデータ品質の文脈における概念とツールの紹介

Operationalizing Assurance Cases for Data Scientists: A Showcase of Concepts and Tooling in the Context of Test Data Quality for Machine Learning ( http://arxiv.org/abs/2312.04917v1 )

ライセンス: Link先を確認
Lisa J\"ockel, Michael Kl\"as, Janek Gro{\ss}, Pascal Gerber, Markus Scholz, Jonathan Eberle, Marc Teschner, Daniel Seifert, Richard Hawkins, John Molloy, Jens Ottnad(参考訳) 保証ケース(acs)は、構造化された方法で品質要求を主張する安全工学における確立されたアプローチである。 機械学習(ML)ベースのソフトウェアコンポーネントの品質保証の文脈では、ACも議論され、有望なように見える。 ACを運用するためのツールは存在するが、主にシステムレベルでの安全エンジニアのサポートに焦点を当てている。 しかしながら、システム内のMLコンポーネントの品質を保証することは、一般的にデータサイエンティストの責任であり、これらのツールにはあまり馴染みがない。 このギャップに対処するため,データサイエンティストが日々使用している技術であるPythonとJupyter Notebookに基づいて,MLコンポーネント用のACの運用を支援するフレームワークを提案する。 我々の目的は、ACにおいてML関連の証拠を作成するプロセスをより効果的にすることである。 ノートブックを通じて文書化されたフレームワークのアプリケーションの結果は、既存のACツールに統合できる。 テストデータの品質に関する抜粋を例に挙げて,フレームワークの適用例を示す。

Assurance Cases (ACs) are an established approach in safety engineering to argue quality claims in a structured way. In the context of quality assurance for Machine Learning (ML)-based software components, ACs are also being discussed and appear promising. Tools for operationalizing ACs do exist, yet mainly focus on supporting safety engineers on the system level. However, assuring the quality of an ML component within the system is commonly the responsibility of data scientists, who are usually less familiar with these tools. To address this gap, we propose a framework to support the operationalization of ACs for ML components based on technologies that data scientists use on a daily basis: Python and Jupyter Notebook. Our aim is to make the process of creating ML-related evidence in ACs more effective. Results from the application of the framework, documented through notebooks, can be integrated into existing AC tools. We illustrate the application of the framework on an example excerpt concerned with the quality of the test data.
翻訳日:2023-12-11 15:38:07 公開日:2023-12-08
# EE-LLM:3次元並列処理を用いた大規模言語モデルの大規模学習と推定

EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism ( http://arxiv.org/abs/2312.04916v1 )

ライセンス: Link先を確認
Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) 本稿では,大規模学習のためのフレームワークであるEE-LLMについて述べる。 近年の研究では,LEM推論の早期終了の有効性を示す予備的な証拠が示されているが,EE-LLMは,大規模な3次元並列性によるトレーニングと推論を支援することにより,早期終了LSMのスケールアップに向けた基礎的な一歩である。 Megatron-LMをベースとして、EE-LLMは早期終了に適したアルゴリズムの革新とパフォーマンスの最適化を実装しており、パイプライン並列化による早期終了トレーニング目標のバックプロパゲーションを容易にする軽量な方法、初期の外部レイヤに関連する計算にアイドルリソースを活用する技術、自動回帰生成のためのKVキャッシュと互換性のある早期終了推論の2つのアプローチを含んでいる。 解析的および実証的研究により,EE-LLM は通常の LLM トレーニングに比べ,計算オーバーヘッドの無視によるトレーニング効率の向上と,出力品質を損なうことなく優れた推論高速化を実現していることが示された。 さらなる研究と採用を容易にするため、EE-LLMはhttps://github.com/pan-x-c/EE-LLM.comでリリースします。

We present EE-LLM, a framework for large-scale training and inference of early-exit large language models (LLMs). While recent works have shown preliminary evidence for the efficacy of early exiting in accelerating LLM inference, EE-LLM makes a foundational step towards scaling up early-exit LLMs by supporting their training and inference with massive 3D parallelism. Built upon Megatron-LM, EE-LLM implements a variety of algorithmic innovations and performance optimizations tailored to early exiting, including a lightweight method that facilitates backpropagation for the early-exit training objective with pipeline parallelism, techniques of leveraging idle resources in the original pipeline schedule for computation related to early-exit layers, and two approaches of early-exit inference that are compatible with KV caching for autoregressive generation. Our analytical and empirical study shows that EE-LLM achieves great training efficiency with negligible computational overhead compared to standard LLM training, as well as outstanding inference speedup without compromising output quality. To facilitate further research and adoption, we release EE-LLM at https://github.com/pan-x-c/EE-LLM.
翻訳日:2023-12-11 15:37:35 公開日:2023-12-08
# キャビティマグノニクスにおける結合相を通したエンジニアリング合成ゲージ場

Engineering synthetic gauge fields through the coupling phases in cavity magnonics ( http://arxiv.org/abs/2312.04915v1 )

ライセンス: Link先を確認
Alan Gardin and Guillaume Bourcin and Jeremy Bourhill and Vincent Vlaminck and Christian Person and Christophe Fumeaux and Giuseppe C. Tettamanzi and Vincent Castel(参考訳) キャビティ・マグノニクスは、光とキャビティ内の磁気システムとの相互作用を研究するもので、量子トランスデューサ、量子メモリ、非相互挙動を持つデバイスにとって有望なプラットフォームである。 マイクロ波周波数では、キャビティ光子とマグノンのカップリング(スピン波励起の準粒子)は、キャビティの磁場と磁石のマクロスピンとの間のゼーマン相互作用の結果である。 それぞれの光子/マグノン相互作用には結合相因子が存在するが、単純な系では無視されることが多い。 しかし、モードとして少なくとも多くのカップリングが存在する「ループ結合系」では、結合相は物理学に関係し、合成ゲージ場につながる。 イットリウム-鉄-ガーネットからなる2つの球体と2つの異なる再入射キャビティを考慮し、このようなカップリング相の存在を実験的に証明する。 我々は結合相の値を数値的に予測し、理論と実験データの間に良い一致を見出す。 これらの結果は、空洞磁気学において、非相互デバイスを構築するのに有用な合成ゲージ場を設計できることを示している。

Cavity magnonics, which studies the interaction of light with magnetic systems in a cavity, is a promising platform for quantum transducers, quantum memories, and devices with non-reciprocal behaviour. At microwave frequencies, the coupling between a cavity photon and a magnon, the quasi-particle of a spin wave excitation, is a consequence of the Zeeman interaction between the cavity's magnetic field and the magnet's macroscopic spin. For each photon/magnon interaction, a coupling phase factor exists, but is often neglected in simple systems. However, in "loop-coupled" systems, where there are at least as many couplings as modes, the coupling phases become relevant for the physics and lead to synthetic gauge fields. We present experimental evidence of the existence of such coupling phases by considering two spheres made of Yttrium-Iron-Garnet and two different re-entrant cavities. We predict numerically the values of the coupling phases, and we find good agreement between theory and the experimental data. Theses results show that in cavity magnonics, one can engineer synthetic gauge fields, which can be useful for building nonreciprocal devices.
翻訳日:2023-12-11 15:36:56 公開日:2023-12-08
# SA-Attack:自己拡張によるビジョンランゲージ事前学習モデルの逆変換性の向上

SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation ( http://arxiv.org/abs/2312.04913v1 )

ライセンス: Link先を確認
Bangyan He, Xiaojun Jia, Siyuan Liang, Tianrui Lou, Yang Liu and Xiaochun Cao(参考訳) 現在のVisual-Language Pre-Training(VLP)モデルは、敵の例に弱い。 これらの敵対的な例はVLPモデルに重大なセキュリティリスクをもたらし、モデル固有の弱点を活用でき、誤った予測をもたらす。 ホワイトボックスの敵対攻撃とは対照的に、トランスファーアタック(敵が他のブラックボックスのモデルを騙すためにホワイトボックスのモデルに逆行する例)は現実世界のシナリオをより反映しており、研究にとってより意味のあるものである。 既存の研究を要約し分析することにより、VLPモデルにおける転送攻撃の有効性に影響を与える2つの要因を同定した。 これらの知見に基づいて,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。 具体的には, 逆画像と逆テキストの生成において, それぞれ異なるデータ拡張手法を画像モダリティとテキストモダリティに適用し, 生成された逆画像とテキストの逆転送性を向上させることを目的としている。 FLickr30KとCOCOデータセットを用いて実験を行い,本手法の有効性を検証した。 この論文が受け入れられた後、私たちのコードは利用可能になります。

Current Visual-Language Pre-training (VLP) models are vulnerable to adversarial examples. These adversarial examples present substantial security risks to VLP models, as they can leverage inherent weaknesses in the models, resulting in incorrect predictions. In contrast to white-box adversarial attacks, transfer attacks (where the adversary crafts adversarial examples on a white-box model to fool another black-box model) are more reflective of real-world scenarios, thus making them more meaningful for research. By summarizing and analyzing existing research, we identified two factors that can influence the efficacy of transfer attacks on VLP models: inter-modal interaction and data diversity. Based on these insights, we propose a self-augment-based transfer attack method, termed SA-Attack. Specifically, during the generation of adversarial images and adversarial texts, we apply different data augmentation methods to the image modality and text modality, respectively, with the aim of improving the adversarial transferability of the generated adversarial images and texts. Experiments conducted on the FLickr30K and COCO datasets have validated the effectiveness of our method. Our code will be available after this paper is accepted.
翻訳日:2023-12-11 15:35:47 公開日:2023-12-08
# Procrustes検証セットを用いたCollinearデータセットの拡張

Collinear datasets augmentation using Procrustes validation sets ( http://arxiv.org/abs/2312.04911v1 )

ライセンス: Link先を確認
Sergey Kucheryavskiy and Sergei Zhilin(参考訳) 本稿では,数値と混合データセットの増大のための新しい手法を提案する。 クロスバリデーション再サンプリングと潜在変数モデリングを利用して追加のデータポイントを生成する。 特に高次から高次コリニアリティのデータセットでは、この特性を直接利用して生成するので、効率的である。 この手法は単純で高速であり、パラメータはごくわずかであり、紙に示されているように特定のチューニングを必要としない。 本研究では,近赤外スペクトル(コリニア度の高い数値データ)と冠動脈造影法(数値変数とカテゴリ変数を併用した混合データ,中等度コリニア性)による肉肉中のタンパク質の予測と,冠動脈造影法で紹介された患者の識別について,その2例について詳細な検討を行った。 どちらの場合も、回帰モデルと識別モデルの開発に人工ニューラルネットワークが用いられた。 その結果, モデルの性能は明らかに向上し, 肉タンパク質の予測では, 改良したデータにモデルを適合させると, 1.5~3倍の独立試験で計算された根平均二乗誤差が減少することがわかった。

In this paper, we propose a new method for the augmentation of numeric and mixed datasets. The method generates additional data points by utilizing cross-validation resampling and latent variable modeling. It is particularly efficient for datasets with moderate to high degrees of collinearity, as it directly utilizes this property for generation. The method is simple, fast, and has very few parameters, which, as shown in the paper, do not require specific tuning. It has been tested on several real datasets; here, we report detailed results for two cases, prediction of protein in minced meat based on near infrared spectra (fully numeric data with high degree of collinearity) and discrimination of patients referred for coronary angiography (mixed data, with both numeric and categorical variables, and moderate collinearity). In both cases, artificial neural networks were employed for developing the regression and the discrimination models. The results show a clear improvement in the performance of the models; thus for the prediction of meat protein, fitting the model to the augmented data resulted in a reduction in the root mean squared error computed for the independent test set by 1.5 to 3 times.
翻訳日:2023-12-11 15:34:58 公開日:2023-12-08
# Ophtha-LLaMA2:眼科用大規模言語モデル

Ophtha-LLaMA2: A Large Language Model for Ophthalmology ( http://arxiv.org/abs/2312.04906v1 )

ライセンス: Link先を確認
Huan Zhao, Qian Ling, Yi Pan, Tianyang Zhong, Jin-Yu Hu, Junjie Yao, Fengqian Xiao, Zhenxiang Xiao, Yutong Zhang, San-Hua Xu, Shi-Nan Wu, Min Kang, Zihao Wu, Zhengliang Liu, Xi Jiang, Tianming Liu, Yi Shao(参考訳) 近年,自然言語処理(NLP)分野において,事前学習型大規模言語モデル (LLM) が大きな成功を収めている。 先行研究は主に一般領域と一般領域に焦点を当てており、医学分野における特殊なLSMの研究は比較的少ない。 医療分野における診断の専門化と高精度化、および大規模データ収集の課題は、医療シナリオにおけるLCMの適用と開発を制約している。 眼科領域では、臨床診断は主に医師による報告の解釈と診断の決定に依存している。 医師の意思決定支援にLLMを活用するために,3種類の眼科報告データを収集し,LLaMA2モデルを微調整し,特に眼科疾患の診断に適したLLM「Ophtha-LLaMA2」の構築に成功した。 推測試験の結果,Ophtha-LLaMA2は細調整データセットが小さい場合でも,他のLSMと比較して眼科診断において有意に優れていた。 これは眼科疾患の診断における精度と効率を満足させるものであり、眼科医が患者に対するより良い診断支援を提供するのに有用なツールであることを示している。 本研究は、眼科領域におけるLSMの応用に有用であり、この領域における潜在的ポテンシャルと展望を示している。

In recent years, pre-trained large language models (LLMs) have achieved tremendous success in the field of Natural Language Processing (NLP). Prior studies have primarily focused on general and generic domains, with relatively less research on specialized LLMs in the medical field. The specialization and high accuracy requirements for diagnosis in the medical field, as well as the challenges in collecting large-scale data, have constrained the application and development of LLMs in medical scenarios. In the field of ophthalmology, clinical diagnosis mainly relies on doctors' interpretation of reports and making diagnostic decisions. In order to take advantage of LLMs to provide decision support for doctors, we collected three modalities of ophthalmic report data and fine-tuned the LLaMA2 model, successfully constructing an LLM termed the "Ophtha-LLaMA2" specifically tailored for ophthalmic disease diagnosis. Inference test results show that even with a smaller fine-tuning dataset, Ophtha-LLaMA2 performs significantly better in ophthalmic diagnosis compared to other LLMs. It demonstrates that the Ophtha-LLaMA2 exhibits satisfying accuracy and efficiency in ophthalmic disease diagnosis, making it a valuable tool for ophthalmologists to provide improved diagnostic support for patients. This research provides a useful reference for the application of LLMs in the field of ophthalmology, while showcasing the immense potential and prospects in this domain.
翻訳日:2023-12-11 15:34:37 公開日:2023-12-08
# ゼロサム確率ゲームにおける関数近似を用いた2時間Q-Learning

Two-Timescale Q-Learning with Function Approximation in Zero-Sum Stochastic Games ( http://arxiv.org/abs/2312.04905v1 )

ライセンス: Link先を確認
Zaiwei Chen, Kaiqing Zhang, Eric Mazumdar, Asuman Ozdaglar, and Adam Wierman(参考訳) 2人のプレイヤーのゼロサム確率ゲームについて検討し,2つのプレイヤー間のペイオフベース,収束,有理,対称な関数近似を用いた2時間スケールの$Q$学習アルゴリズムを提案する。 2度スケールの$q$-learningでは、高速スケールのイテレートは確率的勾配降下に精神的に更新され、遅いタイムスケールのイテレート(ポリシーの計算に使用する)は、以前のイテレートと最新の高速スケールイテレートのコンベックスの組み合わせによって更新される。 遅い時間スケールの導入と、その更新方程式は、我々の主要なアルゴリズムの新規性を示す。 線形関数近似の特別な場合において、我々が知る限りでは、これらのタイプのペイオフに基づく独立学習力学に対する最後の有限サンプル境界である。 この結果は、そのような確率ゲームにおいてナッシュ均衡を求める多項式サンプルの複雑さを意味する。 結果を確立するため,提案アルゴリズムを2時間確率近似としてモデル化し,リャプノフ法を用いて有限サンプルを導出する。 重要な新規性は、遅い時間スケールの反復の進化を捉えるために有効なリャプノフ函数を構築することである。 具体的には、変数の変化を通じて、遅い時間スケールのイテレートの更新方程式は、正規化ナッシュギャップが有効なリアプノフ関数として機能する古典的な滑らかな最応答ダイナミクスに似ていることを示す。 この洞察により、正規化されたナッシュギャップのモロー包絡の一般化された変種を通して、有効なリアプノフ関数を構築することができる。 Lyapunov関数の構築は、確率近似アルゴリズムの振る舞いを研究するために広く独立した関心を持つかもしれない。

We consider two-player zero-sum stochastic games and propose a two-timescale $Q$-learning algorithm with function approximation that is payoff-based, convergent, rational, and symmetric between the two players. In two-timescale $Q$-learning, the fast-timescale iterates are updated in spirit to the stochastic gradient descent and the slow-timescale iterates (which we use to compute the policies) are updated by taking a convex combination between its previous iterate and the latest fast-timescale iterate. Introducing the slow timescale as well as its update equation marks as our main algorithmic novelty. In the special case of linear function approximation, we establish, to the best of our knowledge, the first last-iterate finite-sample bound for payoff-based independent learning dynamics of these types. The result implies a polynomial sample complexity to find a Nash equilibrium in such stochastic games. To establish the results, we model our proposed algorithm as a two-timescale stochastic approximation and derive the finite-sample bound through a Lyapunov-based approach. The key novelty lies in constructing a valid Lyapunov function to capture the evolution of the slow-timescale iterates. Specifically, through a change of variable, we show that the update equation of the slow-timescale iterates resembles the classical smoothed best-response dynamics, where the regularized Nash gap serves as a valid Lyapunov function. This insight enables us to construct a valid Lyapunov function via a generalized variant of the Moreau envelope of the regularized Nash gap. The construction of our Lyapunov function might be of broad independent interest in studying the behavior of stochastic approximation algorithms.
翻訳日:2023-12-11 15:34:17 公開日:2023-12-08
# 気候の変化: 気候変動のコミュニケーションをyoutubeからtiktokに移す

Shifting Climates: Climate Change Communication from YouTube to TikTok ( http://arxiv.org/abs/2312.04974v1 )

ライセンス: Link先を確認
Arianna Pera and Luca Maria Aiello(参考訳) 気候変動などの重要な問題についての一般論議は、短いビデオコンテンツを優先するソーシャルメディアプラットフォームへと徐々にシフトしつつある。 この移行の理解を深めるために、情報発信者としてtiktokに影響力を拡大した21の著名なyoutubeクリエイターによるビデオコンテンツを調査した。 辞書ベースのツールとbertベースの埋め込みを使って、両プラットフォームで7k近い気候関連ビデオの書き起こしと574kのコメントを分析した。 TikTokを使うと、クリエイターはYouTubeよりも感情的に共鳴し、自己参照し、アクション指向の言語を使う。 また、ビデオとコメントのセマンティックな結びつきも強く、TikTokのコンテンツをYouTubeから多様化するクリエーターは、通常、生成されたコンテンツとより緊密に一致したレスポンスを受け取る。 これは、効果的な気候コミュニケーションキャンペーンの設計に意味のある、望ましいトピックに対する公開議論を指示する上で、調整されたコミュニケーション戦略が大きな可能性を秘めていることを示唆している。

Public discourse on critical issues such as climate change is progressively shifting to social media platforms that prioritize short-form video content. To improve our understanding of this transition, we studied the video content produced by 21 prominent YouTube creators who have expanded their influence to TikTok as information disseminators. Using dictionary-based tools and BERT-based embeddings, we analyzed the transcripts of nearly 7k climate-related videos across both platforms and the 574k comments they received. We found that, when using TikTok, creators use a more emotionally resonant, self-referential, and action-oriented language compared to YouTube. We also observed a strong semantic alignment between videos and comments, with creators who excel at diversifying their TikTok content from YouTube typically receiving responses that more closely align with their produced content. This suggests that tailored communication strategies hold greater promise in directing public discussion towards desired topics, which bears implications for the design of effective climate communication campaigns.
翻訳日:2023-12-11 15:27:10 公開日:2023-12-08
# MIMIR:相互情報に基づく対向ロバスト性のためのマスク画像モデリング

MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness ( http://arxiv.org/abs/2312.04960v1 )

ライセンス: Link先を確認
Xiaoyun Xu, Shujian Yu, Jingzheng Wu, Stjepan Picek(参考訳) 視覚トランスフォーマー (vits) は畳み込みニューラルネットワーク (cnns) と比較して様々なタスクで優れた性能を発揮するが、vitsは逆攻撃にも弱い。 敵の訓練は、堅牢なCNNモデルを構築する最も成功した方法の1つである。 そこで,近年の研究では,vitsとcnnの違い,例えばトレーニング戦略の改善,シングルブロックへの注意の集中の防止,低アテンション埋め込みの破棄などに基づいて,vitsの敵対的トレーニングのための新しい手法が検討されている。 しかし、これらの手法は従来型の教師付き対人訓練の設計に従い、ViTの対人訓練の可能性を制限する。 本稿では,新しい防御法であるmimirを提案し,プレトレーニング時のマスク画像モデリングを活用し,異なる対向訓練手法の構築を目指す。 我々は、逆例を入力として受け入れるオートエンコーダを作成するが、クリーン例をモデリング対象とする。 次に、情報ボトルネックの考え方に従って相互情報(mi)ペナルティを作成する。 2つの情報ソース入力と対応する対向的摂動のうち、モデリング対象の制約により摂動情報が排除される。 次に,miペナルティの限界を用いたmimirの理論的解析を行う。 また、敵がMIMIRの防御に気付いていれば2つのアダプティブアタックを設計し、MIMIRの動作が良好であることを示す。 実験の結果,MIMIR は CIFAR-10 では4.19 %,ImageNet-1K では5.52 % の精度を,ベースラインに比べて改善した。 Tiny-ImageNetでは, 自然精度が2.99\%向上し, 対逆精度が向上した。 私たちのコードとトレーニングされたモデルは、公開されています。footnote{\url{https://anonymous.4open.science/r/MIMIR-5444/README.md}}。

Vision Transformers (ViTs) achieve superior performance on various tasks compared to convolutional neural networks (CNNs), but ViTs are also vulnerable to adversarial attacks. Adversarial training is one of the most successful methods to build robust CNN models. Thus, recent works explored new methodologies for adversarial training of ViTs based on the differences between ViTs and CNNs, such as better training strategies, preventing attention from focusing on a single block, or discarding low-attention embeddings. However, these methods still follow the design of traditional supervised adversarial training, limiting the potential of adversarial training on ViTs. This paper proposes a novel defense method, MIMIR, which aims to build a different adversarial training methodology by utilizing Masked Image Modeling at pre-training. We create an autoencoder that accepts adversarial examples as input but takes the clean examples as the modeling target. Then, we create a mutual information (MI) penalty following the idea of the Information Bottleneck. Among the two information source inputs and corresponding adversarial perturbation, the perturbation information is eliminated due to the constraint of the modeling target. Next, we provide a theoretical analysis of MIMIR using the bounds of the MI penalty. We also design two adaptive attacks when the adversary is aware of the MIMIR defense and show that MIMIR still performs well. The experimental results show that MIMIR improves (natural and adversarial) accuracy on average by 4.19\% on CIFAR-10 and 5.52\% on ImageNet-1K, compared to baselines. On Tiny-ImageNet, we obtained improved natural accuracy of 2.99\% on average and comparable adversarial accuracy. Our code and trained models are publicly available\footnote{\url{https://anonymous.4open.science/r/MIMIR-5444/README.md}}.
翻訳日:2023-12-11 15:24:42 公開日:2023-12-08
# 国家純度との相関による集団密閉証人強化

Enhancing collective entanglement witnesses through correlation with state purity ( http://arxiv.org/abs/2312.04957v1 )

ライセンス: Link先を確認
Kate\v{r}ina Jir\'akov\'a, Anton\'in \v{C}ernoch, Artur Barasi\'nski and Karel Lemr(参考訳) 本稿では, 集合量子計測における白色雑音の悪影響を解析し, このようなノイズが, 量子通信における集団計測の直接的展開に重大な障害をもたらすことを論じる。 論文では、これらの測定結果と量子状態の純度を関連付けてこの問題に対処することを提案する。 この概念をテストするために、状態純度を分離可能な状態と区別する分類タスクに組み込むことにより、複数の集団絡み目の目撃者の性能を高めるために支持ベクトルマシンを用いる。 さらに、機械学習の応用により、感度の目標値が与えられた場合の絡み検出の選択性を最適化することができる。 この最適化と、提案モデルの有効性を評価するために算出された曲線下領域に基づいて、応答動作特性曲線を再構成する。

This paper analyzes the adverse impact of white noise on collective quantum measurements and argues that such noise poses a significant obstacle to the otherwise straightforward deployment of collective measurements in quantum communications. The paper then suggests addressing this issue by correlating the outcomes of these measurements with quantum state purity. To test the concept, a support vector machine is employed to boost the performance of several collective entanglement witnesses by incorporating state purity into the classification task of distinguishing entangled states from separable ones. Furthermore, the application of machine learning allows to optimize selectivity of entanglement detection given a target value of sensitivity. A response operating characteristic curve is reconstructed based on this optimization and the area under curve calculated to assess the efficacy of the proposed model.
翻訳日:2023-12-11 15:24:10 公開日:2023-12-08
# 逐次帰納予測間隔

Sequential inductive prediction intervals ( http://arxiv.org/abs/2312.04950v1 )

ライセンス: Link先を確認
Benny Avelin(参考訳) 本稿では,逐次テストからの理論を用いて,逐次帰納的予測間隔の概念を考察する。 さらに、予測区間の3パラメータPAC定義を導入し、シミュレーションにより高い確率でほぼシャープな境界を達成できるようにする。

In this paper we explore the concept of sequential inductive prediction intervals using theory from sequential testing. We furthermore introduce a 3-parameter PAC definition of prediction intervals that allows us via simulation to achieve almost sharp bounds with high probability.
翻訳日:2023-12-11 15:23:54 公開日:2023-12-08
# CSSTの科学的準備:深層学習に基づく銀河・星雲・星団の分類

Scientific Preparation for CSST: Classification of Galaxy and Nebula/Star Cluster Based on Deep Learning ( http://arxiv.org/abs/2312.04948v1 )

ライセンス: Link先を確認
Yuquan Zhang, Zhong Cao, Feng Wang, Lam, Man I, Hui Deng, Ying Mei, and Lei Tan(参考訳) 中国の宇宙ステーション望遠鏡(CSST)は将来の先進宇宙望遠鏡である。 銀河と星雲/星団(nsc)のリアルタイム同定は、csst調査において非常に有用である。 近年,天体認識の研究が進んでいるが,高分解能局所画像の迅速かつ効率的な同定は課題である。 本研究では,ハッブル宇宙望遠鏡のデータに基づく深層学習法を用いて,銀河・NSC画像分類の研究を行った。 我々は局所セレスタル画像データセットを構築し、銀河とNSCの画像の分類のためのHR-CelestialNetというディープラーニングモデルを設計した。 HR-CelestialNetはテストセットで89.09%の精度を達成し、AlexNet、VGGNet、ResNetなどのモデルよりも高速な認識速度を示した。 さらに,CSST画像の品質に影響を及ぼす要因について検討し,HR-CelestialNetのぼやけた画像データセットに対する一般化能力を評価し,低画質に対するロバスト性を実証した。 提案手法は,CSST探査ミッション中の天体画像のリアルタイム識別を可能にする。

The Chinese Space Station Telescope (abbreviated as CSST) is a future advanced space telescope. Real-time identification of galaxy and nebula/star cluster (abbreviated as NSC) images is of great value during CSST survey. While recent research on celestial object recognition has progressed, the rapid and efficient identification of high-resolution local celestial images remains challenging. In this study, we conducted galaxy and NSC image classification research using deep learning methods based on data from the Hubble Space Telescope. We built a Local Celestial Image Dataset and designed a deep learning model named HR-CelestialNet for classifying images of the galaxy and NSC. HR-CelestialNet achieved an accuracy of 89.09% on the testing set, outperforming models such as AlexNet, VGGNet and ResNet, while demonstrating faster recognition speeds. Furthermore, we investigated the factors influencing CSST image quality and evaluated the generalization ability of HR-CelestialNet on the blurry image dataset, demonstrating its robustness to low image quality. The proposed method can enable real-time identification of celestial images during CSST survey mission.
翻訳日:2023-12-11 15:23:49 公開日:2023-12-08
# 実世界単一画像からの教師なしオブジェクトセグメンテーションのベンチマークと解析

Benchmarking and Analysis of Unsupervised Object Segmentation from Real-world Single Images ( http://arxiv.org/abs/2312.04947v1 )

ライセンス: Link先を確認
Yafei Yang, Bo Yang(参考訳) 本稿では,単一画像からの教師なしオブジェクトセグメンテーションの問題について検討する。 我々は,新しいアルゴリズムを導入するのではなく,既存の教師なしモデルが現実世界の画像に挑戦する上での有効性を体系的に検討する。 まず,人間のアノテーションを用いたデータセットの外観と幾何学における背景および前景オブジェクトの偏りの分布を定量的に測定する7つの複雑性因子を導入する。 これらの要因の助けを借りて、既存の教師なしモデルでは、実世界の画像に汎用オブジェクトをセグメント化できないことには驚きはないが、合成データと実画像のオブジェクト性バイアスの差が大きいため、多数の単純な合成データセットで優れたパフォーマンスを実現することは容易である。 改良された実世界のデータセットの複数のグループに対して広範な実験を行うことで、実世界の画像上の既存の教師なしモデルの失敗の根底にある重要な要因は、外観と幾何学における背景および前景のオブジェクトバイアスの難しい分布であることがわかった。 このため、既存の教師なしモデルで導入された帰納的バイアスは、多様なオブジェクト分布を捉えられない。 我々の研究結果は、将来の研究はネットワーク設計におけるより明示的なオブジェクト指向バイアスを利用するべきであることを示唆している。

In this paper, we study the problem of unsupervised object segmentation from single images. We do not introduce a new algorithm, but systematically investigate the effectiveness of existing unsupervised models on challenging real-world images. We first introduce seven complexity factors to quantitatively measure the distributions of background and foreground object biases in appearance and geometry for datasets with human annotations. With the aid of these factors, we empirically find that, not surprisingly, existing unsupervised models fail to segment generic objects in real-world images, although they can easily achieve excellent performance on numerous simple synthetic datasets, due to the vast gap in objectness biases between synthetic and real images. By conducting extensive experiments on multiple groups of ablated real-world datasets, we ultimately find that the key factors underlying the failure of existing unsupervised models on real-world images are the challenging distributions of background and foreground object biases in appearance and geometry. Because of this, the inductive biases introduced in existing unsupervised models can hardly capture the diverse object distributions. Our research results suggest that future work should exploit more explicit objectness biases in the network design.
翻訳日:2023-12-11 15:23:30 公開日:2023-12-08
# ICL整合性試験

The ICL Consistency Test ( http://arxiv.org/abs/2312.04945v1 )

ライセンス: Link先を確認
Lucas Weber, Elia Bruni, Dieuwke Hupkes(参考訳) 前世代のタスクチューニングモデルと同じように、インコンテキスト学習(icl)のようなプロンプトベースのメソッドを通じてタスクに適合する大型言語モデル(llm)は、一部のセットアップではうまく機能するが、他ではうまく動作しない。 素早い学習における一貫性の欠如は、堅牢な一般化の欠如を示唆している。 これは、モデルが、同じデータを使用しながら、さまざまなセットアップでどの程度一貫した予測を行うかを評価するものだ。 テストは、異なる確立された自然言語推論タスクに基づいている。 96の異なる'セットアップ'を構成する事前処理データと、これらのセットアップ間でモデルの一貫性を推定するメトリクスを提供する。 このメトリクスは、セットアップレンダリングのどの特性が不安定であるかを理解するためにきめ細かいレベルで提供され、全体のモデルの一貫性を比較するために集約されたレベルで提供される。 我々は,8つの最先端モデルの実証分析を行い,全てのLLMが堅牢な一般化を欠いていることを示す。

Just like the previous generation of task-tuned models, large language models (LLMs) that are adapted to tasks via prompt-based methods like in-context-learning (ICL) perform well in some setups but not in others. This lack of consistency in prompt-based learning hints at a lack of robust generalisation. We here introduce the ICL consistency test -- a contribution to the GenBench collaborative benchmark task (CBT) -- which evaluates how consistent a model makes predictions across many different setups while using the same data. The test is based on different established natural language inference tasks. We provide preprocessed data constituting 96 different 'setups' and a metric that estimates model consistency across these setups. The metric is provided on a fine-grained level to understand what properties of a setup render predictions unstable and on an aggregated level to compare overall model consistency. We conduct an empirical analysis of eight state-of-the-art models, and our consistency metric reveals how all tested LLMs lack robust generalisation.
翻訳日:2023-12-11 15:23:12 公開日:2023-12-08
# 自然言語処理による暗黒ウェブ分類:テキスト情報に基づくWebページの暗黒コンテンツ分類

Illicit Darkweb Classification via Natural-language Processing: Classifying Illicit Content of Webpages based on Textual Information ( http://arxiv.org/abs/2312.04944v1 )

ライセンス: Link先を確認
Giuseppe Cascavilla, Gemma Catolino, Mirella Sangiovanni(参考訳) 本研究は, 違法行為分類の文脈において, 3つのステップを踏襲し, 過去の業務を拡大することを目的とする。 まず、113995のオニオンサイトとダークマーケットの異種データセットを作成しました。 次に,従来のLSTM(Long short-term memory)ニューラルネットワークのようなテキスト分類手法を用いて,事前学習可能なモデルであるULMFit(Universal Language Model Fine-tuning),Bert(Bidirectional Encoder Representations from Transformers),RoBERTa(Robustly Optimization BERT approach)を比較した。 最後に、ダークウェブ上の違法なコンテンツと、特定の種類の薬物を識別する2つの違法な行動分類手法を開発した。 その結果、バートはダークウェブの一般的な内容と薬物の種類を96.08%と91.98%の精度で分類し、最良のアプローチを得た。

This work aims at expanding previous works done in the context of illegal activities classification, performing three different steps. First, we created a heterogeneous dataset of 113995 onion sites and dark marketplaces. Then, we compared pre-trained transferable models, i.e., ULMFit (Universal Language Model Fine-tuning), Bert (Bidirectional Encoder Representations from Transformers), and RoBERTa (Robustly optimized BERT approach) with a traditional text classification approach like LSTM (Long short-term memory) neural networks. Finally, we developed two illegal activities classification approaches, one for illicit content on the Dark Web and one for identifying the specific types of drugs. Results show that Bert obtained the best approach, classifying the dark web's general content and the types of Drugs with 96.08% and 91.98% of accuracy.
翻訳日:2023-12-11 15:22:56 公開日:2023-12-08
# 非縮退3レベルレーザーにおけるガウス量子ステアリング

Gaussian quantum steering in a nondegenerate three-level laser ( http://arxiv.org/abs/2312.04942v1 )

ライセンス: Link先を確認
Benachir Boukhris, Ahmed Tirbiyine and Jamal El Qars(参考訳) ステアリングは非分離性量子相関の一種であり、その固有の非対称な特徴はベル非局所性と絡み合いを区別する。 本稿では, 2モードのガウス状態における量子ステアリングを, 2モードの真空貯水池に結合した$% \hat{\varrho}_{c_{1}c_{2}}$で検討する。 モード$c_{1}$($c_{2}$)は、非退化3レベルカスケードレーザーの第一(第二)遷移中に放出される。 状態 $\hat{\varrho}_{c_{1}c_{2}}$ のマスター方程式により、モード $c_{1}$ と $c_{2}$ の定常共分散行列の解析式を導出する。 現実的な実験パラメータを用いて、状態 $\hat{\varrho}% _{c_{1}c_{2}}$ が非対称なステアリングを示すことを示す。 さらに、状態 $\hat{\varrho}% _{c_{1}c_{2}}$ の物理的パラメータの適切な選択により、一方方向の操舵が可能であることを示す。 基本的に、一方方向ステアリングは一般に、c_{1}\rightarrow c_{2}$%からしか発生しない。 さらに、2つのレーザーモードのステアリングとガウスR\'{e}nyi-2エンタングルメントの比較研究を行った。 結果として、エンタングルメントとステアリングは同じ状況で同じように振る舞うこと、すなわち、両者が散逸効果の下で崩壊すること、さらに、状態 $\hat{\varrho}_{c_{1}c_{2}}$% でより多くの量子コヒーレンスを誘導することによって、よりよく拡張できることが判明した。 特に、ステアリングは常にガウス R\'{e}nyi-2 の絡み合いよりも小さいことが判明した。

Steering is a type of nonseparable quantum correlation, where its inherent asymmetric feature makes it distinct from Bell-nonlocality and entanglement. In this paper, we investigate quantum steering in a two-mode Gaussian state $% \hat{\varrho}_{c_{1}c_{2}}$ coupled to a two-mode vacuum reservoir. The mode $c_{1}$($c_{2}$) is emitted during the first(second) transition of a nondegenerate three-level cascade laser. By means of the master equation of the state $\hat{\varrho}_{c_{1}c_{2}}$, we derive analytical expression of the steady-state covariance matrix of the modes $c_{1}$ and $c_{2}$. Using realistic experimental parameters, we show that the state $\hat{\varrho}% _{c_{1}c_{2}}$ can exhibit asymmetric steering. Furthermore, by an appropriate choice of the physical parameters of the state $\hat{\varrho}% _{c_{1}c_{2}}$, we show that one-way steering can be achieved. Essentially, we demonstrate that one-way steering can, in general, occur only from $% c_{1}\rightarrow c_{2}$. Besides, we perform a comparative study between the steering of the two laser modes and their Gaussian R\'{e}nyi-2 entanglement. As results, we found that the entanglement and steering behave similarly in the same circumstances, i.e., both of them decay under dissipation effect, moreover, they can be well enhanced by inducing more and more quantum coherence in the state $\hat{\varrho}_{c_{1}c_{2}}$% . In particular, we found that the steering remains always less than the Gaussian R\'{e}nyi-2 entanglement.
翻訳日:2023-12-11 15:22:35 公開日:2023-12-08
# グラフニューラルネットワークを用いた交通データセットの合成

Synthesizing Traffic Datasets using Graph Neural Networks ( http://arxiv.org/abs/2312.05031v1 )

ライセンス: Link先を確認
Daniel Rodriguez-Criado, Maria Chli, Luis J. Manso, George Vogiatzis(参考訳) 都市部における交通渋滞は大きな課題を呈しており、インテリジェントトランスポーテーションシステム(ITS)はこれらに自動および適応制御を用いて対処しようとしている。 しかし、これらのシステムはしばしばシミュレーションされた経験を現実のシナリオに移すのに苦労する。 本稿では、2次元交通シミュレーションと記録ジャンクション映像からフォトリアリスティック画像を作成することにより、この「シムリアル」ギャップを埋める新しい手法を提案する。 本稿では,現実的な都市交通画像の作成を容易にするために,条件付き生成適応ネットワークとグラフニューラルネットワーク(GNN)を統合した新しい画像生成手法を提案する。 局所性データを保存するために,GNNが様々な抽象化レベルで情報を処理できる機能を活用している。 提案アーキテクチャでは,SPADE と Graph Attention (GAT) ネットワークモデルのパワーを活用して,シミュレートされたトラフィックシナリオに基づいた画像を生成する。 これらの画像は、実体の位置、色、日時などの要因によって条件付けられている。 われわれのアプローチの独特さは、構造化された人間の可読性のある条件をグラフとしてエンコードしてリアルな画像に効果的に翻訳できることにある。 この進歩は、データ拡張から都市交通ソリューションまで、豊富なトラフィックイメージデータセットを必要とするアプリケーションに寄与する。 さらに、様々なエンティティの手動で定義された位置を持つ画像を生成するなど、モデルの能力をテストするアプリケーションも提供する。

Traffic congestion in urban areas presents significant challenges, and Intelligent Transportation Systems (ITS) have sought to address these via automated and adaptive controls. However, these systems often struggle to transfer simulated experiences to real-world scenarios. This paper introduces a novel methodology for bridging this `sim-real' gap by creating photorealistic images from 2D traffic simulations and recorded junction footage. We propose a novel image generation approach, integrating a Conditional Generative Adversarial Network with a Graph Neural Network (GNN) to facilitate the creation of realistic urban traffic images. We harness GNNs' ability to process information at different levels of abstraction alongside segmented images for preserving locality data. The presented architecture leverages the power of SPADE and Graph ATtention (GAT) network models to create images based on simulated traffic scenarios. These images are conditioned by factors such as entity positions, colors, and time of day. The uniqueness of our approach lies in its ability to effectively translate structured and human-readable conditions, encoded as graphs, into realistic images. This advancement contributes to applications requiring rich traffic image datasets, from data augmentation to urban traffic solutions. We further provide an application to test the model's capabilities, including generating images with manually defined positions for various entities.
翻訳日:2023-12-11 15:16:07 公開日:2023-12-08
# ADHDによるソフトウェアエンジニアの挑戦,強み,戦略--事例研究

Challenges, Strengths, and Strategies of Software Engineers with ADHD: A Case Study ( http://arxiv.org/abs/2312.05029v1 )

ライセンス: Link先を確認
Grischa Liebel, Noah Langlois, Kiev Gama(参考訳) 神経多様性は、注意欠陥多動性障害(ADHD)や自閉症スペクトラム障害を含む個人の脳機能の変化を記述している。 ニューロディバージェントな個人は共に課題を経験し、職場で強みを示す。 神経多様性の期間に含まれる重要な疾患として、世界人口の5.0%から7.1%がADHDを持っていると推定されている。 しかし、職場でのADHDに関する既存の研究は一般的な性質であり、ソフトウェア工学(SE)の活動には焦点を当てていない。 このギャップに対処するため、我々は、SEで働くADHD患者の経験を探索的質的研究を行った。 ADHD患者は,タスク組織や見積,作業への注意,他者との関係など,いくつかの重要なSE関連活動に苦慮している。 さらに、身体と精神の健康の問題も経験する。 強みの面では、創造的なスキルを高め、パズルを解くときにうまく機能し、先を考える能力を持っている。 本研究は既存の臨床ADHD研究とよく一致し,SEの実践に重要な意味を持つ。

Neurodiversity describes brain function variation in individuals, including Attention deficit hyperactivity disorder (ADHD) and Autism spectrum disorder. Neurodivergent individuals both experience challenges and exhibit strengths in the workplace. As an important disorder included under the neurodiversity term, an estimated 5.0% to 7.1% of the world population have ADHD. However, existing studies involving ADHD in the workplace are of general nature and do not focus on software engineering (SE) activities. To address this gap, we performed an exploratory qualitative case study on the experiences of people with ADHD working in SE. We find that people with ADHD struggle with several important SE-related activities, e.g., task organisation and estimation, attention to work, relation to others. Furthermore, they experience issues with physical and mental health. In terms of strengths, they exhibit, e.g., increased creative skills, perform well when solving puzzles, and have the capability to think ahead. Our findings align well with existing clinical ADHD research, and have important implications to SE practice.
翻訳日:2023-12-11 15:15:45 公開日:2023-12-08
# AntClustを用いたクラスタ画像:アリの化学認識システムに基づくクラスタリングアルゴリズム

Cluster images with AntClust: a clustering algorithm based on the chemical recognition system of ants ( http://arxiv.org/abs/2312.05028v1 )

ライセンス: Link先を確認
Winfried Gero Oed, and Parisa Memarmoshrefi(参考訳) 我々は、アリの化学認識システムに基づくクラスタリングアルゴリズムAntClustを実装し、それを車の画像のクラスタリングに利用する。 元の論文[1]で考案されたアルゴリズムの主な動作原理について、簡単に要約する。 さらに,画像の類似度関数を定義する方法と,その実装が車両再識別データセットから車両の画像をクラスタ化する方法について述べる。 次に、AtClustのクラスタリング性能をDBSCAN、HDBSCAN、OPTICSに対して検証する。 最後に、antclustの中核部分のひとつであるルールセットは、私たちの実装で簡単に再定義でき、他のバイオインスパイアされたアルゴリズムが自動化プロセスでルールを見つける方法を可能にします。 実装はgitlab[9]で見ることができる。

We implement AntClust, a clustering algorithm based on the chemical recognition system of ants and use it to cluster images of cars. We will give a short recap summary of the main working principles of the algorithm as devised by the original paper [1]. Further, we will describe how to define a similarity function for images and how the implementation is used to cluster images of cars from the vehicle re-identification data set. We then test the clustering performance of AntClust against DBSCAN, HDBSCAN and OPTICS. Finally one of the core parts in AntClust, the rule set can be easily redefined with our implementation, enabling a way for other bio-inspired algorithms to find rules in an automated process. The implementation can be found on GitLab [9].
翻訳日:2023-12-11 15:15:27 公開日:2023-12-08
# インスタンス重み付けに基づく教師なしドメイン適応のための統一フレームワーク

A Unified Framework for Unsupervised Domain Adaptation based on Instance Weighting ( http://arxiv.org/abs/2312.05024v1 )

ライセンス: Link先を確認
Jinjing Zhu, Feiyang Ye, Qiao Xiao, Pengxin Guo, Yu Zhang, and Qiang Yang(参考訳) ドメイン適応の進展にもかかわらず、ドメイン間のラベルシフトによって引き起こされる複雑な条件下で、一般的な方法でUnsupervised Domain Adaptation (UDA)問題を解くことは、依然として恐ろしい作業である。 本研究は, 閉集合ドメイン適応, 部分集合ドメイン適応, オープン集合ドメイン適応, ユニバーサル領域適応の4つの異なるUDA設定を包括的に検討し, ソースとターゲットドメイン間の共通クラスをドメイン固有のプライベートクラスと共存させる。 多様なUDA設定に固有の顕著な課題は、共通/プライベートクラスの識別と、ドメインの差異の正確な測定を中心にしている。 これらの課題を効果的に克服するために, LIWUDA (Learning Instance Weighting for Unsupervised Domain Adaptation) と呼ばれる, UDA設定に適合する新しい手法を提案する。 具体的には、共通クラスに属する確率に基づいて各インスタンスに重みを割り当てる重みネットワークを構築し、インスタンス重みを利用するドメインアライメントのための重み付き最適輸送(WOT)を設計する。 さらに、LIWUDA法は、類似度が低いインスタンスを分離し、類似度が高いインスタンスをアライメントするために、分離とアライメント(SA)損失を考案する。 重みネットワークの学習を導くために,共通クラスにおけるインスタンスの重み付けを一様分布に従わせるために,ドメイン内最適輸送(iot)を提案する。 これら3つのコンポーネントを統合することで、LIWUDA法は、4つのUDA設定すべてに統一的に対処できることを示す。 提案したLIWUDA法の有効性を3つのベンチマークデータセットで検証した。

Despite the progress made in domain adaptation, solving Unsupervised Domain Adaptation (UDA) problems with a general method under complex conditions caused by label shifts between domains remains a formidable task. In this work, we comprehensively investigate four distinct UDA settings including closed set domain adaptation, partial domain adaptation, open set domain adaptation, and universal domain adaptation, where shared common classes between source and target domains coexist alongside domain-specific private classes. The prominent challenges inherent in diverse UDA settings center around the discrimination of common/private classes and the precise measurement of domain discrepancy. To surmount these challenges effectively, we propose a novel yet effective method called Learning Instance Weighting for Unsupervised Domain Adaptation (LIWUDA), which caters to various UDA settings. Specifically, the proposed LIWUDA method constructs a weight network to assign weights to each instance based on its probability of belonging to common classes, and designs Weighted Optimal Transport (WOT) for domain alignment by leveraging instance weights. Additionally, the proposed LIWUDA method devises a Separate and Align (SA) loss to separate instances with low similarities and align instances with high similarities. To guide the learning of the weight network, Intra-domain Optimal Transport (IOT) is proposed to enforce the weights of instances in common classes to follow a uniform distribution. Through the integration of those three components, the proposed LIWUDA method demonstrates its capability to address all four UDA settings in a unified manner. Experimental evaluations conducted on three benchmark datasets substantiate the effectiveness of the proposed LIWUDA method.
翻訳日:2023-12-11 15:15:15 公開日:2023-12-08
# ドメインランダム化を利用した擬似ロボットグラスピングのための強化学習に基づくバイオン反射制御

Reinforcement Learning-Based Bionic Reflex Control for Anthropomorphic Robotic Grasping exploiting Domain Randomization ( http://arxiv.org/abs/2312.05023v1 )

ライセンス: Link先を確認
Hirakjyoti Basumatary, Daksh Adhar, Atharva Shrawge, Prathamesh Kanbaskar and Shyamanta M. Hazarika(参考訳) ロボットの把握における人間レベルのデキスタリティの達成は、いまだに困難な取り組みだ。 ロボットハンドは、物体操作中にしばしばすべりや変形に遭遇するが、感覚受容体、経験学習、運動記憶などによって人間が遭遇することは稀である。 ロボットの手の中の人間の把持反射のエミュレーションは、"`bionic reflex"と呼ばれる。 生体反射制御の領域における過去の取り組みは、主にモデルベースおよび教師付き学習アプローチに依存し、しきい値付けやラベル付け作業において人間の介入を必要とする。 本研究では、強化学習(RL)を活用した革新的な生体反射制御パイプラインを導入し、制御設計における人間の介入の必要性を解消する。 提案するビオニオン反射制御器は,pybullet物理シミュレータで変形可能な物体を操作し,sim2実移動性を高めるためのドメインランダム化(dr)を組み込んだ人工的なハンドで設計・テストを行った。 本研究は,ロボットハンドにおけるバイオニック反射制御の強力なツールとしてのrlの期待を裏付けるものである。 この自律型バイオニック・リフレクション・コントローラは、ロボットとロボットの相互作用と補助技術に革命をもたらし、信頼性と高効率なロボットと義手の開発を触媒することを期待している。

Achieving human-level dexterity in robotic grasping remains a challenging endeavor. Robotic hands frequently encounter slippage and deformation during object manipulation, issues rarely encountered by humans due to their sensory receptors, experiential learning, and motor memory. The emulation of the human grasping reflex within robotic hands is referred to as the ``bionic reflex". Past endeavors in the realm of bionic reflex control predominantly relied on model-based and supervised learning approaches, necessitating human intervention during thresholding and labeling tasks. In this study, we introduce an innovative bionic reflex control pipeline, leveraging reinforcement learning (RL); thereby eliminating the need for human intervention during control design. Our proposed bionic reflex controller has been designed and tested on an anthropomorphic hand, manipulating deformable objects in the PyBullet physics simulator, incorporating domain randomization (DR) for enhanced Sim2Real transferability. Our findings underscore the promise of RL as a potent tool for advancing bionic reflex control within anthropomorphic robotic hands. We anticipate that this autonomous, RL-based bionic reflex controller will catalyze the development of dependable and highly efficient robotic and prosthetic hands, revolutionizing human-robot interaction and assistive technologies.
翻訳日:2023-12-11 15:14:46 公開日:2023-12-08
# 選択的バックプロップの勾配整合に関する負の結果

A Negative Result on Gradient Matching for Selective Backprop ( http://arxiv.org/abs/2312.05021v1 )

ライセンス: Link先を確認
Lukas Balles, Cedric Archambeau, Giovanni Zappella(参考訳) モデルとデータセットのサイズが拡大するにつれて、ディープニューラルネットワークのトレーニングは大きな計算負荷になる。 トレーニングプロセスをスピードアップする1つのアプローチはSelective Backpropである。 このアプローチでは,ミニバッチにおける各データポイントの損失値を得るためにフォワードパスを実行する。 後方パスはそのミニバッチのサブセットに制限され、高損失の例を優先する。 このアプローチに基づいて構築するが、ミニバッチ全体の平均勾配に最もよく一致する(重み付けされた)サブセットを選択することにより、サブセット選択機構の改善を図る。 我々は、モデルの最後の層である勾配を安価なプロキシとして使用し、フォワードパスに加えて事実上オーバーヘッドがなくなる。 同時に,本実験では,先行研究に欠落している単純なランダム選択ベースラインを追加する。 意外なことに、損失ベースと勾配マッチング戦略の両方が、ランダムなベースラインを一貫して上回りません。

With increasing scale in model and dataset size, the training of deep neural networks becomes a massive computational burden. One approach to speed up the training process is Selective Backprop. For this approach, we perform a forward pass to obtain a loss value for each data point in a minibatch. The backward pass is then restricted to a subset of that minibatch, prioritizing high-loss examples. We build on this approach, but seek to improve the subset selection mechanism by choosing the (weighted) subset which best matches the mean gradient over the entire minibatch. We use the gradients w.r.t. the model's last layer as a cheap proxy, resulting in virtually no overhead in addition to the forward pass. At the same time, for our experiments we add a simple random selection baseline which has been absent from prior work. Surprisingly, we find that both the loss-based as well as the gradient-matching strategy fail to consistently outperform the random baseline.
翻訳日:2023-12-11 15:14:23 公開日:2023-12-08
# ドローンの視覚に基づく学習 : 調査

Vision-based Learning for Drones: A Survey ( http://arxiv.org/abs/2312.05019v1 )

ライセンス: Link先を確認
Jiaping Xiao, Rangya Zhang, Yuhang Zhang, and Mir Feroskhan(参考訳) 高度なサイバーフィジカルシステムとしてのドローンは、ドローンの自律性と機能に大きな影響を与え、急速に注目を集めているビジョンベースの学習の出現によって、変革的な変化を遂げている。 これまでのタスク固有の調査とは違って、このレビューはドローンにおけるビジョンベースの学習の包括的な概要を提供し、その運用能力向上における重要な役割を強調している。 まず、視覚に基づく学習の基本原則を解明し、ドローンの視覚的認識と意思決定プロセスを大幅に改善する方法を強調します。 次に,視覚に基づく制御手法を,知覚制御の観点から間接的,半間接的,終末的なアプローチに分類する。 単一エージェントシステムからより複雑なマルチエージェントおよびヘテロジニアスシステムシナリオまで,学習能力を備えた視覚ベースのドローンのさまざまな応用について検討し,各領域を特徴付ける課題とイノベーションを強調する。 最後に、オープン質問と潜在的な解決策を探求し、この動的かつ急速に進化する分野における継続的な研究と開発への道を開く。 大型言語モデル(LLM)とインボディードインテリジェンス(インテリジェンス)の増大により、ドローンの視覚に基づく学習は、3D物理世界の人工知能(AGI)への有望だが挑戦的な道のりを提供する。

Drones as advanced cyber-physical systems are undergoing a transformative shift with the advent of vision-based learning, a field that is rapidly gaining prominence due to its profound impact on drone autonomy and functionality. Different from existing task-specific surveys, this review offers a comprehensive overview of vision-based learning in drones, emphasizing its pivotal role in enhancing their operational capabilities. We start by elucidating the fundamental principles of vision-based learning, highlighting how it significantly improves drones' visual perception and decision-making processes. We then categorize vision-based control methods into indirect, semi-direct, and end-to-end approaches from the perception-control perspective. We further explore various applications of vision-based drones with learning capabilities, ranging from single-agent systems to more complex multi-agent and heterogeneous system scenarios, and underscore the challenges and innovations characterizing each area. Finally, we explore open questions and potential solutions, paving the way for ongoing research and development in this dynamic and rapidly evolving field. With growing large language models (LLMs) and embodied intelligence, vision-based learning for drones provides a promising but challenging road towards artificial general intelligence (AGI) in 3D physical world.
翻訳日:2023-12-11 15:14:09 公開日:2023-12-08
# Verizon Mediaネイティブ広告におけるアクシデントクリックの不正なフィルタリング

Unbiased Filtering Of Accidental Clicks in Verizon Media Native Advertising ( http://arxiv.org/abs/2312.05017v1 )

ライセンス: Link先を確認
Yohay Kaplan and Naama Krasne and Alex Shtoff and Oren Somekh(参考訳) Verizon Media(VZM)のネイティブ広告はVZM最大の急成長企業の一つで、過去1年間に数億USドルを突破した。 クリックや変換の確率などのイベント確率を予測するために使用されるVZMネイティブモデルを駆動するのは、OFFSETである。 本研究では,一部のクリックが短寿命であり,偶発的なクリックと定義されていることを認識した場合に,クリックスルー率(CTR)を予測することの課題に焦点を当てる。 偶然クリックすると、ユーザーと広告の間に親和性はほとんどなく、類似ユーザーが広告をクリックすると予測するのは不正確だ。 したがって、トレーニングセットから予め定義されたしきい値よりも低速でクリックを削除することは有益である。 しかし、これらをフィルタリングすることでモデルが予測不能になるため、これらのポジティブな事象を無視することはできない。 従来のアプローチでは、フィルタリングを適用してCTR予測に修正バイアスを追加しようとしたが、収益を上げず、採用されなかった。 本研究では,事故クリックの発生確率に基づいて,事故クリックの正の重みをすべての負の事象(スキップ)に分散させる新しい手法を提案する。 これらの確率は、負の事象の正しいラベルとして捉えられ、トレーニングはバイナリラベルのみの使用から、トレーニングプロセスにバイナリクロスエントロピー損失関数を採用するようになる。 オフラインのパフォーマンス改善を示すと、修正されたモデルはVZMネイティブユーザー向けにオンラインでテストされ、偶然のクリックに依存しない生産モデルに対して1.18%の収益を上げている。

Verizon Media (VZM) native advertising is one of VZM largest and fastest growing businesses, reaching a run-rate of several hundred million USDs in the past year. Driving the VZM native models that are used to predict event probabilities, such as click and conversion probabilities, is OFFSET - a feature enhanced collaborative-filtering based event-prediction algorithm. In this work we focus on the challenge of predicting click-through rates (CTR) when we are aware that some of the clicks have short dwell-time and are defined as accidental clicks. An accidental click implies little affinity between the user and the ad, so predicting that similar users will click on the ad is inaccurate. Therefore, it may be beneficial to remove clicks with dwell-time lower than a predefined threshold from the training set. However, we cannot ignore these positive events, as filtering these will cause the model to under predict. Previous approaches have tried to apply filtering and then adding corrective biases to the CTR predictions, but did not yield revenue lifts and therefore were not adopted. In this work, we present a new approach where the positive weight of the accidental clicks is distributed among all of the negative events (skips), based on their likelihood of causing accidental clicks, as predicted by an auxiliary model. These likelihoods are taken as the correct labels of the negative events, shifting our training from using only binary labels and adopting a binary cross-entropy loss function in our training process. After showing offline performance improvements, the modified model was tested online serving VZM native users, and provided 1.18% revenue lift over the production model which is agnostic to accidental clicks.
翻訳日:2023-12-11 15:13:45 公開日:2023-12-08
# 逆気象画像復元のためのデカップリング劣化とコンテンツ処理

Decoupling Degradation and Content Processing for Adverse Weather Image Restoration ( http://arxiv.org/abs/2312.05006v1 )

ライセンス: Link先を確認
Xi Wang, Xueyang Fu, Peng-Tao Jiang, Jie Huang, Mi Zhou, Bo Li, Zheng-Jun Zha(参考訳) 逆の気象画像復元は、雨、干し草、雪などの様々な気象タイプの影響を受けやすいイメージを復元する試みである。 それぞれの気象タイプは、画像に特有の影響を与えるため、調整された劣化除去アプローチを要求する。 逆に、コンテンツ再構成は、基盤となる画像内容が一貫しているため、一様アプローチを用いることができる。 従来の手法では、1つのネットワーク内で複数の気象タイプを処理できるが、これら2つのプロセス間の決定的な区別を無視し、復元された画像の品質を制限する。 本研究は,ddcnetと呼ばれる新たな悪天候画像復元手法を導入し,そのチャネル統計に基づいて,劣化除去過程とコンテンツ復元過程を特徴レベルで分離する。 具体的には、この2つの過程においてフーリエ変換の独特な利点を生かし、(1)分解情報はフーリエ領域の振幅成分に主に含まれ、(2)フーリエ領域はグローバル情報を含んでいる。 前者は,チャネル依存の劣化除去作業を促進し,ネットワークが各種の悪天候に対する応答を調整できるようにする。後者は,Fourierのグローバルプロパティをチャネル非依存のコンテンツ特徴に統合することにより,一貫したグローバルコンテンツ再構成のためのネットワーク容量を向上する。 劣化マッピング損失関数により劣化除去処理をさらに強化する。 複数の悪天候除去ベンチマークにおいて,本手法による最先端性能の実証実験を行った。

Adverse weather image restoration strives to recover clear images from those affected by various weather types, such as rain, haze, and snow. Each weather type calls for a tailored degradation removal approach due to its unique impact on images. Conversely, content reconstruction can employ a uniform approach, as the underlying image content remains consistent. Although previous techniques can handle multiple weather types within a single network, they neglect the crucial distinction between these two processes, limiting the quality of restored images. This work introduces a novel adverse weather image restoration method, called DDCNet, which decouples the degradation removal and content reconstruction process at the feature level based on their channel statistics. Specifically, we exploit the unique advantages of the Fourier transform in both these two processes: (1) the degradation information is mainly located in the amplitude component of the Fourier domain, and (2) the Fourier domain contains global information. The former facilitates channel-dependent degradation removal operation, allowing the network to tailor responses to various adverse weather types; the latter, by integrating Fourier's global properties into channel-independent content features, enhances network capacity for consistent global content reconstruction. We further augment the degradation removal process with a degradation mapping loss function. Extensive experiments demonstrate our method achieves state-of-the-art performance in multiple adverse weather removal benchmarks.
翻訳日:2023-12-11 15:13:15 公開日:2023-12-08
# トランスダクションを超えて:知識グラフにおけるインダクティブ、少数ショット、ゼロショットリンク予測に関する調査

Beyond Transduction: A Survey on Inductive, Few Shot, and Zero Shot Link Prediction in Knowledge Graphs ( http://arxiv.org/abs/2312.04997v1 )

ライセンス: Link先を確認
Nicolas Hubert, Pierre Monnin, Heiko Paulheim(参考訳) 知識グラフ (KGs) は、異なる意味の意味の関係によって相互に相互に結合するエンティティから構成される。 KGは広範囲のアプリケーションで使用されている。 しかし、それらは本質的に不完全性、すなわち実体に関する実体や事実が欠落している。 その結果、より大きな作品群は、一般的にリンク予測 (lp) と呼ばれるkgsの欠落情報を完成させることに焦点を当てている。 このタスクは伝統的に広く、トランスダクティブな設定で研究されており、テストセット内のすべてのエンティティと関係がトレーニング中に観察される。 最近、いくつかの研究がLPタスクに挑戦しており、テストセットのエンティティとリレーションはトレーニング中に観測されないか、いくつかの事実にのみ現れる可能性がある。 これらの作品はインダクティブ、少数ショット、ゼロショットリンク予測として知られている。 本稿では,本分野における既存研究の体系的レビューを行う。 徹底的な分析により、上記の設定に対する分岐する用語とタスク定義の存在が指摘され、近年の作業との比較の可能性はさらに制限されている。 その結果,各設定を徹底的に解剖し,その本質的特徴を明らかにすることを目指す。 統一的な命名法が最終的に、それぞれをシンプルで一貫した方法で言及するために提案されている。

Knowledge graphs (KGs) comprise entities interconnected by relations of different semantic meanings. KGs are being used in a wide range of applications. However, they inherently suffer from incompleteness, i.e. entities or facts about entities are missing. Consequently, a larger body of works focuses on the completion of missing information in KGs, which is commonly referred to as link prediction (LP). This task has traditionally and extensively been studied in the transductive setting, where all entities and relations in the testing set are observed during training. Recently, several works have tackled the LP task under more challenging settings, where entities and relations in the test set may be unobserved during training, or appear in only a few facts. These works are known as inductive, few-shot, and zero-shot link prediction. In this work, we conduct a systematic review of existing works in this area. A thorough analysis leads us to point out the undesirable existence of diverging terminologies and task definitions for the aforementioned settings, which further limits the possibility of comparison between recent works. We consequently aim at dissecting each setting thoroughly, attempting to reveal its intrinsic characteristics. A unifying nomenclature is ultimately proposed to refer to each of them in a simple and consistent manner.
翻訳日:2023-12-11 15:12:53 公開日:2023-12-08
# PFLlib: 個人化フェデレーション学習アルゴリズムライブラリ

PFLlib: Personalized Federated Learning Algorithm Library ( http://arxiv.org/abs/2312.04992v1 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Liu, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, and Jian Cao(参考訳) データのプライバシ保護と協調学習を可能にする機械学習パラダイムであるフェデレートラーニング(FL)の進歩が進行中である中、パーソナライズされたFL(pFL)は、FLドメイン内の研究方向として大きな注目を集めている。 従来のfl(tfl)がグローバルモデルの共同学習に焦点を当てているのに対して、pflはfl設定で各クライアントのグローバル目標とパーソナライズ目標のバランスを達成することを目指している。 pFL研究コミュニティを育成するために,統合評価プラットフォームを備えた包括的pFLアルゴリズムライブラリであるPFLlibを提案する。 PFLlibでは、34の最先端FLアルゴリズム(7つの古典的tFLアルゴリズムと27のpFLアルゴリズムを含む)を実装し、3つの統計的に異質なシナリオと14のデータセットで様々な評価環境を提供する。 現在、PFLlibはGitHubで850のスターと199のフォークを獲得している。

Amid the ongoing advancements in Federated Learning (FL), a machine learning paradigm that allows collaborative learning with data privacy protection, personalized FL (pFL) has gained significant prominence as a research direction within the FL domain. Whereas traditional FL (tFL) focuses on jointly learning a global model, pFL aims to achieve a balance between the global and personalized objectives of each client in FL settings. To foster the pFL research community, we propose PFLlib, a comprehensive pFL algorithm library with an integrated evaluation platform. In PFLlib, We implement 34 state-of-the-art FL algorithms (including 7 classic tFL algorithms and 27 pFL algorithms) and provide various evaluation environments with three statistically heterogeneous scenarios and 14 datasets. At present, PFLlib has already gained 850 stars and 199 forks on GitHub.
翻訳日:2023-12-11 15:12:33 公開日:2023-12-08
# 高次超thresholdイオン化の量子軌道処理における連続クーロン相互作用の影響

Impact of the continuum Coulomb interaction in quantum-orbit-based treatments of high-order above-threshold ionization ( http://arxiv.org/abs/2312.04989v1 )

ライセンス: Link先を確認
T. Rook, D. Habibovi\'c, L. Cruz Rodriguez, D. B. Milo\v{s}evi\'c, C. Figueira de Morisson Faria(参考訳) 再散乱量子軌道強磁場近似 (RQSFA) とクーロン量子軌道強磁場近似 (CQSFA) による光電子運動量分布の系統的比較を行った。 我々は、直接的、ハイブリッド的、複数の散乱したcqsfa軌道を除外し、単一の再散乱行為を行う軌道の寄与に焦点をあてる。 この軌道の部分集合は、後方散乱と前方散乱の軌道対に対するRQSFAとCQSFAの1対1の対応を確立することができる。 我々は、クーロンポテンシャルが特定の軌道対のイオン化および再散乱時間、再散乱によって決定される運動的制約、および特定の軌道対間の量子干渉に与える影響を評価する。 クーロンポテンシャルがイオン化と戻り時間をどのように変化させ、光電子運動量分布における干渉を解析した。 クーロン効果は、高エネルギーや中エネルギーの光電子エネルギーや短軌道では重要ではなく、連続体における低運動量域や長い電子抽出時間では、残留クーロン電位がより重要であることを示す。

We perform a systematic comparison between photoelectron momentum distributions computed with the rescattered-quantum orbit strong-field approximation (RQSFA) and the Coulomb-quantum orbit strong-field approximation (CQSFA). We exclude direct, hybrid, and multiple scattered CQSFA trajectories, and focus on the contributions of trajectories that undergo a single act of rescattering. For this orbit subset, one may establish a one-to-one correspondence between the RQSFA and CQSFA contributions for backscattered and forward-scattered trajectory pairs. We assess the influence of the Coulomb potential on the ionization and rescattering times of specific trajectory pairs, kinematic constraints determined by rescattering, and quantum interference between specific pairs of trajectories. We analyze how the Coulomb potential alters their ionization and return times, and their interference in photoelectron momentum distributions. We show that Coulomb effects are not significant for high or medium photoelectron energies and shorter orbits, while, for lower momentum ranges or longer electron excursion times in the continuum, the residual Coulomb potential is more important.
翻訳日:2023-12-11 15:12:14 公開日:2023-12-08
# コンテキスト外: ニューラルプログラム修復におけるローカルコンテキストはどの程度重要か?

Out of Context: How important is Local Context in Neural Program Repair? ( http://arxiv.org/abs/2312.04986v1 )

ライセンス: Link先を確認
Julian Aron Prenner and Romain Robbes(参考訳) ディープラーニングのソースコードモデルは、プログラムの自動修復の問題に非常にうまく適用されています。 現状のモデルの小さな入力ウィンドウは、バグ修正(例えば、プロジェクトのメソッドやクラス宣言)に必要なコンテキストコードに完全に適合しないことが多い。 代わりに、入力は、しばしば、ローカルコンテキスト、すなわち、バグロケーションの下と上のラインに制限される。 この作業では、修理成功におけるこのローカルコンテキストの重要性について研究しています。 コンテキストはバグ位置の前後でより重要か? ローカルコンテキストはバグタイプとどのように結びついているのか? これらの質問に答えるために、3つのデータセットと2つのプログラミング言語上で、多くの異なるローカルコンテキスト設定でTransformerモデルをトレーニングし、評価する。 以上の結果から,局所的なコンテキストの大きさ(すべてのバグタイプではない)で全体の修復成功が増加し,入力ウィンドウの約50~60%がバグをリードするコンテキストに使用されることが確認できた。 我々の結果は、TransformerベースのAPRツールに取り組んでいる研究者だけでなく、データセットに含まれるコンテキストを判断しなければならないベンチマークやデータセットの作成にも関係しています。

Deep learning source code models have been applied very successfully to the problem of automated program repair. One of the standing issues is the small input window of current models which often cannot fully fit the context code required for a bug fix (e.g., method or class declarations of a project). Instead, input is often restricted to the local context, that is, the lines below and above the bug location. In this work we study the importance of this local context on repair success: how much local context is needed?; is context before or after the bug location more important? how is local context tied to the bug type? To answer these questions we train and evaluate Transformer models in many different local context configurations on three datasets and two programming languages. Our results indicate that overall repair success increases with the size of the local context (albeit not for all bug types) and confirm the common practice that roughly 50-60% of the input window should be used for context leading the bug. Our results are not only relevant for researchers working on Transformer-based APR tools but also for benchmark and dataset creators who must decide what and how much context to include in their datasets.
翻訳日:2023-12-11 15:11:53 公開日:2023-12-08
# SparQ注意:バンド幅効率のLLM推論

SparQ Attention: Bandwidth-Efficient LLM Inference ( http://arxiv.org/abs/2312.04985v1 )

ライセンス: Link先を確認
Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr(参考訳) 生成型大言語モデル(llm)は多くの新しい可能性を開いたが、その重要な計算要件のため、ユビキタスな使用は依然として困難である。 最も有用なアプリケーションでは、大量のサンプルを一度に処理し、長いコンテキストを使用する必要があり、どちらもモデルのメモリ通信負荷を大幅に増加させる。 キャッシュ履歴を選択的にフェッチすることで,アテンションブロック内のメモリ帯域幅要件を削減し,llmのスループットを向上させる手法であるsparq attentionを導入する。 提案手法は,プレトレーニング設定や追加の微調整を必要とせずに,市販のLCMに直接適用することができる。 本稿では,Llama 2 と Pythia のモデルを下流タスクで評価することにより,SparQ Attention が精度を損なうことなく,注目メモリの帯域幅を最大 8 倍まで削減できることを示す。

Generative large language models (LLMs) have opened up numerous novel possibilities, but due to their significant computational requirements their ubiquitous use remains challenging. Some of the most useful applications require processing large numbers of samples at a time and using long contexts, both significantly increasing the memory communication load of the models. We introduce SparQ Attention, a technique for increasing the inference throughput of LLMs by reducing the memory bandwidth requirements within the attention blocks through selective fetching of the cached history. Our proposed technique can be applied directly to off-the-shelf LLMs during inference, without requiring any modification to the pre-training setup or additional fine-tuning. We show how SparQ Attention can decrease the attention memory bandwidth requirements up to eight times without any loss in accuracy by evaluating Llama 2 and Pythia models on a wide range of downstream tasks.
翻訳日:2023-12-11 15:11:20 公開日:2023-12-08
# マルチクラス分類のためのマッピング不要な自動バーバリザによるプロンプトベース自己学習の強化

Boosting Prompt-Based Self-Training With Mapping-Free Automatic Verbalizer for Multi-Class Classification ( http://arxiv.org/abs/2312.04982v1 )

ライセンス: Link先を確認
Yookyung Kho, Jaehee Kim, Pilsung Kang(参考訳) 近年,プロンプトベースファインチューニングは,テキスト分類作業のコア技術として注目されている。 このアプローチは、Masked Language Modeling(MLM)の目的に合わせて微調整の目的を再構築する。 ラベルのないデータを活用することで、プロンプトベースの自己学習は二進法と三等分類においてより大きな効果を示した。 しかし,実世界のシナリオに適用性が高いにもかかわらず,マルチクラス分類のためのプロンプトベース自己学習は十分に検討されていない。 さらに、マルチクラス分類への現在のメソッドの拡張は、mlm予測からクラスごとに手動で定義した単一ラベルワードの予測値を抽出する動詞化に苦しむ。 そこで我々は,MAV (map-free Automatic Verbalizer) という,新しい効率的な動詞体系を導入する。 完全に接続された2つの層を構成するMAVは、MLM予測から利用可能な全ての情報を活用することで、分類に必要な単語の特徴を自動的に抽出する訓練可能な動詞化器として機能する。 5つの多クラス分類データセットの実験結果は、MAVの優れた自己学習効果を示している。

Recently, prompt-based fine-tuning has garnered considerable interest as a core technique for few-shot text classification task. This approach reformulates the fine-tuning objective to align with the Masked Language Modeling (MLM) objective. Leveraging unlabeled data, prompt-based self-training has shown greater effectiveness in binary and three-class classification. However, prompt-based self-training for multi-class classification has not been adequately investigated, despite its significant applicability to real-world scenarios. Moreover, extending current methods to multi-class classification suffers from the verbalizer that extracts the predicted value of manually pre-defined single label word for each class from MLM predictions. Consequently, we introduce a novel, efficient verbalizer structure, named Mapping-free Automatic Verbalizer (MAV). Comprising two fully connected layers, MAV serves as a trainable verbalizer that automatically extracts the requisite word features for classification by capitalizing on all available information from MLM predictions. Experimental results on five multi-class classification datasets indicate MAV's superior self-training efficacy.
翻訳日:2023-12-11 15:10:51 公開日:2023-12-08
# 2次元等尺テンソルネットワークにおける位相量子相転移

Topological quantum phase transitions in 2D isometric tensor networks ( http://arxiv.org/abs/2312.05079v1 )

ライセンス: Link先を確認
Yu-Jie Liu, Kirill Shtengel, Frank Pollmann(参考訳) 等方性テンソルネットワーク(isoTNS)は、追加の等方性条件を持つテンソルネットワーク状態のサブクラスを形成し、線形深さの逐次量子回路で効率的に準備できることを意味する。 本研究では, 2d で isotns-solvable モデルを構築する手順を提案する。 アイソTNSのパラメータを連続的に調整することで、多体基底状態は量子相転移を行い、2次元の異なる量子相を示す。 我々は、異なる対称性エンリッチ位相(集合)位相間の結合次元$d = 2$補間を持つイソタンス経路を構築してこれを説明する。 遷移点において、アイソTNS波動関数は古典的6頂点モデルのギャップレス点と関連している。 さらに、臨界波動関数は、一方の空間方向に沿って、他方の空間方向の長い範囲を保ちながら、負の相関をサポートする。 我々は,この経路を実現し,プログラム可能な量子デバイス上で効率的に実現できる完全線形深さパラメトリド局所量子回路を提供する。

Isometric tensor networks (isoTNS) form a subclass of tensor network states that have an additional isometric condition, which implies that they can be efficiently prepared with a linear-depth sequential quantum circuit. In this work, we introduce a procedure to construct isoTNS-solvable models in 2D. By continuously tuning a parameter in the isoTNS, the many-body ground state undergoes quantum phase transitions, exhibiting distinct 2D quantum phases. We illustrate this by constructing an isoTNS path with bond dimension $D = 2$ interpolating between distinct symmetry-enriched topological (SET) phases. At the transition point, the isoTNS wavefunction is related to a gapless point in the classical six-vertex model. Furthermore, the critical wavefunction supports a power-law correlation along one spatial direction while remains long-range ordered in the other spatial direction. We provide an exact linear-depth parametrized local quantum circuit that realizes the path and therefore it can be efficiently realized on a programmable quantum device.
翻訳日:2023-12-11 15:03:29 公開日:2023-12-08
# 多層建物における熱制御のための分散ADMMに基づく深層学習手法

A Distributed ADMM-based Deep Learning Approach for Thermal Control in Multi-Zone Buildings ( http://arxiv.org/abs/2312.05073v1 )

ライセンス: Link先を確認
Vincent Taboga (1, 2, 3) and Hanane Dagdougui (1, 2, 3) ((1) Polytechnique Montreal, Department of Mathematics and Industrial Engineering (2) Quebec Artificial Intelligence Institute (Mila) (3) Groupe d'etudes et de recherche en analyse des decisions (GERAD))(参考訳) 電力利用の急増は、断続的な再生可能エネルギー源への依存と相まって、電力グリッドを効果的に管理するための大きなハードルとなっている。 本研究は,ADMMを用いた分散最適化とディープラーニングモデルを組み合わせて,屋内温度設定点を効果的に計画する。 上層に中央建物コーディネータ、熱ゾーン層にローカルコントローラを備えた2層階層構造を用いる。 コーディネーターは、建物の総電力を各ゾーンのローカルパワーターゲットに変換することで、建物の最大電力を制限する必要がある。 ローカルコントローラは、ローカルのパワーターゲットを満たすために温度設定ポイントを変更することができる。 結果として得られた制御アルゴリズムは、Distributed Planning Networksと呼ばれ、様々なタイプの建物に適応可能かつスケーラブルに設計されており、そのようなシステムの開発において2つの大きな課題に対処している。 提案手法はEnergyPlusをモデルとした18ゾーンの建物で検証される。 このアルゴリズムは要求応答ピークイベントをうまく管理する。

The surge in electricity use, coupled with the dependency on intermittent renewable energy sources, poses significant hurdles to effectively managing power grids, particularly during times of peak demand. Demand Response programs and energy conservation measures are essential to operate energy grids while ensuring a responsible use of our resources This research combines distributed optimization using ADMM with Deep Learning models to plan indoor temperature setpoints effectively. A two-layer hierarchical structure is used, with a central building coordinator at the upper layer and local controllers at the thermal zone layer. The coordinator must limit the building's maximum power by translating the building's total power to local power targets for each zone. Local controllers can modify the temperature setpoints to meet the local power targets. The resulting control algorithm, called Distributed Planning Networks, is designed to be both adaptable and scalable to many types of buildings, tackling two of the main challenges in the development of such systems. The proposed approach is tested on an 18-zone building modeled in EnergyPlus. The algorithm successfully manages Demand Response peak events.
翻訳日:2023-12-11 15:03:12 公開日:2023-12-08
# ラキュール! 欧州人権裁判所聴聞会における議論研究の可能性

LaCour!: Enabling Research on Argumentation in Hearings of the European Court of Human Rights ( http://arxiv.org/abs/2312.05061v1 )

ライセンス: Link先を確認
Lena Held, Ivan Habernal(参考訳) なぜ最終判決で議論が終わるのか。 口頭審問中に意図的か疑問視されたか。 聴聞会で特定の裁判官が不当な意見を書くきっかけになったものはありますか。 欧州人権裁判所(ECHR, European Court of Human Rights, ECHR)の最終判決が発効したにもかかわらず、ECHRの多言語口頭審問は転写、構造化、あるいは話者対応のものではないため、これらの法的研究の問題は今のところ答えられていない。 この基本的なギャップは、ECHRの最初の口頭弁論コーパスであるLaCour!を英語、フランス語、その他の裁判所語で154件の完全な聴聞(267時間以上のビデオ映像から210万件のトークン)で解決し、それぞれが対応する最終判決文書にリンクしている。 ビデオから書き起こされ、部分的に修正されたテキストに加えて、文レベルのタイムスタンプと手動のアノテートロールと言語ラベルを提供する。 また、質問と意見の相違を調査する予備的な実験でLaCour!を紹介します。 法的なNLPのユースケースとは別に、法学生や他の関係者もLaCourを学習リソースとして使用して、https://huggingface.co/datasets/TrustHLT/LaCourで自由に利用できるようにしたいと考えています。

Why does an argument end up in the final court decision? Was it deliberated or questioned during the oral hearings? Was there something in the hearings that triggered a particular judge to write a dissenting opinion? Despite the availability of the final judgments of the European Court of Human Rights (ECHR), none of these legal research questions can currently be answered as the ECHR's multilingual oral hearings are not transcribed, structured, or speaker-attributed. We address this fundamental gap by presenting LaCour!, the first corpus of textual oral arguments of the ECHR, consisting of 154 full hearings (2.1 million tokens from over 267 hours of video footage) in English, French, and other court languages, each linked to the corresponding final judgment documents. In addition to the transcribed and partially manually corrected text from the video, we provide sentence-level timestamps and manually annotated role and language labels. We also showcase LaCour! in a set of preliminary experiments that explore the interplay between questions and dissenting opinions. Apart from the use cases in legal NLP, we hope that law students or other interested parties will also use LaCour! as a learning resource, as it is freely available in various formats at https://huggingface.co/datasets/TrustHLT/LaCour.
翻訳日:2023-12-11 15:02:55 公開日:2023-12-08
# 地球制御によるメトロロジーと量子誤差補正のための効率的な状態生成

Efficient State Preparation for Metrology and Quantum Error Correction with Global Control ( http://arxiv.org/abs/2312.05060v1 )

ライセンス: Link先を確認
Liam J. Bond, Matthew J. Davis, Ji\v{r}\'i Min\'a\v{r}, Rene Gerritsma, Gavin K. Brennen and Arghavan Safavi-Naini(参考訳) 我々は、置換不変な量子ビット状態(Dicke state)の特定の重ね合わせを準備できる、単純で実験的に実現可能なプロトコルを導入する。 このプロトコルは、グローバルローテーションと、グローバルに適用される非線形位相ゲート(ローカルアドレスやアンシラキュービットを必要としない)で構成されており、トラップイオン量子シミュレータやキャビティqedシステムなど、さまざまな実験プラットフォームで容易に実装することができる。 理論的不整合を持つ数個の状態に1-\mathcal{F}<10^{-4}$を数値的に準備することで、我々のプロトコルの有用性を実証する。 (i)$\mathcal{O}(1)$ gate stepsにおけるメトロジー的に有用な$N$-qubit Dicke状態 (ii)$N = 9$ qubit codewords of the Ruskai code with $P = 4$ gate steps, and (iii)$N = 13$ qubit Gross codewords in $P = 7$ gate steps。 閉じ込められたイオンプラットフォームに着目して、典型的な実験ノイズレベルの存在下で、このプロトコルがフィデリティ$\gtrsim 95\%$を達成すると推定し、様々な有用な高絡み合った量子状態を作成するための経路を提供する。

We introduce a simple, experimentally realizable protocol that can prepare any specific superposition of permutationally invariant qubit states, also known as Dicke states. The protocol is comprised entirely of global rotations and globally applied non-linear phase gates -- it does not require local addressability or ancilla qubits -- and hence can be readily implemented in a variety of experimental platforms, including trapped-ion quantum simulators and cavity QED systems. We demonstrate the utility of our protocol by numerically preparing several states with theoretical infidelities $1-\mathcal{F}<10^{-4}$: (i) metrologically useful $N$-qubit Dicke states in $\mathcal{O}(1)$ gate steps, (ii) the $N = 9$ qubit codewords of the Ruskai code with $P = 4$ gate steps, and (iii) the $N = 13$ qubit Gross codewords in $P = 7$ gate steps. Focusing on trapped-ion platforms, we estimate that the protocol achieves fidelities $\gtrsim 95\%$ in the presence of typical experimental noise levels, thus providing a pathway to the preparation of a variety of useful highly-entangled quantum states.
翻訳日:2023-12-11 15:02:29 公開日:2023-12-08
# 異常点におけるセンサ感度のパラメトリック向上

Parametrically enhancing sensor sensitivity at an exceptional point ( http://arxiv.org/abs/2312.05057v1 )

ライセンス: Link先を確認
P. Djorw\'e, M. Asjad, Y. Pennec, D. Dutykh, and B. Djafari-Rouhani(参考訳) 本研究では,非エルミート光学質量センサの感度を高める手法を提案する。 ベンチマークシステムは、メカニカル共振器が機械的に結合された2つの結合光メカニカルシステムで構成されている。 光キャビティは青色または赤色のデチューンレーザーによって駆動され、それぞれ利得と損失を生成する。 さらに、メカニカル共振器はバネ定数の変調によりパラメトリック駆動される。 光駆動場の特定の強度とパラメトリック駆動がなければ、システムは例外点(EP)を特徴とする。 機械的周波数への摂動(散逸)はepの分割(シフト)を誘発し、摂動強度の平方根としてスケールし、従来の光機械センサと比較して感度-因子の強化をもたらす。 シフトシナリオによって引き起こされる感度向上は、分裂現象に基づくものに比べて弱い。 パラメトリック駆動を切り替えることで、両方のセンシング方式の感度が大幅に向上し、センサの性能が向上する。 また,光共振器の出力スペクトルと透過特性の解析により,これらの結果を確認した。 また,EP感度の向上に加えて,分割・シフトシナリオ下でのセンシングに対する非線形効果も明らかにした。 この研究は、非エルミート質量センサの感度を高める新しいメカニズムに光を当て、ナノ粒子や汚染物質の検出や水処理のセンサー性能を向上させる方法に光を当てている。

We propose a scheme to enhance the sensitivity of Non-Hermitian optomechanical mass-sensors. The benchmark system consists of two coupled optomechanical systems where the mechanical resonators are mechanically coupled. The optical cavities are driven either by a blue or red detuned laser to produce gain and loss, respectively. Moreover, the mechanical resonators are parametrically driven through the modulation of their spring constant. For a specific strength of the optical driving field and without parametric driving, the system features an Exceptional Point (EP). Any perturbation to the mechanical frequency (dissipation) induces a splitting (shifting) of the EP, which scales as the square root of the perturbation strength, resulting in a sensitivity-factor enhancement compared with conventional optomechanical sensors. The sensitivity enhancement induced by the shifting scenario is weak as compared to the one based on the splitting phenomenon. By switching on parametric driving, the sensitivity of both sensing schemes is greatly improved, yielding to a better performance of the sensor. We have also confirmed these results through an analysis of the output spectra and the transmissions of the optical cavities. In addition to enhancing EP sensitivity, our scheme also reveals nonlinear effects on sensing under splitting and shifting scenarios. This work sheds light on new mechanisms of enhancing the sensitivity of Non-Hermitian mass sensors, paving a way to improve sensors performance for better nanoparticles or pollutants detection, and for water treatment.
翻訳日:2023-12-11 15:02:05 公開日:2023-12-08
# Yahoo Gemini Nativeにおける広告クリック予測改善のためのソフト周波数キャッピング

Soft Frequency Capping for Improved Ad Click Prediction in Yahoo Gemini Native ( http://arxiv.org/abs/2312.05052v1 )

ライセンス: Link先を確認
Michal Aharon and Yohay Kaplan and Rina Levy and Oren Somekh and Ayelet Blanc and Neetai Eshel and Avi Shahar and Assaf Singer and Alex Zlotnik(参考訳) Yahooのネイティブ広告(Gemini Nativeとも呼ばれる)は毎日何十億もの広告インプレッションを提供しており、年間1億米ドルのランレートに達している。 クリック確率(pCTR)と変換確率(pCONV)の両方を予測するのに使用されるGeminiネイティブモデルを駆動するのは、CFベースのイベント予測アルゴリズムであるOFFSETである。 \offsetは、確率勾配勾配(SGD)ベースのアプローチを使用して、新しいログデータのバッチ毎にモデルを更新するワンパスアルゴリズムである。 offsetはユーザの特徴(すなわちユーザレスモデル)によってユーザを表現するため、ルールベースのハード周波数キャッピング(hfc)は、あるユーザが特定の広告を見た回数を制御するために使用される。 さらに,ユーザ広告の疲労によりクリックスルーレート(CTR)が劇的に低下することが明らかとなった。 そこで,クリック予測精度を向上させるために,周波数特徴をユーザアド機能としてオフセットモデルに組み込み,その重みベクトルをオフセットトレーニングの一部としてロジスティック回帰によって学習するソフト周波数キャッピング(sfc)アプローチを提案する。 バケットテストによるソフト周波数キャッピングアルゴリズムのオンライン評価は7.3%の収益向上を示した。 それ以来、周波数機能の強化されたモデルは全トラフィックに対応し、Yahoo Geminiネイティブ向けの巨大な収益を上げている。 また,利用者の性別は広告疲労に影響しないが,後者は年齢とともに増加傾向にあることを示す関連統計を報告する。

Yahoo's native advertising (also known as Gemini native) serves billions of ad impressions daily, reaching a yearly run-rate of many hundred of millions USD. Driving the Gemini native models that are used to predict both click probability (pCTR) and conversion probability (pCONV) is OFFSET - a feature enhanced collaborative-filtering (CF) based event prediction algorithm. \offset is a one-pass algorithm that updates its model for every new batch of logged data using a stochastic gradient descent (SGD) based approach. Since OFFSET represents its users by their features (i.e., user-less model) due to sparsity issues, rule based hard frequency capping (HFC) is used to control the number of times a certain user views a certain ad. Moreover, related statistics reveal that user ad fatigue results in a dramatic drop in click through rate (CTR). Therefore, to improve click prediction accuracy, we propose a soft frequency capping (SFC) approach, where the frequency feature is incorporated into the OFFSET model as a user-ad feature and its weight vector is learned via logistic regression as part of OFFSET training. Online evaluation of the soft frequency capping algorithm via bucket testing showed a significant 7.3% revenue lift. Since then, the frequency feature enhanced model has been pushed to production serving all traffic, and is generating a hefty revenue lift for Yahoo Gemini native. We also report related statistics that reveal, among other things, that while users' gender does not affect ad fatigue, the latter seems to increase with users' age.
翻訳日:2023-12-11 15:01:43 公開日:2023-12-08
# 変換器を用いた画像・画像の擬似コード変換

Converting Epics/Stories into Pseudocode using Transformers ( http://arxiv.org/abs/2312.05047v1 )

ライセンス: Link先を確認
Gaurav Kolhatkar, Akshit Madan, Nidhi Kowtal, Satyajit Roy, Sheetal Sonawane(参考訳) ユーザエピックやストーリーを擬似コードやコードで適切な表現に変換することは、作業時間のかかるタスクであり、産業プロジェクトにおいて大部分の時間を消費することができる。 本稿では,アジャイルのユーザストーリから小さな機能を持つ擬似コードを生成する手法を提案することで,産業プロジェクト全体の作業時間を削減することを目的とする。 Pseudocodeは、コンピュータプログラムに関わるステップのプログラミング言語に依存しない表現であり、どんなプログラミング言語にも容易に変換できる。 自然言語処理の可能性を活用することで、ソフトウェア開発のアジャイルモデルを使用する組織の開発プロセスを簡素化したいと考えています。 本稿では,英語で記述された問題を疑似コードに変換する手法を提案する。 この手法は、テキストから擬似コード変換タスクを2つのステージまたはサブタスクに分割し、それぞれが個々の機械翻訳タスクとして扱われる。 ステージ1はテキストからコード変換、ステージ2は擬似コード変換のためのコードである。 上記の2つのサブタスクで個別にトレーニングすると,CodeT5モデルはBLEUスコアで最高の結果が得られることがわかった。 bleuスコアは、機械翻訳されたテキストと参照翻訳のセットとの類似度を測定するために使用されるメトリクスである。

The conversion of user epics or stories into their appropriate representation in pseudocode or code is a time-consuming task, which can take up a large portion of the time in an industrial project. With this research paper, we aim to present a methodology to generate pseudocode from a given agile user story of small functionalities so as to reduce the overall time spent on the industrial project. Pseudocode is a programming language agnostic representation of the steps involved in a computer program, which can be easily converted into any programming language. Leveraging the potential of Natural Language Processing, we want to simplify the development process in organizations that use the Agile Model of Software Development. We present a methodology to convert a problem described in the English language into pseudocode. This methodology divides the Text to Pseudocode conversion task into two stages or subtasks, each of which is treated like an individual machine translation task. Stage 1 is Text to Code Conversion and Stage 2 is Code to Pseudocode Conversion. We find that the CodeT5 model gives the best results in terms of BLEU score when trained separately on the two subtasks mentioned above. BLEU score is a metric that is used to measure the similarity between a machine-translated text and a set of reference translations.
翻訳日:2023-12-11 15:01:16 公開日:2023-12-08
# MuVieCAST: マルチビュー一貫性のあるアーティスティックスタイル転送

MuVieCAST: Multi-View Consistent Artistic Style Transfer ( http://arxiv.org/abs/2312.05046v1 )

ライセンス: Link先を確認
Nail Ibrahimli, Julian F. P. Kooij, Liangliang Nan(参考訳) モジュール型マルチビュー一貫したスタイル転送ネットワークアーキテクチャであるMuVieCASTを導入し、同一シーンの複数の視点間で一貫したスタイル転送を実現する。 このネットワークアーキテクチャはスパースビューと高密度ビューの両方をサポートし、幅広いマルチビューイメージデータセットを扱うのに十分な汎用性を持つ。 このアプローチは、スタイル転送に関連する特定のタスクを実行する3つのモジュール、すなわちコンテンツ保存、画像変換、マルチビュー一貫性の強制で構成される。 深度マップに基づく点雲融合,メッシュ再構成,新規ビュー合成など,複数のアプリケーション領域にわたるアプローチを幅広く評価する。 実験により,提案手法は定型化画像の例外的な生成を達成し,視点を通して一貫した結果が得られることが明らかとなった。 新規視合成に焦点をあてたユーザ研究により,最近の最先端手法と比較して,生成した出力に対する嗜好を表わす症例の約68\%が,これらの結果をさらに裏付けることができた。 私たちのモジュラーフレームワークは拡張可能で、様々なバックボーンアーキテクチャと簡単に統合できます。 さらなる結果はプロジェクトページで示されています。 muviecast.github.io

We introduce MuVieCAST, a modular multi-view consistent style transfer network architecture that enables consistent style transfer between multiple viewpoints of the same scene. This network architecture supports both sparse and dense views, making it versatile enough to handle a wide range of multi-view image datasets. The approach consists of three modules that perform specific tasks related to style transfer, namely content preservation, image transformation, and multi-view consistency enforcement. We extensively evaluate our approach across multiple application domains including depth-map-based point cloud fusion, mesh reconstruction, and novel-view synthesis. Our experiments reveal that the proposed framework achieves an exceptional generation of stylized images, exhibiting consistent outcomes across perspectives. A user study focusing on novel-view synthesis further confirms these results, with approximately 68\% of cases participants expressing a preference for our generated outputs compared to the recent state-of-the-art method. Our modular framework is extensible and can easily be integrated with various backbone architectures, making it a flexible solution for multi-view style transfer. More results are demonstrated on our project page: muviecast.github.io
翻訳日:2023-12-11 15:00:55 公開日:2023-12-08
# 絡み合ったガンマ光子の量子デコヒーレンスに関する最初の詳細な研究

A first detailed study of the quantum decoherence of entangled gamma photons ( http://arxiv.org/abs/2312.05045v1 )

ライセンス: Link先を確認
Julien Bordes, James R. Brown, Daniel P. Watts, Mikail Bashkanov, Ruth Newton, Nicholas Zachariou(参考訳) 陽電子消滅後に生じるような、MeVスケールでの絡み合った$\gamma$ Quantaの量子デコヒーレンスに関する制約は、何十年も前から解明されてきた。 このような絡み合った$\gamma$の3重コンプトン散乱(TCS)に対する、最初の正確で大規模な受入実験データを示す。 最終CS平面間の方位相関の強化(R$)である絡み合い証人は、中間コンプトン散乱(CS)により$\gamma$の1つを得る。 R$ は、散乱角の古典的な極限を超え、$\sim$40$^{\circ}$ となる。 抽出された$r$ は (0-70^{\circ}$) の範囲を超えて、散乱プロセスの可視性に比例してエンタングルメントが保存される単純なモデルによりよりよく説明される。 この研究は、基本的な物理学とPET医療イメージングのための重要な次のステップである、MeVスケールでのデコヒーレンスに関する最初の理論的記述の開発を支援する。

Constraints on the quantum decoherence of entangled $\gamma$ quanta at the MeV scale, such as those produced following positron annihilation, have remained elusive for many decades. We present the first accurate, large acceptance experimental data for triple Compton scattering (TCS) of such entangled $\gamma$. An entanglement witness, the enhancement ($R$) of the azimuthal correlation between the final CS planes, is obtained where one of the $\gamma$ underwent intermediate Compton scattering (CS). $R$ is found to exceed the classical limit for scatter angles up to $\sim$40$^{\circ}$. The extracted $R$, over the range of the data ($0-70^{\circ}$), are better described by simple models in which entanglement is conserved or decohered proportional to the visibility of the scatter process. The work will help guide the development of a first theoretical description of decoherence at the MeV scale, a crucial next step for fundamental physics and entangled PET medical imaging.
翻訳日:2023-12-11 15:00:33 公開日:2023-12-08
# 目標条件政策の後方学習

Backward Learning for Goal-Conditioned Policies ( http://arxiv.org/abs/2312.05044v1 )

ライセンス: Link先を確認
Marc H\"oftmann, Jan Robine, Stefan Harmeling(参考訳) 報酬のない強化学習の政策を学べるか? 目標状態に到達しようとするだけで,ポリシを学べますか? 本稿では,まず逆行する世界モデルを学習し,第2に目標達成後進軌道を生成し,第3に最短経路探索アルゴリズムを用いてこれらのシーケンスを改善し,最終的には模倣学習によってニューラルネットワークポリシーを訓練する多段階手順を提案する。 本手法は,64ドル画素の鳥の眼像を64\times 64$で観測し,複数の目標を一貫して達成できる決定論的迷路環境において評価する。

Can we learn policies in reinforcement learning without rewards? Can we learn a policy just by trying to reach a goal state? We answer these questions positively by proposing a multi-step procedure that first learns a world model that goes backward in time, secondly generates goal-reaching backward trajectories, thirdly improves those sequences using shortest path finding algorithms, and finally trains a neural network policy by imitation learning. We evaluate our method on a deterministic maze environment where the observations are $64\times 64$ pixel bird's eye images and can show that it consistently reaches several goals.
翻訳日:2023-12-11 15:00:15 公開日:2023-12-08
# ゼロショット無線センシングのための物理層セマンティック・アウェアネットワーク

Physical-Layer Semantic-Aware Network for Zero-Shot Wireless Sensing ( http://arxiv.org/abs/2312.05043v1 )

ライセンス: Link先を確認
Huixiang Zhu, Yong Xiao, Yingyu Li, Guangming Shi, Walid Saad(参考訳) デバイスレスワイヤレスセンシングは、幅広い没入型人間機械対話型アプリケーションをサポートする可能性から、近年、大きな関心を集めている。 しかし、無線信号におけるデータの均一性と分散センシングにおけるデータプライバシ規制は、広域ネットワークシステムにおける無線センシングの広範な適用を妨げる主要な課題であると考えられている。 本稿では,無線受信機で記録された信号が物理層意味的特徴のセットと密接な関係にあるという観測に動機づけられ,1つまたは限られた数で構築されたモデルがラベル付きデータなしで他の場所に直接転送できる,新しいゼロショット無線センシングソリューションを提案する。 我々は,物理層セマンティック・アウェア・ネットワーク(pSAN)フレームワークを開発し,物理層セマンティック特徴と異なる受信機間でのセンシングデータ分布の相関を特徴付ける。 次に,pSANをベースとしたゼロショット学習ソリューションを提案し,すでに構築されている他の受信機のモデルを直接集約することで,各受信機が位置特異的なジェスチャー認識モデルを得ることができるようにした。 提案手法により得られたモデルが局所モデルトレーニングを必要とせずに最適モデルにアプローチできることを理論的に証明する。 実験の結果,提案手法によるモデルの精度は,教師付き学習手法に基づく実ラベルデータで学習したモデルの精度と一致することを確認した。

Device-free wireless sensing has recently attracted significant interest due to its potential to support a wide range of immersive human-machine interactive applications. However, data heterogeneity in wireless signals and data privacy regulation of distributed sensing have been considered as the major challenges that hinder the wide applications of wireless sensing in large area networking systems. Motivated by the observation that signals recorded by wireless receivers are closely related to a set of physical-layer semantic features, in this paper we propose a novel zero-shot wireless sensing solution that allows models constructed in one or a limited number of locations to be directly transferred to other locations without any labeled data. We develop a novel physical-layer semantic-aware network (pSAN) framework to characterize the correlation between physical-layer semantic features and the sensing data distributions across different receivers. We then propose a pSAN-based zero-shot learning solution in which each receiver can obtain a location-specific gesture recognition model by directly aggregating the already constructed models of other receivers. We theoretically prove that models obtained by our proposed solution can approach the optimal model without requiring any local model training. Experimental results once again verify that the accuracy of models derived by our proposed solution matches that of the models trained by the real labeled data based on supervised learning approach.
翻訳日:2023-12-11 15:00:02 公開日:2023-12-08
# SmartMask: きめ細かいオブジェクト挿入とレイアウト制御のためのコンテキスト対応高忠実マスク生成

SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout Control ( http://arxiv.org/abs/2312.05039v1 )

ライセンス: Link先を確認
Jaskirat Singh, Jianming Zhang, Qing Liu, Cameron Smith, Zhe Lin, Liang Zheng(参考訳) 近年の潜伏拡散モデルの出現により, 画像のインペイントや物体挿入の分野は大きな進歩を遂げている。 精密なオブジェクトマスクを利用することで、これらの応用を大幅に強化することができる。 しかし、ユーザーが高忠実度マスクを作成する際に直面する課題のため、これらの手法はより粗いマスク(例えば、バウンディングボックス)に依存する傾向にある。 これにより、制御が制限され、背景コンテンツの保存が損なわれた。 この制限を克服するため、SmartMaskを導入し、初心者でも正確なオブジェクト挿入のための詳細なマスクを作成できる。 ControlNet-Inpaint モデルと組み合わせることで,SmartMask が従来の手法よりも効果的にバックグラウンドコンテンツを保存し,優れたオブジェクト挿入品質を実現することを示す。 特に、以前の作業とは異なり、提案手法はユーザマスクガイダンスなしでも使用できるため、さまざまな位置やスケールでマスクフリーなオブジェクト挿入が可能だ。 さらに,新しいインストラクションチューニングベースの計画モデルで反復的に使用すると,smartmaskを使って詳細なレイアウトをスクラッチから設計できることがわかった。 ユーザ記述型レイアウト設計と比較すると,SmartMaskはレイアウト・ツー・イメージ生成方式で高品質な出力を実現する。 プロジェクトページはhttps://smartmask-gen.github.ioで閲覧できる。

The field of generative image inpainting and object insertion has made significant progress with the recent advent of latent diffusion models. Utilizing a precise object mask can greatly enhance these applications. However, due to the challenges users encounter in creating high-fidelity masks, there is a tendency for these methods to rely on more coarse masks (e.g., bounding box) for these applications. This results in limited control and compromised background content preservation. To overcome these limitations, we introduce SmartMask, which allows any novice user to create detailed masks for precise object insertion. Combined with a ControlNet-Inpaint model, our experiments demonstrate that SmartMask achieves superior object insertion quality, preserving the background content more effectively than previous methods. Notably, unlike prior works the proposed approach can also be used even without user-mask guidance, which allows it to perform mask-free object insertion at diverse positions and scales. Furthermore, we find that when used iteratively with a novel instruction-tuning based planning model, SmartMask can be used to design detailed layouts from scratch. As compared with user-scribble based layout design, we observe that SmartMask allows for better quality outputs with layout-to-image generation methods. Project page is available at https://smartmask-gen.github.io
翻訳日:2023-12-11 14:59:38 公開日:2023-12-08
# ユニバーサル画像復元のためのPrompt-In-Prompt学習

Prompt-In-Prompt Learning for Universal Image Restoration ( http://arxiv.org/abs/2312.05038v1 )

ライセンス: Link先を確認
Zilong Li, Yiming Lei, Chenglong Ma, Junping Zhang, Hongming Shan(参考訳) 劣化した画像の検索と拡張を目的とした画像復元は、幅広いアプリケーションで基本である。 従来のディープラーニングアプローチは、さまざまなタスクで画像品質が大幅に向上しているが、それでも苦しむ。 (i)様々なタスク固有のモデルに必要な高いストレージコスト、及び (ii) 相互作用と柔軟性の欠如により、より広い適用が妨げられる。 言語領域と視覚領域の両方におけるプロンプトの成功からインスピレーションを得て,汎用画像復元のための新しいプロンプト・イン・プロンプト学習を提案する。 まず, 2 つの新しいプロンプト, 高次劣化知識を符号化する劣化認識プロンプト, 重要な低次情報を提供する基本的な復元プロンプトを提案する。 第2に,これら2つのプロンプトをユニバーサル修復プロンプトに融合する,新しいプロンプト・ツー・プロンプトインタラクションモジュールを考案する。 第3に,劣化関連特性を変調する選択的プロンプト・ツー・フェイル相互作用モジュールを導入する。 これにより、PIPはプラグアンドプレイモジュールとして機能し、ユニバーサルイメージ復元のための既存の復元モデルを強化する。 広汎な実験結果から, 画像復調, 脱臭, 脱湿, 脱臭, 低照度化など, 複数の修復作業におけるPIPの優れた性能が示された。 注目すべきは、PIPは解釈可能で、柔軟で、効率的で、使いやすく、現実世界のアプリケーションにとって有望な可能性を示していることだ。 コードはhttps://github.com/longzilicart/pip_universalで入手できる。

Image restoration, which aims to retrieve and enhance degraded images, is fundamental across a wide range of applications. While conventional deep learning approaches have notably improved the image quality across various tasks, they still suffer from (i) the high storage cost needed for various task-specific models and (ii) the lack of interactivity and flexibility, hindering their wider application. Drawing inspiration from the pronounced success of prompts in both linguistic and visual domains, we propose novel Prompt-In-Prompt learning for universal image restoration, named PIP. First, we present two novel prompts, a degradation-aware prompt to encode high-level degradation knowledge and a basic restoration prompt to provide essential low-level information. Second, we devise a novel prompt-to-prompt interaction module to fuse these two prompts into a universal restoration prompt. Third, we introduce a selective prompt-to-feature interaction module to modulate the degradation-related feature. By doing so, the resultant PIP works as a plug-and-play module to enhance existing restoration models for universal image restoration. Extensive experimental results demonstrate the superior performance of PIP on multiple restoration tasks, including image denoising, deraining, dehazing, deblurring, and low-light enhancement. Remarkably, PIP is interpretable, flexible, efficient, and easy-to-use, showing promising potential for real-world applications. The code is available at https://github.com/longzilicart/pip_universal.
翻訳日:2023-12-11 14:59:17 公開日:2023-12-08
# アト秒光イオン化における量子絡み合いのベル試験

Bell test of quantum entanglement in attosecond photoionization ( http://arxiv.org/abs/2312.05036v1 )

ライセンス: Link先を確認
Marco Ruberti, Vitali Averbukh, Florian Mintert(参考訳) アト秒物理学は、光励起と光イオン化による物質の超高速コヒーレント電子動力学の研究を可能にし、ホールマイグレーションや分子内のコヒーレントオージェダイナミクスなどの壮大な効果を明らかにした。 光イオン化のシナリオでは、個々の親イオンおよび光電子系における内部量子コヒーレンスの物理的顕現性を調べることに強く焦点が当てられている。 しかし、アト秒光電離現象から生じるこれら2つのサブシステム間の量子相関は、これまでずっと解明されていない。 本研究では,ベル試験の形でのアト秒光イオン化における量子エンタングルメントの直接プローブを理論的・数値的に設計する。 ベル不等式に頑健な違反を予測できる超短パルス赤外レーザーパルスによる希ガス原子の光イオン化に関するベル試験プロトコルを第一原理からシミュレートした。 この理論的結果は、多電子系の超高速光イオン化の文脈における絡み合いの直接観察への道を開く。 本研究は,分子イオンの化学分解経路を含む,超高速コヒーレント分子動力学における絡み合いのシグネチャを解き放ち,アト秒光イオン化中に生じる系間の量子相関の検出を指向した,アト秒物理学の異なる視点を提供する。

Attosecond physics enables the study of ultrafast coherent electron dynamics in matter upon photoexcitation and photoionization, revealing spectacular effects such as hole migration and coherent Auger dynamics in molecules. In the photoionization scenario, there has been a strong focus on probing the physical manifestations of the internal quantum coherence within the individual parent ion and photoelectron systems. However, quantum correlations between these two subsystems emerging from the attosecond photoionization event have thus far remained much more elusive. In this work, we design theoretically and model numerically a direct probe of quantum entanglement in attosecond photoionization in the form of a Bell test. We simulate from first principles a Bell test protocol for the case of noble gas atoms photoionized by ultrashort, circularly polarized infrared laser pulses in the strong-field regime predicting robust violation of the Bell inequality. This theoretical result paves the way to the direct observation of entanglement in the context of ultrafast photoionization of many-electron systems. Our work provides a different perspective on attosecond physics directed towards the detection of quantum correlations between systems born during attosecond photoionization and unravelling the signatures of entanglement in the ultrafast coherent molecular dynamics, including in the chemical decomposition pathways of molecular ions.
翻訳日:2023-12-11 14:58:50 公開日:2023-12-08
# 双線型行列不等式問題としての把持力最適化:深層学習によるアプローチ

Grasp Force Optimization as a Bilinear Matrix Inequality Problem: A Deep Learning Approach ( http://arxiv.org/abs/2312.05034v1 )

ライセンス: Link先を確認
Hirakjyoti Basumatary, Daksh Adhar, Riddhiman Shaw, and Shyamanta M. Hazarika(参考訳) 把持力合成は双線型制約を含む非凸最適化問題である。 この問題に対する従来のアプローチには、汎用的な勾配に基づく非線形最適化と半定値プログラミングが含まれる。 姿勢相乗効果や非滑らかだが凸正の半定値制約に対処する上で、勾配に基づく最適化を超越する。 本研究の目的は,多指ロボットハンドにおける生体模倣把持の把握を双線形行列不等式(bmi)問題として捉えることである。 本解析は,未学習物体に対して最適把持品質を有する力閉包を効率的に生成するための深層学習手法を用いて解くことを目的としている。

Grasp force synthesis is a non-convex optimization problem involving constraints that are bilinear. Traditional approaches to this problem involve general-purpose gradient-based nonlinear optimization and semi-definite programming. With a view towards dealing with postural synergies and non-smooth but convex positive semidefinite constraints, we look beyond gradient-based optimization. The focus of this paper is to undertake a grasp analysis of biomimetic grasping in multi-fingered robotic hands as a bilinear matrix inequality (BMI) problem. Our analysis is to solve it using a deep learning approach to make the algorithm efficiently generate force closure grasps with optimal grasp quality on untrained/unseen objects.
翻訳日:2023-12-11 14:58:27 公開日:2023-12-08
# 分位回帰による拡散モデルにおけるメンバーシップ推論攻撃

Membership Inference Attacks on Diffusion Models via Quantile Regression ( http://arxiv.org/abs/2312.05140v1 )

ライセンス: Link先を確認
Shuai Tang, Zhiwei Steven Wu, Sergul Aydore, Michael Kearns, Aaron Roth(参考訳) 近年,高画質な画像合成のための拡散モデルが普及している。 しかし、他の大規模モデルと同様に、トレーニングデータに関するプライベート情報をリークする可能性がある。 ここでは、訓練された拡散モデルが与えられた場合、対象のサンプルがトレーニングセットに属するかどうかを特定することを目的とした、emph{membership inference (MI) attack}による拡散モデルのプライバシー上の脆弱性を示す。 提案するmi攻撃は,トレーニングで使用されていない例に対する再構成損失の分布を予測する(質的)質的回帰モデルを学ぶ。 これにより、例に合わせたカスタムしきい値を用いて、その点の復元損失のしきい値に基づいて、トレーニングセット内の点のメンバシップを決定するための粒度の仮説テストを定義することができる。 また,'a bag of weak attackers' よりも多数メンバシップを予測できる単純なブートストラップ手法も提供し,個々の量子回帰モデルの精度を向上させる。 以前の攻撃では、攻撃対象のモデルと同じアーキテクチャで複数の‘シャドウモデル’をトレーニングする必要がありましたが、我々の攻撃では、より小さなモデルのみをトレーニングする必要があります。

Recently, diffusion models have become popular tools for image synthesis because of their high-quality outputs. However, like other large-scale models, they may leak private information about their training data. Here, we demonstrate a privacy vulnerability of diffusion models through a \emph{membership inference (MI) attack}, which aims to identify whether a target example belongs to the training set when given the trained diffusion model. Our proposed MI attack learns quantile regression models that predict (a quantile of) the distribution of reconstruction loss on examples not used in training. This allows us to define a granular hypothesis test for determining the membership of a point in the training set, based on thresholding the reconstruction loss of that point using a custom threshold tailored to the example. We also provide a simple bootstrap technique that takes a majority membership prediction over ``a bag of weak attackers'' which improves the accuracy over individual quantile regression models. We show that our attack outperforms the prior state-of-the-art attack while being substantially less computationally expensive -- prior attacks required training multiple ``shadow models'' with the same architecture as the model under attack, whereas our attack requires training only much smaller models.
翻訳日:2023-12-11 14:51:15 公開日:2023-12-08
# 最適マルチディストリビューション学習

Optimal Multi-Distribution Learning ( http://arxiv.org/abs/2312.05134v1 )

ライセンス: Link先を確認
Zihan Zhang, Wenhao Zhan, Yuxin Chen, Simon S. Du, Jason D. Lee(参考訳) 分散学習(mdl、multi-distribution learning)は、k$の異なるデータ分散間で最悪のリスクを最小限に抑える共有モデルを目指しているが、ロバスト性、公平性、マルチグループコラボレーションといった進化する需要に応えて、統一されたフレームワークとして登場した。 データ効率のよいMDLを実現するには、学習プロセス全体を通じて適応サンプリング(オンデマンドサンプリングとも呼ばれる)が必要である。 しかし, 最適標本の複雑性には, 最先端の上限と下限のギャップが存在する。 Vapnik-Chervonenkis (VC) 次元 $d$ の仮説クラスに焦点をあて、最もよく知られた下界と一致する$(d+k)/\varepsilon^2$ (modulo some logarithmic factor) の順にサンプル複雑性を持つ $varepsilon$-optimal randomized hypothesis を生成する新しいアルゴリズムを提案する。 我々のアルゴリズムのアイデアと理論はラデマッハクラスに対応するためにさらに拡張されている。 提案アルゴリズムはオラクル効率が良く、経験的リスク最小化オラクルを通してのみ仮説クラスにアクセスする。 さらにランダム化の必要性を確立し,決定論的仮説のみを許容した場合に,大きなサンプルサイズバリアを明らかにする。 これらの結果は、COLT 2023(Awasthi et al., 2023, Problem 1, 3 and 4)で示された3つのオープンな問題を解決した。

Multi-distribution learning (MDL), which seeks to learn a shared model that minimizes the worst-case risk across $k$ distinct data distributions, has emerged as a unified framework in response to the evolving demand for robustness, fairness, multi-group collaboration, etc. Achieving data-efficient MDL necessitates adaptive sampling, also called on-demand sampling, throughout the learning process. However, there exist substantial gaps between the state-of-the-art upper and lower bounds on the optimal sample complexity. Focusing on a hypothesis class of Vapnik-Chervonenkis (VC) dimension $d$, we propose a novel algorithm that yields an $varepsilon$-optimal randomized hypothesis with a sample complexity on the order of $(d+k)/\varepsilon^2$ (modulo some logarithmic factor), matching the best-known lower bound. Our algorithmic ideas and theory have been further extended to accommodate Rademacher classes. The proposed algorithms are oracle-efficient, which access the hypothesis class solely through an empirical risk minimization oracle. Additionally, we establish the necessity of randomization, unveiling a large sample size barrier when only deterministic hypotheses are permitted. These findings successfully resolve three open problems presented in COLT 2023 (i.e., Awasthi et al., (2023, Problem 1, 3 and 4)).
翻訳日:2023-12-11 14:50:55 公開日:2023-12-08
# gir: relightable scene factorizationのための3次元ガウス逆レンダリング

GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization ( http://arxiv.org/abs/2312.05133v1 )

ライセンス: Link先を確認
Yahao Shi, Yanmin Wu, Chenming Wu, Xing Liu, Chen Zhao, Haocheng Feng, Jingtuo Liu, Liangjun Zhang, Jian Zhang, Bin Zhou, Errui Ding, Jingdong Wang(参考訳) 本稿では,3次元ガウス逆レンダリング法であるGIRについて述べる。 離散メッシュやニューラル暗黙の場を逆レンダリングに利用する既存の手法と比較して,本手法は3次元ガウスアンを用いて多視点画像から物体の材料特性,照明,形状を推定する。 我々の研究は、3D Gaussianが、性能、汎用性、効率の点で、ニューラルネットワークよりも有望なバックボーンであることを示す証拠によって動機付けられている。 本稿では,「3次元ガウスは逆レンダリングの性能を向上させるためにどのように適用できるか?」という質問に対して,離散的かつしばしば同質な分散3次元ガウス表現に基づく正規推定の複雑さに対処するために,新たな監督を必要とせずに表面正規表現のモデリングを容易にする効率的な自己正規化手法を提案する。 間接照明を再現するために,光線追跡をシミュレートする手法を提案する。 広範囲にわたる実験により,提案手法が複数タスクにまたがる既存手法よりも優れた性能を示すことを実証した。 これにより、その有効性と幅広い適用性が実証され、啓蒙と復興に影響力のあるツールとしての可能性が強調される。 プロジェクトページ: https://3dgir.github.io

This paper presents GIR, a 3D Gaussian Inverse Rendering method for relightable scene factorization. Compared to existing methods leveraging discrete meshes or neural implicit fields for inverse rendering, our method utilizes 3D Gaussians to estimate the material properties, illumination, and geometry of an object from multi-view images. Our study is motivated by the evidence showing that 3D Gaussian is a more promising backbone than neural fields in terms of performance, versatility, and efficiency. In this paper, we aim to answer the question: ``How can 3D Gaussian be applied to improve the performance of inverse rendering?'' To address the complexity of estimating normals based on discrete and often in-homogeneous distributed 3D Gaussian representations, we proposed an efficient self-regularization method that facilitates the modeling of surface normals without the need for additional supervision. To reconstruct indirect illumination, we propose an approach that simulates ray tracing. Extensive experiments demonstrate our proposed GIR's superior performance over existing methods across multiple tasks on a variety of widely used datasets in inverse rendering. This substantiates its efficacy and broad applicability, highlighting its potential as an influential tool in relighting and reconstruction. Project page: https://3dgir.github.io
翻訳日:2023-12-11 14:50:25 公開日:2023-12-08
# 確率ゲームとしての繰り返し量子ゲーム:未来の影と絡み合いの影響

Repeated quantum game as a stochastic game: Effects of the shadow of the future and entanglement ( http://arxiv.org/abs/2312.05124v1 )

ライセンス: Link先を確認
Archan Mukhopadhyay, Saikat Sur, Tanay Saha, Shubhadeep Sadhukhan, Sagar Chakraborty(参考訳) 本稿では,新しい繰り返しゲームプロトコルを用いて構築された量子ゲームについて,繰り返しアドフィニトゥムを再生する際に,体系的に検討する。 我々は、本質的に量子機械的ランダム性により、そのような繰り返しゲームが確率ゲームというパラダイムにマッピングできることを確立することに重点を置いている。 その後、二者対アクションゲームの設定を用いて、量子ゲームにおけるサポートはもはや数え切れないほど有限ではなく、むしろ計算不可能な無限である、反応戦略の集合に属する純粋な反応性戦略を探求する。 2つの純粋な戦略が互いにどのように作用するかは、ディスカウント係数(次のラウンドごとに発生する確率)と、プレイヤーの量子状態がどれだけ絡み合っているかに大きく依存している。 古典的な設定で得られた結果とは対照的に、例えば、基礎となるゲームが囚人のジレンマである場合、量子ゲームの設定において、常に欠陥の戦略は、十分な割引係数を求めるティット・フォー・タット戦略によって打ち負かされる。

We present a systematic investigation of the quantum games, constructed using a novel repeated game protocol, when played repeatedly ad infinitum. We focus on establishing that such repeated games -- by virtue of inherent quantum-mechanical randomness -- can be mapped to the paradigm of stochastic games. Subsequently, using the setup of two-player--two-action games, we explore the pure reactive strategies belonging to the set of reactive strategies, whose support in the quantum games is no longer countably finite but rather non-denumerably infinite. We find that how two pure strategies fare against each other is crucially dependent on the discount factor (the probability of occurrence of every subsequent round) and how much entangled the quantum states of the players are. We contrast the results obtained with the corresponding results in the classical setup and find fundamental differences between them: e.g, when the underlying game is the prisoner's dilemma, in the quantum game setup, always-defect strategy can be beaten by the tit-for-tat strategy for high enough discount factor.
翻訳日:2023-12-11 14:50:02 公開日:2023-12-08
# 異種臨床および低磁場可搬MRIにおける白質超強度と脳容積の定量化

Quantifying white matter hyperintensity and brain volumes in heterogeneous clinical and low-field portable MRI ( http://arxiv.org/abs/2312.05119v1 )

ライセンス: Link先を確認
Pablo Laso, Stefano Cerri, Annabel Sorby-Adams, Jennifer Guo, Farrah Mateen, Philipp Goebl, Jiaming Wu, Peirong Liu, Hongwei Li, Sean I. Young, Benjamin Billot, Oula Puonti, Gordon Sze, Sam Payabavash, Adam DeHavenon, Kevin N. Sheth, Matthew S. Rosen, John Kirsch, Nicola Strisciuglio, Jelmer M. Wolterink, Arman Eshaghi, Frederik Barkhof, W. Taylor Kimberly, Juan Eugenio Iglesias(参考訳) 脳萎縮と白質高強度(WMH)は脳血管障害と多発性硬化症における脳損傷の診断に重要な神経画像特徴である。 分割と定量化の自動化が望ましいが、既存の手法では信号-雑音比(SNR)の高い高分解能MRIを必要とする。 これは、臨床および低磁場可搬型MRI(pMRI)スキャンへの適用を妨げ、特にpMRIが大きな潜在能力を有する未保存領域において、萎縮とWMH進行の大規模追跡を妨げる。 そこで本研究では,白質の超強度と36個の脳領域を,再トレーニングを伴わない解像度とコントラスト(pMRIを含む)のスキャンから分割する手法を提案する。 6つの公開データセットと2つのハイフィールド・ローフィールド・スキャン(3T, 64mT)を併用したプライベートデータセットを用いて,WMH(\rho$=.85)と海馬容積(r=.89)との間に強い相関関係が得られた。 私たちのメソッドは、FreeSurferの一部として、http://surfer.nmr.mgh.harvard.edu/fswiki/WMH-SynthSegで公開されています。

Brain atrophy and white matter hyperintensity (WMH) are critical neuroimaging features for ascertaining brain injury in cerebrovascular disease and multiple sclerosis. Automated segmentation and quantification is desirable but existing methods require high-resolution MRI with good signal-to-noise ratio (SNR). This precludes application to clinical and low-field portable MRI (pMRI) scans, thus hampering large-scale tracking of atrophy and WMH progression, especially in underserved areas where pMRI has huge potential. Here we present a method that segments white matter hyperintensity and 36 brain regions from scans of any resolution and contrast (including pMRI) without retraining. We show results on six public datasets and on a private dataset with paired high- and low-field scans (3T and 64mT), where we attain strong correlation between the WMH ($\rho$=.85) and hippocampal volumes (r=.89) estimated at both fields. Our method is publicly available as part of FreeSurfer, at: http://surfer.nmr.mgh.harvard.edu/fswiki/WMH-SynthSeg.
翻訳日:2023-12-11 14:49:41 公開日:2023-12-08
# 類似性に基づくプライバシー基準の不適切性について:「真に匿名な合成データ」に対する復元攻撃

On the Inadequacy of Similarity-based Privacy Metrics: Reconstruction Attacks against "Truly Anonymous Synthetic Data'' ( http://arxiv.org/abs/2312.05114v1 )

ライセンス: Link先を確認
Georgi Ganev and Emiliano De Cristofaro(参考訳) 合成データを生成するための生成モデルのトレーニングは、データリリースに対するプライバシフレンドリなアプローチを提供することを目的としている。 しかし、モデルが微分プライバシー(DP)を満たすように訓練された場合にのみ、堅牢な保証が得られます。 残念なことに、多くの企業が、合成データと実際のデータの統計的類似性に基づいて、プライバシーを実証的に評価するためにアドホック戦略を使用しているため、これは業界標準ではない。 本稿では,この分野の主要企業が提供するプライバシー指標をレビューし,経験的評価を通じて,プライバシーに関する推論におけるいくつかの重大な欠陥を明らかにした。 我々は,最も人気のあるメトリクスとフィルタの望ましくない特性を分析し,その信頼性と非一貫性を反例を通じて示す。 次に、リコンストラクションアタックであるReconSynを紹介し、低密度の列車記録(または外れ値)の少なくとも78%を、単一の適合した生成モデルとプライバシメトリクスへのブラックボックスアクセスで回復することに成功した。 最後に,プライバシリークが主にメトリクスによるものであるため,モデルのみに適用したり,低利用のジェネレータを使用したりしてもreconsynを緩和しないことを示す。 全体として、当社の作業は、確立したプライバシー保護メカニズムから逸脱しないように、実践者に警告します。

Training generative models to produce synthetic data is meant to provide a privacy-friendly approach to data release. However, we get robust guarantees only when models are trained to satisfy Differential Privacy (DP). Alas, this is not the standard in industry as many companies use ad-hoc strategies to empirically evaluate privacy based on the statistical similarity between synthetic and real data. In this paper, we review the privacy metrics offered by leading companies in this space and shed light on a few critical flaws in reasoning about privacy entirely via empirical evaluations. We analyze the undesirable properties of the most popular metrics and filters and demonstrate their unreliability and inconsistency through counter-examples. We then present a reconstruction attack, ReconSyn, which successfully recovers (i.e., leaks all attributes of) at least 78% of the low-density train records (or outliers) with only black-box access to a single fitted generative model and the privacy metrics. Finally, we show that applying DP only to the model or using low-utility generators does not mitigate ReconSyn as the privacy leakage predominantly comes from the metrics. Overall, our work serves as a warning to practitioners not to deviate from established privacy-preserving mechanisms.
翻訳日:2023-12-11 14:49:15 公開日:2023-12-08
# 1次元と2次元の非局所ポテンシャルと結晶位

Nonlocal Potentials and Crystalline Order in One and Two Dimensions ( http://arxiv.org/abs/2312.05111v1 )

ライセンス: Link先を確認
Moorad Alexanian(参考訳) 2次元における結晶秩序の欠如に関する1968年の最初の証明を再検討し、局所対ポテンシャルの仮定による量子定理における重要性を解析する。 局所ポテンシャルの仮定を緩和し、代わりに非局所ペアポテンシャルを考える。 ボゴリボフの不等式で起こる1/k2-特異性は、局所ポテンシャルと非零温度の2次元において結晶秩序を生じないが、非局所ポテンシャルでは生じないことを示す。 したがって、1次元と2次元の結晶次数は有限温度の非局所対ポテンシャルに対しては除外できない。

We revisit the seminal 1968 proof of the absence of crystalline order in two dimensions and analyze the importance played in the quantum theorem by the assumption of local pair potentials. We relax the assumption of local potentials and consider instead nonlocal pair potentials. We show that the 1/k2-singularity that occurs in the Bogoliubov inequality, which leads to no crystalline order in two dimensions for local potentials and nonzero temperatures, does not occur for nonlocal potentials. Accordingly, crystalline order in one and two dimensions cannot be ruled out for nonlocal pair potentials at finite temperatures.
翻訳日:2023-12-11 14:48:47 公開日:2023-12-08
# DreaMoving:拡散モデルに基づく人間のダンスビデオ生成フレームワーク

DreaMoving: A Human Dance Video Generation Framework based on Diffusion Models ( http://arxiv.org/abs/2312.05107v1 )

ライセンス: Link先を確認
Mengyang Feng, Jinlin Liu, Kai Yu, Yuan Yao, Zheng Hui, Xiefan Guo, Xianhui Lin, Haolan Xue, Chen Shi, Xiaowen Li, Aojie Li, Miaomiao Cui, Peiran Ren, Xuansong Xie(参考訳) 本稿では,ハイクオリティな人間のダンスビデオを制作するための拡散制御型ビデオ生成フレームワークdreamovingを提案する。 具体的には、ターゲットのアイデンティティと姿勢シーケンスが与えられた場合、DreaMovingは姿勢シーケンスによって駆動される任意の場所で踊るターゲットのアイデンティティのビデオを生成することができる。 そこで本研究では,モーションコントロールのためのVideo ControlNetと,ID保存のためのContent Guiderを提案する。 提案モデルの使用は容易であり,ほとんどのスタイライゼーション拡散モデルに適用して多様な結果を生成することができる。 プロジェクトページはhttps://dreamoving.github.io/dreamovingで閲覧できる。

In this paper, we present DreaMoving, a diffusion-based controllable video generation framework to produce high-quality customized human dance videos. Specifically, given target identity and posture sequences, DreaMoving can generate a video of the target identity dancing anywhere driven by the posture sequences. To this end, we propose a Video ControlNet for motion-controlling and a Content Guider for identity preserving. The proposed model is easy to use and can be adapted to most stylized diffusion models to generate diverse results. The project page is available at https://dreamoving.github.io/dreamoving.
翻訳日:2023-12-11 14:48:38 公開日:2023-12-08
# TMID:Eコマースにおける商標侵害検出のための総合的現実世界データセット

TMID: A Comprehensive Real-world Dataset for Trademark Infringement Detection in E-Commerce ( http://arxiv.org/abs/2312.05103v1 )

ライセンス: Link先を確認
Tongxin Hu, Zhuang Li, Xin Jin, Lizhen Qu, Xin Zhang(参考訳) 毎年、eコマースプラットフォームは商標侵害による大きな損失を被り、プラットフォームに登録されている商取引情報に関連する潜在的な法的リスクを特定し軽減することが重要である。 しかし、この領域では高品質なデータセットが研究を妨げている。 そこで本研究では,商標登録における商標侵害を検出する新しいデータセットTMIDを提案する。 これは、世界最大のeコマースおよびデジタル決済プラットフォームであるAlipayから直接ソースされた現実世界のデータセットである。 侵害検出は,文脈や法的規則の理解を必要とする法的理由づけのタスクであるため,法律専門家の注釈とともに,商取引及び商標に関するコンテキスト情報の全集を提供する。 広範な統計分析を行うことで、データ品質を確保する。 さらに,このデータセットについて実証研究を行い,その価値と課題を強調する。 本研究は,eコマース分野における商標侵害に関する法的コンプライアンスの研究を進めるために,貴重な資源の提供を目的としている。 データセットはhttps://github.com/emnlpTMID/emnlpTMID.github.ioで公開されている。

Annually, e-commerce platforms incur substantial financial losses due to trademark infringements, making it crucial to identify and mitigate potential legal risks tied to merchant information registered to the platforms. However, the absence of high-quality datasets hampers research in this area. To address this gap, our study introduces TMID, a novel dataset to detect trademark infringement in merchant registrations. This is a real-world dataset sourced directly from Alipay, one of the world's largest e-commerce and digital payment platforms. As infringement detection is a legal reasoning task requiring an understanding of the contexts and legal rules, we offer a thorough collection of legal rules and merchant and trademark-related contextual information with annotations from legal experts. We ensure the data quality by performing an extensive statistical analysis. Furthermore, we conduct an empirical study on this dataset to highlight its value and the key challenges. Through this study, we aim to contribute valuable resources to advance research into legal compliance related to trademark infringement within the e-commerce sphere. The dataset is available at https://github.com/emnlpTMID/emnlpTMID.github.io .
翻訳日:2023-12-11 14:48:29 公開日:2023-12-08
# サブネットワーク作成と選択による表面欠陥セグメンテーションの連続学習

Continual learning for surface defect segmentation by subnetwork creation and selection ( http://arxiv.org/abs/2312.05100v1 )

ライセンス: Link先を確認
Aleksandr Dekhovich and Miguel A. Bessa(参考訳) LDA-CP&Sと呼ばれる新たな連続的(あるいは生涯にわたる)学習アルゴリズムを導入する。 本手法は,1種類の欠陥に関するデータを一度に提供しながら,これまで見てきた欠陥をすべて予測できる,段階的に学習される2つの異なる表面欠陥分割問題に適用する。 本手法では,線形判別分析(lda)に基づく分類器を訓練し,欠陥タイプ毎に欠陥関連サブネットワークを生成する。 推定段階では,まずldaを用いて欠陥タイプを予測し,選択したサブネットワークを用いて表面欠陥を予測した。 提案手法と他の継続学習手法を比較して,両データセットの既存手法と比較して,Unionに対するインターセクションの精度を2倍に向上させた。 重要なのは,すべてのトレーニングデータ(すべての欠陥)が同時に見られる場合,共同トレーニングと同等の結果を示す手法である。

We introduce a new continual (or lifelong) learning algorithm called LDA-CP&S that performs segmentation tasks without undergoing catastrophic forgetting. The method is applied to two different surface defect segmentation problems that are learned incrementally, i.e. providing data about one type of defect at a time, while still being capable of predicting every defect that was seen previously. Our method creates a defect-related subnetwork for each defect type via iterative pruning and trains a classifier based on linear discriminant analysis (LDA). At the inference stage, we first predict the defect type with LDA and then predict the surface defects using the selected subnetwork. We compare our method with other continual learning methods showing a significant improvement -- mean Intersection over Union better by a factor of two when compared to existing methods on both datasets. Importantly, our approach shows comparable results with joint training when all the training data (all defects) are seen simultaneously
翻訳日:2023-12-11 14:48:11 公開日:2023-12-08
# 絡み合いバッファ

Entanglement Buffers ( http://arxiv.org/abs/2312.05099v1 )

ライセンス: Link先を確認
Ye-Chao Liu, Otfried G\"uhne, Stefan Nimmrichter(参考訳) 量子絡み合いは、量子ネットワークにおける量子通信と分散情報処理に不可欠な資源である。 しかし、ネットワーク上のリモート生成は、避けられない送信損失やその他の技術的困難に悩まされる。 本稿では,長距離エンタングルメントを作成するための潜在的プリミティブとして,エンタングルメントバッファの概念を紹介する。 エンタングルメントバッファを1つのベル状態またはベル状態のストリームで充填することを検討した。 非理想的相互作用と伝達損失に対するレジリエンスを示し、量子ネットワークシナリオにおける他の絡み合い生成アプローチよりも有利な場合もあります。 さらに、大きな絡み合いバッファは、常にこれらの利点を高めることができる。

Quantum entanglement is the essential resource for quantum communication and distributed information processing in a quantum network. However, the remote generation over a network suffers from inevitable transmission loss and other technical difficulties. This paper introduces the concept of entanglement buffers as a potential primitive for preparing long-distance entanglement. We investigate the filling of entanglement buffers with either one Bell state or a stream of Bell states. We illustrate their resilience to non-ideal interactions and transmission loss, making them sometimes more advantageous than other entanglement generation approaches in the quantum network scenario. Additionally, larger entanglement buffers can always enhance these benefits.
翻訳日:2023-12-11 14:47:55 公開日:2023-12-08
# INSPECT:コード変換器の本質的および体系的探索評価

INSPECT: Intrinsic and Systematic Probing Evaluation for Code Transformers ( http://arxiv.org/abs/2312.05092v1 )

ライセンス: Link先を確認
Anjan Karmakar, Romain Robbes(参考訳) ソースコードの事前訓練されたモデルは、最近、様々なソフトウェア工学のタスクにうまく適用されている。 しかし、これらの事前学習されたモデルがソースコードについて何を学ぶのか、まだほとんど分かっていない。 本稿では,ソースコードの特定の側面について,事前学習したモデルがどのように学習するかを明らかにするため,モデルをさらに訓練しない簡易診断タスクを提案する。 拡張可能なフレームワークを使用して,ソースコードの表面,構文,構造,セマンティック特性を実行する15のプロッピングタスクを定義します。 8つの事前訓練されたソースコードモデルと、ベースラインとして自然言語モデル(BERT)を探索する。 構造情報(GraphCodeBERTなど)を組み込んだモデルの方が,ソースコードの特徴をよりよく表現できることがわかった。 意外なことに、いくつかの調査タスクでは、BERTはソースコードモデルと競合し、それぞれのコード特性に対してソースコード固有の事前トレーニングを改善する機会が十分にあることを示している。 我々は、他の研究者に、探索タスクスイートでモデルを評価することを奨励し、モデルの隠れた層を覗き込み、固有のコード特性がコード化されているかを識別できるようにします。

Pre-trained models of source code have recently been successfully applied to a wide variety of Software Engineering tasks; they have also seen some practical adoption in practice, e.g. for code completion. Yet, we still know very little about what these pre-trained models learn about source code. In this article, we use probing--simple diagnostic tasks that do not further train the models--to discover to what extent pre-trained models learn about specific aspects of source code. We use an extensible framework to define 15 probing tasks that exercise surface, syntactic, structural and semantic characteristics of source code. We probe 8 pre-trained source code models, as well as a natural language model (BERT) as our baseline. We find that models that incorporate some structural information (such as GraphCodeBERT) have a better representation of source code characteristics. Surprisingly, we find that for some probing tasks, BERT is competitive with the source code models, indicating that there are ample opportunities to improve source-code specific pre-training on the respective code characteristics. We encourage other researchers to evaluate their models with our probing task suite, so that they may peer into the hidden layers of the models and identify what intrinsic code characteristics are encoded.
翻訳日:2023-12-11 14:47:46 公開日:2023-12-08
# UniTSA: V2X信号制御のためのユニバーサル強化学習フレームワーク

UniTSA: A Universal Reinforcement Learning Framework for V2X Traffic Signal Control ( http://arxiv.org/abs/2312.05090v1 )

ライセンス: Link先を確認
Maonan Wang, Xi Xiong, Yuheng Kan, Chengcheng Xu, Man-On Pun(参考訳) 交通渋滞は、効果的な交通信号制御(TSC)システムの開発を要求する都市部において持続的な問題である。 既存の強化学習(rl)ベースの手法はtscの最適化において有望な性能を示しているが、異なる構造の交差を横断する手法を一般化することは困難である。 本研究は,V2X環境において汎用的なRTLベースのTSCフレームワークを提案する。 提案手法では,交叉状態を特徴付けるために接合行列を組み込んだ新しいエージェント設計を導入し,多様な交叉状態に適用可能なモデルを提案する。 様々な交差構造を扱う能力の向上を図ったRLベースのフレームワークを実現するため,信号光制御システムのための新しいトラフィック状態拡張手法が開発された。 最後に,複数交差点構成から得られた広範な実験結果から,提案手法の有効性を確認した。 この作業のソースコードはhttps://github.com/wmn7/universal_lightで入手できる。

Traffic congestion is a persistent problem in urban areas, which calls for the development of effective traffic signal control (TSC) systems. While existing Reinforcement Learning (RL)-based methods have shown promising performance in optimizing TSC, it is challenging to generalize these methods across intersections of different structures. In this work, a universal RL-based TSC framework is proposed for Vehicle-to-Everything (V2X) environments. The proposed framework introduces a novel agent design that incorporates a junction matrix to characterize intersection states, making the proposed model applicable to diverse intersections. To equip the proposed RL-based framework with enhanced capability of handling various intersection structures, novel traffic state augmentation methods are tailor-made for signal light control systems. Finally, extensive experimental results derived from multiple intersection configurations confirm the effectiveness of the proposed framework. The source code in this work is available at https://github.com/wmn7/Universal_Light
翻訳日:2023-12-11 14:47:27 公開日:2023-12-08
# アルツハイマー・ハンドライティング・シンセティック・ジェネレーションのための空気中の運動

I Can't Believe It's Not Better: In-air Movement For Alzheimer Handwriting Synthetic Generation ( http://arxiv.org/abs/2312.05086v1 )

ライセンス: Link先を確認
Asma Bensalah, Antonio Parziale, Giuseppe De Gregorio, Angelo Marcelli, Alicia Forn\'es, and Llad\'os(参考訳) 近年,手書き文字解析と認識の深層学習が盛んに行われている。 手書き解析の主な応用の一つは、健康分野における早期発見と診断である。 残念なことに、ほとんどのケース問題は依然としてデータの不足に悩まされており、ディープラーニングベースのモデルの使用が難しい。 この問題を軽減するために、合成データ生成を利用する研究もある。 近年では、ドメインとデータ知識を使用して、ディープラーニングモデルのトレーニングに有用な現実的なデータを生成する、ガイド付きデータ合成生成に向けた研究が増えている。 本研究では,アルツハイマー病の領域知識を手書き文字として組み合わせ,より指導的なデータ生成に利用する。 具体的には,合成データ生成における空中運動の利用について検討した。

During recent years, there here has been a boom in terms of deep learning use for handwriting analysis and recognition. One main application for handwriting analysis is early detection and diagnosis in the health field. Unfortunately, most real case problems still suffer a scarcity of data, which makes difficult the use of deep learning-based models. To alleviate this problem, some works resort to synthetic data generation. Lately, more works are directed towards guided data synthetic generation, a generation that uses the domain and data knowledge to generate realistic data that can be useful to train deep learning models. In this work, we combine the domain knowledge about the Alzheimer's disease for handwriting and use it for a more guided data generation. Concretely, we have explored the use of in-air movements for synthetic data generation.
翻訳日:2023-12-11 14:47:11 公開日:2023-12-08
# 共鳴や仮想状態から有界状態を生成することができるか?

Can we generate bound-states from resonances or virtual states perturbatively? ( http://arxiv.org/abs/2312.05085v1 )

ライセンス: Link先を確認
C.-J. Yang(参考訳) 一階摂動理論により共鳴や仮想状態から境界状態を生成することができるか検討する。 ピオンレス実効場理論に現れる接触型ポテンシャルを用いて、lo共鳴や仮想状態の存在下で、先導波(lo)波動関数とnlo(next-to-leading order)相互作用を挟んで負のエネルギー状態を得ることができることを示した。 しかし、少なくとも時間に依存しないシュル=オディンガー方程式とエルミート・ハミルトニアンの枠組みの下では、非摂動的処理によって形成されるものと類似した構造を持つ境界状態を作ることができない。

We investigate whether it is possible to generate bound-states from resonances or virtual states through first-order perturbation theory. Using contact-type potentials as those appeared in pionless effective field theory, we show that it is possible to obtain negative-energy states by sandwiching a next-to-leading order (NLO) interaction with the leading-order (LO) wavefunctions, under the presence of LO resonances or virtual states. However, at least under the framework of time-independent Schr\"odinger equation and Hermitian Hamiltonian, there is an inability to create bound-states with structure similar to those formed by the non-perturbative treatments.
翻訳日:2023-12-11 14:46:59 公開日:2023-12-08
# PathFinder:マルチステップ推論パスに関するガイド付き検索

PathFinder: Guided Search over Multi-Step Reasoning Paths ( http://arxiv.org/abs/2312.05180v1 )

ライセンス: Link先を確認
Olga Golovneva, Sean O'Brien, Ramakanth Pasunuru, Tianlu Wang, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz(参考訳) 近年の大規模言語モデルの発展に伴い、思考の連鎖のような手法が推論の連鎖を誘発し、推論タスクの結果を改善することが示されている。 しかし、複数の推論ステップを必要とするタスクは、まだ最先端のモデルに重大な課題をもたらしている。 ビーム探索アルゴリズムからインスピレーションを得て,木探索に基づく推論経路生成手法であるPathFinderを提案する。 様々なサンプリング方法とパラメータによって実現される動的デコードの統合により、多様な分岐とマルチホップ推論が強化される。 PathFinderは制約付き推論を使用して、新しい品質制約、刈り取り、探索手法を統合して、生成の効率性と品質を向上させる。 さらに、候補選択を改善するためのスコアとランキング機能も備えている。 提案手法は,3つの複雑な算術および常識推論タスクの競合ベースラインを平均6%向上させる。 モデルでは, 長い未知の推論連鎖によく一般化し, 大きな分岐因子を持つビーム探索に類似した複雑さを反映している。

With recent advancements in large language models, methods like chain-of-thought prompting to elicit reasoning chains have been shown to improve results on reasoning tasks. However, tasks that require multiple steps of reasoning still pose significant challenges to state-of-the-art models. Drawing inspiration from the beam search algorithm, we propose PathFinder, a tree-search-based reasoning path generation approach. It enhances diverse branching and multi-hop reasoning through the integration of dynamic decoding, enabled by varying sampling methods and parameters. Using constrained reasoning, PathFinder integrates novel quality constraints, pruning, and exploration methods to enhance the efficiency and the quality of generation. Moreover, it includes scoring and ranking features to improve candidate selection. Our approach outperforms competitive baselines on three complex arithmetic and commonsense reasoning tasks by 6% on average. Our model generalizes well to longer, unseen reasoning chains, reflecting similar complexities to beam search with large branching factors.
翻訳日:2023-12-11 14:39:50 公開日:2023-12-08
# ビデオベースのレンダリング技術:調査

Video-Based Rendering Techniques: A Survey ( http://arxiv.org/abs/2312.05179v1 )

ライセンス: Link先を確認
Rafael Kuffner dos Anjos, Jo\~ao Madeiras Pereira and Jos\'e Antonio Gaspar(参考訳) 画像に記録された事象の3次元再構築は、コンピュータビジョンとコンピュータグラフィックスの長年の課題である。 視覚を入力として物体や表面の実際の位置を推定することは簡単な作業ではなく、様々な方法でアプローチされてきた。 これまでのところ、大きな進歩はあったが、答えが必要なオープンな問題がいくつかある。 レンダリングプロセス(ビデオベースのレンダリング、VBR)のインプットとしてビデオを使用することは、最近注目され始めているもので、他にも多くの課題や、古典的な画像ベースのレンダリング問題(IBR)に対するソリューションが追加されている。 本稿では,このシナリオに適用可能な映像ベースレンダリングと画像ベース技術の現状について述べるとともに,未解決の未解決課題を評価し,今後の作業の焦点を示す。

Three-dimensional reconstruction of events recorded on images has been a common challenge between computer vision and computer graphics for a long time. Estimating the real position of objects and surfaces using vision as an input is no trivial task and has been approached in several different ways. Although huge progress has been made so far, there are several open issues to which an answer is needed. The use of videos as an input for a rendering process (video-based rendering, VBR) is something that recently has been started to be looked upon and has added many other challenges and also solutions to the classical image-based rendering issue (IBR). This article presents the state of art on video-based rendering and image-based techniques that can be applied on this scenario, evaluating the open issues yet to be solved, indicating where future work should be focused.
翻訳日:2023-12-11 14:39:36 公開日:2023-12-08
# クラスタリングとPix2Pixに基づくMRIスキャン合成法

MRI Scan Synthesis Methods based on Clustering and Pix2Pix ( http://arxiv.org/abs/2312.05176v1 )

ライセンス: Link先を確認
Giulia Baldini and Melanie Schmidt and Charlotte Z\"aske and Liliana L. Caldeira(参考訳) 磁気共鳴イメージング(MRI)脳スキャンにおける自動セグメンテーション手法の文脈において欠落したデータ問題を考える。 通常、自動MRIスキャンセグメンテーションは複数のスキャン(例えば、T1重み、T2重み、T1CE、FLAIR)に基づいている。 しかし、多くの場合、スキャンはぼやけたり、欠けたり、利用できない。 欠落したスキャンを合成できるかどうかについて検討する。 与えられたT1重み付きスキャンからT2重み付きスキャンを合成することで、原則としてこれが可能であることを実証する。 最初の目標は、平均平均二乗誤差(mse)によって測定された、欠落したスキャンによく似た画像を計算することです。 我々は,条件付きGANをベースとしたランダムベースライン手法,クラスタリングに基づく手法,Pix2Pixによる画素間変換手法など,いくつかの手法を開発した。 最も低いMSEはクラスタリング法によって達成される。 第2の目的は,合成スキャンがセグメンテーションプロセスに与える影響について,手法の比較を行うことである。 このために、上記の4つの入力スキャンモードでトレーニングされたDeepMedicモデルを使用します。 そこで,t2強調スキャンを合成画像で置き換え,diceスコアを数値評価として腫瘍識別に関してセグメント化の評価を行った。 評価の結果、セグメンテーションは多くの場合、合成スキャン(特にpix2pix法)でうまく機能することがわかった。

We consider a missing data problem in the context of automatic segmentation methods for Magnetic Resonance Imaging (MRI) brain scans. Usually, automated MRI scan segmentation is based on multiple scans (e.g., T1-weighted, T2-weighted, T1CE, FLAIR). However, quite often a scan is blurry, missing or otherwise unusable. We investigate the question whether a missing scan can be synthesized. We exemplify that this is in principle possible by synthesizing a T2-weighted scan from a given T1-weighted scan. Our first aim is to compute a picture that resembles the missing scan closely, measured by average mean squared error (MSE). We develop/use several methods for this, including a random baseline approach, a clustering-based method and pixel-to-pixel translation method by (Pix2Pix) which is based on conditional GANs. The lowest MSE is achieved by our clustering-based method. Our second aim is to compare the methods with respect to the affect that using the synthesized scan has on the segmentation process. For this, we use a DeepMedic model trained with the four input scan modalities named above. We replace the T2-weighted scan by the synthesized picture and evaluate the segmentations with respect to the tumor identification, using Dice scores as numerical evaluation. The evaluation shows that the segmentation works well with synthesized scans (in particular, with Pix2Pix methods) in many cases.
翻訳日:2023-12-11 14:39:23 公開日:2023-12-08
# 長文からルシッドへ:長文処理のためのNLP技術に関する体系的文献レビュー

From Lengthy to Lucid: A Systematic Literature Review on NLP Techniques for Taming Long Sentences ( http://arxiv.org/abs/2312.05172v1 )

ライセンス: Link先を確認
Tatiana Passali, Efstathios Chatzikyriakidis, Stelios Andreadis, Thanos G. Stavropoulos, Anastasia Matonaki, Anestis Fachantidis, Grigorios Tsoumakas(参考訳) 長い文章は、読者がメインポイントを把握したり、執筆者の意図に従ったりすることを困難にして以来、長年にわたって執筆コミュニケーションにおいて永続的な問題となっている。 PRISMAガイドラインを用いて実施したこの調査は、長文問題に対処するための2つの主要な戦略を体系的にレビューする。 a)文の圧縮と b) 文の分割。 2005年以降、この地域への関心が高まり、2017年以降は大きな成長を遂げている。 現在の研究は、文の圧縮と分割の両方を監督するアプローチが支配的である。 しかし、弱く自己監督的な技術にはかなりのギャップがあり、特に限られたデータを持つ領域において、さらなる研究の機会が示唆されている。 本調査では,最も代表的な手法を包括的分類群に分類し,分類する。 また、これらの手法の比較評価分析を、共通文圧縮と分割データセット上で実施する。 最後に,現在の手法の課題と限界について議論し,今後の研究に有用な知見を提供する。 この調査は、長い文の複雑さに対処するための包括的な情報源となることを意図している。 我々は、長文がもはや効果的なコミュニケーションの障壁にならないまで、研究者がフィールドでさらなる進歩を行えるようにする。

Long sentences have been a persistent issue in written communication for many years since they make it challenging for readers to grasp the main points or follow the initial intention of the writer. This survey, conducted using the PRISMA guidelines, systematically reviews two main strategies for addressing the issue of long sentences: a) sentence compression and b) sentence splitting. An increased trend of interest in this area has been observed since 2005, with significant growth after 2017. Current research is dominated by supervised approaches for both sentence compression and splitting. Yet, there is a considerable gap in weakly and self-supervised techniques, suggesting an opportunity for further research, especially in domains with limited data. In this survey, we categorize and group the most representative methods into a comprehensive taxonomy. We also conduct a comparative evaluation analysis of these methods on common sentence compression and splitting datasets. Finally, we discuss the challenges and limitations of current methods, providing valuable insights for future research directions. This survey is meant to serve as a comprehensive resource for addressing the complexities of long sentences. We aim to enable researchers to make further advancements in the field until long sentences are no longer a barrier to effective communication.
翻訳日:2023-12-11 14:38:59 公開日:2023-12-08
# darlei: 進化的知性による強化学習の深層化

DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary Intelligence ( http://arxiv.org/abs/2312.05171v1 )

ライセンス: Link先を確認
Saeejith Nair, Mohammad Javad Shafiee, Alexander Wong(参考訳) 本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIについて述べる。 提案手法は, PPO(Proximal Policy Optimization)を個人エージェント学習に利用し, 形態的進化を促進するために, トーナメント選択に基づく世代学習機構と組み合わせる。 nvidiaのアイザックジム上に構築することで、darleiはgpuアクセラレーションシミュレーションを利用して、1つのワークステーションだけで20倍以上のスピードアップを実現している。 様々な条件下でDARLEIの性能を体系的に評価し,進化形態の多様性に影響を与える要因を明らかにする。 例えば、シミュレータ内でエージェント間衝突を可能にすることで、同じ形態間のマルチエージェント相互作用をシミュレートし、それが個々のエージェント能力と長期の進化的適応にどのように影響するかを確認することができる。 現在の結果は、世代間で限定的な多様性を示しているが、将来的にdarleiを拡張して、より豊かな環境における多様な形態学間の相互作用を含めることを望んでいる。 ソースコードはhttps://saeejithnair.github.io/darleiで公開しています。

We present DARLEI, a framework that combines evolutionary algorithms with parallelized reinforcement learning for efficiently training and evolving populations of UNIMAL agents. Our approach utilizes Proximal Policy Optimization (PPO) for individual agent learning and pairs it with a tournament selection-based generational learning mechanism to foster morphological evolution. By building on Nvidia's Isaac Gym, DARLEI leverages GPU accelerated simulation to achieve over 20x speedup using just a single workstation, compared to previous work which required large distributed CPU clusters. We systematically characterize DARLEI's performance under various conditions, revealing factors impacting diversity of evolved morphologies. For example, by enabling inter-agent collisions within the simulator, we find that we can simulate some multi-agent interactions between the same morphology, and see how it influences individual agent capabilities and long-term evolutionary adaptation. While current results demonstrate limited diversity across generations, we hope to extend DARLEI in future work to include interactions between diverse morphologies in richer environments, and create a platform that allows for coevolving populations and investigating emergent behaviours in them. Our source code is also made publicly at https://saeejithnair.github.io/darlei.
翻訳日:2023-12-11 14:38:40 公開日:2023-12-08
# 重力エンタングルメントのための大型スピンスターン・ゲルハ干渉計

Large Spin Stern-Gerlach Interferometry for Gravitational Entanglement ( http://arxiv.org/abs/2312.05170v1 )

ライセンス: Link先を確認
Lorenzo Braccini, Martine Schut, Alessio Serafini, Anupam Mazumdar, Sougato Bose(参考訳) 近年、空間的量子重ね合わせにおける2つの質量間の絡み合いの増大を観測し、実験室における重力の量子性をテストする提案がなされている。 必要な重ね合わせは、スピン量子ビット量子状態と各質量の空間ダイナミクスを結合するstern-gerlach干渉計によって作成することができる。 質量は、重力が自然界で量子的である場合にのみ絡み合う。 ここでは、実験を任意のスピン$j$、あるいは一様結合スピンのアンサンブルに一般化する。 まず、一般化されたStern-Gerlach干渉計の作り方を例示し、質量を2j+1$ trajectoriesに分割する。 このことは、制御されたプロトコルが任意のスピン状態の振幅を空間的重ね合わせにエンコードできることを示している。 第二に、上記の形式の空間的重ね合わせの2つの質量が重力を介して相互作用するために残され、絡み合いが計算される。 初期スピン状態の異なる族は、絡み合いを最大化する最適なスピン状態を見つけるために変化する。 より大きなスピンは、重力による絡み合いを強化する上で、控えめな利点をもたらすと結論付けている。

Recently, there has been a proposal to test the quantum nature of gravity in the laboratory by witnessing the growth of entanglement between two masses in spatial quantum superpositions. The required superpositions can be created via Stern-Gerlach interferometers, which couple an embedded spin qubit quantum state to the spatial dynamics of each mass. The masses would entangle only if gravity is quantum in nature. Here, we generalise the experiment to an arbitrary spin $j$ or equivalently to an ensemble of uniformly coupled spins. We first exemplify how to create a generalized Stern-Gerlach interferometer, which splits the mass into $2j+1$ trajectories. This shows that a controlled protocol can be formulated to encode the amplitudes of any spin state to a spatial superposition. Secondly, two masses in spatial superpositions of the above form are left to interact via gravity, and the entanglement is computed. Different families of initial spin states are varied to find the optimal spin state that maximizes the entanglement. We conclude that larger spins can offer a modest advantage in enhancing gravity-induced entanglement.
翻訳日:2023-12-11 14:38:17 公開日:2023-12-08
# Onflow: オンラインポートフォリオ割り当てアルゴリズム

Onflow: an online portfolio allocation algorithm ( http://arxiv.org/abs/2312.05169v1 )

ライセンス: Link先を確認
Gabriel Turinici and Pierre Brugiere(参考訳) グラデーションフローに基づくポートフォリオ割り当てポリシのオンライン最適化を実現する,強化学習手法であるonflowを紹介する。 投資ポートフォリオの動的アロケーションを考案し、取引手数料を考慮しつつ、期待されるログリターンを最大化する。 ポートフォリオ割り当てはソフトマックス関数によってパラメータ化され、各時間ステップにおいて、勾配フロー法は、更新された割り当てに対応する解を持つ通常の微分方程式に導く。 このアルゴリズムは確率的最適化手法の大規模なクラスに属しており、その効率をログ正規化フレームワークの数学的理論値と'old NYSE'データセットの標準ベンチマークを比較して測定する。 ログ正規資産の場合、onflowが学習した戦略は、トランザクションコストをゼロにすることで、markowitzの最適ポートフォリオを模倣し、可能な限りの資産配分戦略を模倣する。 古いNYSEのデータセットからの数値実験は、Onflowがパフォーマンスを持つ動的なアセットアロケーション戦略につながることを示している。 a) cover の universal portfolio や helmbold などのベンチマーク戦略に匹敵する。 トランザクションコストがゼロである場合の "多重化更新" アプローチ ロ 取引コストが高い場合の前の手続よりも良いこと。 Onflowは、他の動的アロケーション技術がもはや機能しないレシエーションでも効率がよい。 そのため、試験上は、Onflowは観測された価格と、基礎となる資産のリターンの分配の法則を仮定することなく、将来性のあるポートフォリオ管理戦略のように見える。 特に、トレーディング戦略を構築する際のモデルリスクを避けることができる。

We introduce Onflow, a reinforcement learning technique that enables online optimization of portfolio allocation policies based on gradient flows. We devise dynamic allocations of an investment portfolio to maximize its expected log return while taking into account transaction fees. The portfolio allocation is parameterized through a softmax function, and at each time step, the gradient flow method leads to an ordinary differential equation whose solutions correspond to the updated allocations. This algorithm belongs to the large class of stochastic optimization procedures; we measure its efficiency by comparing our results to the mathematical theoretical values in a log-normal framework and to standard benchmarks from the 'old NYSE' dataset. For log-normal assets, the strategy learned by Onflow, with transaction costs at zero, mimics Markowitz's optimal portfolio and thus the best possible asset allocation strategy. Numerical experiments from the 'old NYSE' dataset show that Onflow leads to dynamic asset allocation strategies whose performances are: a) comparable to benchmark strategies such as Cover's Universal Portfolio or Helmbold et al. "multiplicative updates" approach when transaction costs are zero, and b) better than previous procedures when transaction costs are high. Onflow can even remain efficient in regimes where other dynamical allocation techniques do not work anymore. Therefore, as far as tested, Onflow appears to be a promising dynamic portfolio management strategy based on observed prices only and without any assumption on the laws of distributions of the underlying assets' returns. In particular it could avoid model risk when building a trading strategy.
翻訳日:2023-12-11 14:37:59 公開日:2023-12-08
# マルチエージェント学習における協調の展望

A Review of Cooperation in Multi-agent Learning ( http://arxiv.org/abs/2312.05162v1 )

ライセンス: Link先を確認
Yali Du, Joel Z. Leibo, Usman Islam, Richard Willis, Peter Sunehag(参考訳) マルチエージェント学習(mal:collaboration in multi-agent learning)は、ゲーム理論、経済学、社会科学、進化生物学を含む多くの分野の共通分野である。 この領域の研究は、エージェントが目標が整ったときに効果的に協調できる方法と、協力による利益が可能であり、紛争が起きる可能性がある設定で協力できる方法の両方を理解することを目的としている。 本稿では,マルチエージェント学習の基本概念,問題設定,アルゴリズムの概要について述べる。 これは強化学習、マルチエージェントシーケンシャルな意思決定、マルチエージェント協調に関連する課題、最近の進歩の包括的なレビュー、関連するメトリクスの評価を含んでいる。 最後に,この分野のオープンな課題を考察し,新たな研究道の開拓をめざして考察する。

Cooperation in multi-agent learning (MAL) is a topic at the intersection of numerous disciplines, including game theory, economics, social sciences, and evolutionary biology. Research in this area aims to understand both how agents can coordinate effectively when goals are aligned and how they may cooperate in settings where gains from working together are possible but possibilities for conflict abound. In this paper we provide an overview of the fundamental concepts, problem settings and algorithms of multi-agent learning. This encompasses reinforcement learning, multi-agent sequential decision-making, challenges associated with multi-agent cooperation, and a comprehensive review of recent progress, along with an evaluation of relevant metrics. Finally we discuss open challenges in the field with the aim of inspiring new avenues for research.
翻訳日:2023-12-11 14:37:34 公開日:2023-12-08
# TriHuman : 詳細な人体形状と外観合成のためのリアルタイムかつ制御可能な三面体表現

TriHuman : A Real-time and Controllable Tri-plane Representation for Detailed Human Geometry and Appearance Synthesis ( http://arxiv.org/abs/2312.05161v1 )

ライセンス: Link先を確認
Heming Zhu, Fangneng Zhan, Christian Theobalt, Marc Habermann(参考訳) ビデオデータのみから、制御可能でフォトリアリスティックで幾何学的に詳細な人間のデジタルダブルを作成することは、特にリアルタイムパフォーマンスが必要な場合、コンピュータグラフィックスとビジョンにおいて重要な課題である。 最近の方法では、神経放射野(NeRF)を体モデルや骨格などの関節構造にアタッチして、骨格のポーズにNeRFを条件付けながら、点をポーズ正準空間にマッピングする。 これらのアプローチは一般的に、多層パーセプトロン(MLP)でニューラルネットワークをパラメータ化し、実行が遅い。 本稿では,この欠点を解決するために,リアルタイム性能,最先端のポーズ制御可能な幾何合成,フォトリアリスティックなレンダリング品質を実現する,人間にカスタマイズされた,変形可能な,効率的なトリプレーン表現を提案する。 中心となるのは、地球規模の試料を変形しない三面体テクスチャ空間にワープすることで、地球上の点が同じ三面体にマッピングされるという問題に効果的に対処する。 次に、このような三面体特徴表現が骨格運動上でどのように条件付けされ、動的外観と幾何学的変化を考慮できるかを示す。 以上の結果から,人体形状や外観のモデリング,実行時の性能の面では,高い品質に向けての明確なステップが示される。

Creating controllable, photorealistic, and geometrically detailed digital doubles of real humans solely from video data is a key challenge in Computer Graphics and Vision, especially when real-time performance is required. Recent methods attach a neural radiance field (NeRF) to an articulated structure, e.g., a body model or a skeleton, to map points into a pose canonical space while conditioning the NeRF on the skeletal pose. These approaches typically parameterize the neural field with a multi-layer perceptron (MLP) leading to a slow runtime. To address this drawback, we propose TriHuman a novel human-tailored, deformable, and efficient tri-plane representation, which achieves real-time performance, state-of-the-art pose-controllable geometry synthesis as well as photorealistic rendering quality. At the core, we non-rigidly warp global ray samples into our undeformed tri-plane texture space, which effectively addresses the problem of global points being mapped to the same tri-plane locations. We then show how such a tri-plane feature representation can be conditioned on the skeletal motion to account for dynamic appearance and geometry changes. Our results demonstrate a clear step towards higher quality in terms of geometry and appearance modeling of humans as well as runtime performance.
翻訳日:2023-12-11 14:37:21 公開日:2023-12-08
# 深層学習によるMDDのSTMにおける原子スケール表面欠陥の検出

Detecting Atomic Scale Surface Defects in STM of TMDs with Ensemble Deep Learning ( http://arxiv.org/abs/2312.05160v1 )

ライセンス: Link先を確認
Darian Smalley (1 and 2), Stephanie D. Lough (1 and 2), Luke Holtzman (3), Kaikui Xu (4), Madisen Holbrook (3), Matthew R. Rosenberger (4), J.C. Hone (3), Katayun Barmak (3), Masahiro Ishigami (1 and 2) ((1) Department of Physics, University of Central Florida, (2) NanoScience Technology Center, University of Central Florida, (3) Department of Applied Physics and Applied Mathematics, University of Columbia, (4) Department of Aerospace and Mechanical Engineering, University of Notre Dame)(参考訳) u-netライクな畳み込みニューラルネットワークのアンサンブルを用いた単結晶wse2の走査トンネル顕微鏡画像に原子スケール欠陥検出を示す。 標準のディープラーニングテストメトリクスは、平均f1スコア0.06で良好な検出性能を示し、wse2のc-afm画像とmose2のstm画像へのアンサンブル一般化を示した。 欠陥座標は欠陥検出マップから自動的に抽出され、機械学習によって強化されたSTM画像解析を用いてサンプルキャラクタリゼーションのスループットを劇的に向上させることができる。

Atomic-scale defect detection is shown in scanning tunneling microscopy images of single crystal WSe2 using an ensemble of U-Net-like convolutional neural networks. Standard deep learning test metrics indicated good detection performance with an average F1 score of 0.66 and demonstrated ensemble generalization to C-AFM images of WSe2 and STM images of MoSe2. Defect coordinates were automatically extracted from defect detections maps showing that STM image analysis enhanced by machine learning can be used to dramatically increase sample characterization throughput.
翻訳日:2023-12-11 14:36:57 公開日:2023-12-08
# 深層学習に基づくパイロットレス空間多重化

Deep Learning-Based Pilotless Spatial Multiplexing ( http://arxiv.org/abs/2312.05158v1 )

ライセンス: Link先を確認
Dani Korpi, Mikko Honkala, Janne M.J. Huttunen(参考訳) 本稿では、マルチインプットおよびマルチアウトプット(MIMO)通信システムにおける、機械学習(ML)ベースのパイロットレス空間多重化の実現可能性について検討する。 特に、送信機と受信機を共同で訓練することにより、送信機は空間ストリームのこのような星座形状を学習でき、同時に学習した受信機による完全に視覚的分離と検出を容易にする。 我々の知る限りでは、チャネル推定パイロットを使わずにMLベースの空間多重化を実演するのはこれが初めてである。 その結果,学習したパイロットレススキームは,変調順序や信号対雑音比に応じて,スペクトル効率を最大15~20%向上させることができることがわかった。

This paper investigates the feasibility of machine learning (ML)-based pilotless spatial multiplexing in multiple-input and multiple-output (MIMO) communication systems. Especially, it is shown that by training the transmitter and receiver jointly, the transmitter can learn such constellation shapes for the spatial streams which facilitate completely blind separation and detection by the simultaneously learned receiver. To the best of our knowledge, this is the first time ML-based spatial multiplexing without channel estimation pilots is demonstrated. The results show that the learned pilotless scheme can outperform a conventional pilot-based system by as much as 15-20% in terms of spectral efficiency, depending on the modulation order and signal-to-noise ratio.
翻訳日:2023-12-11 14:36:46 公開日:2023-12-08
# サロゲートに基づくベイズ推論における不確かさの定量化と伝播

Uncertainty Quantification and Propagation in Surrogate-based Bayesian Inference ( http://arxiv.org/abs/2312.05153v1 )

ライセンス: Link先を確認
Philipp Reiser, Javier Enrique Aguilar, Anneli Guthke, Paul-Christian B\"urkner(参考訳) サーロゲートモデルはより複雑なシミュレーションモデルに対する統計的あるいは概念的近似である。 この文脈では、限られたシミュレーション予算によって引き起こされる不確実性や近似誤差を予測、推論、およびその後の決定関連量に伝達することが重要である。 しかしながら、サロゲートの不確実性の定量化と伝播は通常、特別な分析ケースに限られる。 本稿では,不確かさの定量化,伝播,検証を徹底したモデル構築のためのスケーラブルなベイズ的手法を実現するフレームワークを提案する。 具体的には,測定データを用いた代理モデルを用いたベイズ推定の3つの手法を提案する。 これは、サロゲートの不確実性の伝播が特に関係するタスクであり、その理由を説明できないと、関心のパラメータの偏りや過度な評価につながる可能性がある。 このアプローチを線形および非線形モデリングシナリオの2つの詳細なケーススタディで紹介する。 代理モデルにおける不確実性伝播は、高価なシミュレータのより信頼性が高く安全な近似を可能にするため、様々な分野の応用に有用である。

Surrogate models are statistical or conceptual approximations for more complex simulation models. In this context, it is crucial to propagate the uncertainty induced by limited simulation budget and surrogate approximation error to predictions, inference, and subsequent decision-relevant quantities. However, quantifying and then propagating the uncertainty of surrogates is usually limited to special analytic cases or is otherwise computationally very expensive. In this paper, we propose a framework enabling a scalable, Bayesian approach to surrogate modeling with thorough uncertainty quantification, propagation, and validation. Specifically, we present three methods for Bayesian inference with surrogate models given measurement data. This is a task where the propagation of surrogate uncertainty is especially relevant, because failing to account for it may lead to biased and/or overconfident estimates of the parameters of interest. We showcase our approach in two detailed case studies for both linear and nonlinear modeling scenarios. Uncertainty propagation in surrogate models enables more reliable and safe approximation of expensive simulators and will therefore be useful in various fields of applications.
翻訳日:2023-12-11 14:36:31 公開日:2023-12-08
# BOLD Fetal MRI 時系列における胎盤の形状認識

Shape-aware Segmentation of the Placenta in BOLD Fetal MRI Time Series ( http://arxiv.org/abs/2312.05148v1 )

ライセンス: Link先を確認
S. Mazdak Abulnaga, Neel Dey, Sean I. Young, Eileen Pan, Katherine I. Hobgood, Clinton J. Wang, P. Ellen Grant, Esra Abaci Turk, Polina Golland(参考訳) 血中酸素濃度依存性(BOLD)MRIは胎盤酸素化と機能を評価することができる。 胎盤の正確なBOLD変化を測定するには、正確な時間的胎盤セグメンテーションが必要であり、胎児と母体の動き、収縮、および高酸素による強度変化によって構築される。 現在のBOLDプレースンタセグメンテーション手法は、手動で注釈付き主題固有のテンプレートを時系列全体にワープする。 しかし、胎盤は細く、細長く、大きな変形と難解な縁を被る非常に非剛性な器官であるため、既存の作業は胎盤形状、特に境界付近を正確に区分することはできない。 本研究では,胎盤BOLD MRIのための機械学習セグメンテーションフレームワークを提案し,それを時系列で各ボリュームのセグメンテーションに適用する。 我々は,胎盤境界重み付き損失定式化を用い,いくつかの人気のあるセグメンテーション目標に対して包括的評価を行う。 健康な胎児,胎児の成長制限のある胎児,高BMIの母親を含む91名の被験者を対象に,本モデルを訓練・試験した。 バイオメディカルに,本モデルはBOLD時系列におけるノルモックス点と高酸素点の両方のセグメンテーションボリュームで確実に機能する。 さらに, 境界重み付けは, 交叉エントロピーおよび符号付き距離変換対象に対するDice係数を8.3%, 6.0%向上させることがわかった。 私たちのコードとトレーニングされたモデルは、https://github.com/mabulnaga/automatic-placenta-segmentationで利用可能です。

Blood oxygen level dependent (BOLD) MRI time series with maternal hyperoxia can assess placental oxygenation and function. Measuring precise BOLD changes in the placenta requires accurate temporal placental segmentation and is confounded by fetal and maternal motion, contractions, and hyperoxia-induced intensity changes. Current BOLD placenta segmentation methods warp a manually annotated subject-specific template to the entire time series. However, as the placenta is a thin, elongated, and highly non-rigid organ subject to large deformations and obfuscated edges, existing work cannot accurately segment the placental shape, especially near boundaries. In this work, we propose a machine learning segmentation framework for placental BOLD MRI and apply it to segmenting each volume in a time series. We use a placental-boundary weighted loss formulation and perform a comprehensive evaluation across several popular segmentation objectives. Our model is trained and tested on a cohort of 91 subjects containing healthy fetuses, fetuses with fetal growth restriction, and mothers with high BMI. Biomedically, our model performs reliably in segmenting volumes in both normoxic and hyperoxic points in the BOLD time series. We further find that boundary-weighting increases placental segmentation performance by 8.3% and 6.0% Dice coefficient for the cross-entropy and signed distance transform objectives, respectively. Our code and trained model is available at https://github.com/mabulnaga/automatic-placenta-segmentation.
翻訳日:2023-12-11 14:36:14 公開日:2023-12-08
# Kraken:Mode TransformerとGreedy Mode Processingを利用した共同軌道予測の実現

Kraken: enabling joint trajectory prediction by utilizing Mode Transformer and Greedy Mode Processing ( http://arxiv.org/abs/2312.05144v1 )

ライセンス: Link先を確認
Daniil S. Antonenko, Stepan Konev, Yuriy Biktairov, Boris Yangel(参考訳) 安全な都市自治には、正確で信頼性の高い動き予測が不可欠である。 最も顕著な動き予測アプローチは、自律系近傍における各アクターの将来の軌道の分布のモデル化に基づいている。 これらの「独立」な辺縁予測は、予測対象が他のアクターと相互作用しにくいカジュアルな運転状況を正確に記述できるほど正確であるかもしれない。 しかし、俳優の将来の軌跡が交わりやすい対話的な状況のモデル化には不十分である。 この問題を軽減するために,アクター間の相互相互作用を近似し,正確な辺縁予測を生成するリアルタイム軌道予測モデルであるKrakenを提案する。 krakenは単純なグリーディモード処理技術に依存しており、エージェントペアの因子化された予測を物理的に許容できる関節予測に変換することができる。 また、モードトランスフォーマーモジュールを使用して、予測される軌道の多様性を高め、合同予測をより有益にする。 われわれは、2021年10月のWaymo Motion Predictionチャレンジで、Interactionのリーダーボードで1位、Motionのリーダーボードで2位となった。

Accurate and reliable motion prediction is essential for safe urban autonomy. The most prominent motion prediction approaches are based on modeling the distribution of possible future trajectories of each actor in autonomous system's vicinity. These "independent" marginal predictions might be accurate enough to properly describe casual driving situations where the prediction target is not likely to interact with other actors. They are, however, inadequate for modeling interactive situations where the actors' future trajectories are likely to intersect. To mitigate this issue we propose Kraken -- a real-time trajectory prediction model capable of approximating pairwise interactions between the actors as well as producing accurate marginal predictions. Kraken relies on a simple Greedy Mode Processing technique allowing it to convert a factorized prediction for a pair of agents into a physically-plausible joint prediction. It also utilizes the Mode Transformer module to increase the diversity of predicted trajectories and make the joint prediction more informative. We evaluate Kraken on Waymo Motion Prediction challenge where it held the first place in the Interaction leaderboard and the second place in the Motion leaderboard in October 2021.
翻訳日:2023-12-11 14:35:47 公開日:2023-12-08
# 事前学習した特徴の正規化による単一ネットワークによるオープンドメインの一般化

Open Domain Generalization with a Single Network by Regularization Exploiting Pre-trained Features ( http://arxiv.org/abs/2312.05141v1 )

ライセンス: Link先を確認
Inseop Chung, KiYoon Yoo, Nojun Kwak(参考訳) Open Domain Generalization(ODG)は、分散シフトだけでなく、ソースとターゲットデータセット間のカテゴリシフトを扱うため、難しいタスクである。 このタスクを処理するために、モデルは、未知のドメインに適用できる一般化可能な表現を学習し、トレーニング中に存在しない未知のクラスを特定する必要がある。 これまでの研究では、高い計算コストを伴う複数のソース固有のネットワークを使用してきた。 そこで本研究では,単一ネットワークのみを用いてODGを処理できる手法を提案する。 提案手法では,線形プローブにより事前学習された頭部を用い,特徴抽出器と分類ヘッドの正規化をそれぞれターゲットとした2つの正規化用語を用いる。 2つの正規化項は、事前訓練された特徴を十分に活用し、特徴抽出器を過度に変更することなくモデルの先頭を変更する。 これにより、よりスムーズなソフトマックス出力が保証され、モデルのソースドメインへのバイアスを防ぐことができる。 提案手法は、未確認領域への適応性の向上と未確認クラスの検出能力の向上を示す。 広範な実験により,本手法はいくつかのベンチマークで性能が向上した。 また,ロジット,特徴,頭部への影響を慎重に分析することで,本手法を正当化する。

Open Domain Generalization (ODG) is a challenging task as it not only deals with distribution shifts but also category shifts between the source and target datasets. To handle this task, the model has to learn a generalizable representation that can be applied to unseen domains while also identify unknown classes that were not present during training. Previous work has used multiple source-specific networks, which involve a high computation cost. Therefore, this paper proposes a method that can handle ODG using only a single network. The proposed method utilizes a head that is pre-trained by linear-probing and employs two regularization terms, each targeting the regularization of feature extractor and the classification head, respectively. The two regularization terms fully utilize the pre-trained features and collaborate to modify the head of the model without excessively altering the feature extractor. This ensures a smoother softmax output and prevents the model from being biased towards the source domains. The proposed method shows improved adaptability to unseen domains and increased capability to detect unseen classes as well. Extensive experiments show that our method achieves competitive performance in several benchmarks. We also justify our method with careful analysis of the effect on the logits, features, and the head.
翻訳日:2023-12-11 14:35:27 公開日:2023-12-08
# 形状要素:微分点に基づく形状復号による椎骨骨折の検出

Shape Matters: Detecting Vertebral Fractures Using Differentiable Point-Based Shape Decoding ( http://arxiv.org/abs/2312.05220v1 )

ライセンス: Link先を確認
Hellena Hempe, Alexander Bigalke and Mattias P. Heinrich(参考訳) 変性性脊椎疾患は高齢者に多い。 骨粗しょう性骨折やその他の変性変形のタイムリーな診断は、重篤な腰痛や障害のリスクを軽減させるための予防措置を促進する。 本研究では, 椎体に対する形状自動エンコーダの使用, 自動マルチラベルセグメンテーションの進歩, 教師なし学習のための大規模データセットの利用について検討した。 私たちの形状自動エンコーダは、大量の椎骨表面パッチに基づいて訓練され、椎骨のセグメンテーションに利用可能な膨大なデータを活用しています。 これは、画像強度から椎骨の形状情報を学ぶ際に直面するラベル不足問題に対処する。 学習した形状の特徴に基づいて、椎体骨折を検出するためにMLPを訓練する。 totalsegmentator を用いて自動生成したセグメンテーションマスクを用いて,verse19 テストセット上で 0.901 の auc を実現する。 これはイメージベースとサーフェスベースのエンドツーエンドトレーニングモデルよりも優れています。 さらに,教師なしの事前学習により,pointnet や dgcnn などの幾何学的手法が強化されることを示した。 骨粗しょう性椎骨骨折の診断には, 明らかな形状特徴が有用である。 このアプローチは分類結果の信頼性を改善し、注釈付きラベルの必要性を減らす。 本研究は,脊椎の形状解析における各種エンコーダデコーダモデルの有効性に関する新たな知見を提供し,新しいデコーダアーキテクチャであるポイントベース形状デコーダを提案する。

Degenerative spinal pathologies are highly prevalent among the elderly population. Timely diagnosis of osteoporotic fractures and other degenerative deformities facilitates proactive measures to mitigate the risk of severe back pain and disability. In this study, we specifically explore the use of shape auto-encoders for vertebrae, taking advantage of advancements in automated multi-label segmentation and the availability of large datasets for unsupervised learning. Our shape auto-encoders are trained on a large set of vertebrae surface patches, leveraging the vast amount of available data for vertebra segmentation. This addresses the label scarcity problem faced when learning shape information of vertebrae from image intensities. Based on the learned shape features we train an MLP to detect vertebral body fractures. Using segmentation masks that were automatically generated using the TotalSegmentator, our proposed method achieves an AUC of 0.901 on the VerSe19 testset. This outperforms image-based and surface-based end-to-end trained models. Additionally, our results demonstrate that pre-training the models in an unsupervised manner enhances geometric methods like PointNet and DGCNN. Our findings emphasise the advantages of explicitly learning shape features for diagnosing osteoporotic vertebrae fractures. This approach improves the reliability of classification results and reduces the need for annotated labels. This study provides novel insights into the effectiveness of various encoder-decoder models for shape analysis of vertebrae and proposes a new decoder architecture: the point-based shape decoder.
翻訳日:2023-12-11 14:28:33 公開日:2023-12-08
# 3次元顔モデルとディープラーニングによる顔の分類と認識の強化

Enhancing Facial Classification and Recognition using 3D Facial Models and Deep Learning ( http://arxiv.org/abs/2312.05219v1 )

ライセンス: Link先を確認
Houting Li, Mengxuan Dong, Lok Ming Lui(参考訳) 人間のコンピュータインタラクションからセキュリティシステムまで、さまざまなアプリケーションにおいて、顔属性の正確な分析と分類が不可欠である。 本研究では,3次元顔モデルと深層学習手法の統合により,顔の分類・認識タスクを強化する新しい手法を提案する。 3次元顔モデルを用いて様々なタスクに最も有用な情報を抽出し,分類精度の向上に繋がる。 ResNetアーキテクチャと3D顔の洞察を組み合わせることで、100%の個人分類、95.4%の性別分類、83.5%の表現分類精度を達成できる。 この手法は、顔分析および認識研究の進展を期待する。

Accurate analysis and classification of facial attributes are essential in various applications, from human-computer interaction to security systems. In this work, a novel approach to enhance facial classification and recognition tasks through the integration of 3D facial models with deep learning methods was proposed. We extract the most useful information for various tasks using the 3D Facial Model, leading to improved classification accuracy. Combining 3D facial insights with ResNet architecture, our approach achieves notable results: 100% individual classification, 95.4% gender classification, and 83.5% expression classification accuracy. This method holds promise for advancing facial analysis and recognition research.
翻訳日:2023-12-11 14:28:08 公開日:2023-12-08
# 高次非線形性を利用した高速で堅牢な猫状態調製

Fast and robust cat state preparation utilizing higher order nonlinearities ( http://arxiv.org/abs/2312.05218v1 )

ライセンス: Link先を確認
S. Zhao, M. G. Krauss, T. Bienaime, S. Whitlock, C. P. Koch, S. Qvarfort, and A. Metelmann(参考訳) 猫の状態は量子力学の応用にとって貴重な資源であり、ハイゼンベルクの極限まで感度を下げることを約束する。 さらに、Schr\"odinger cat stateはコヒーレント状態のコヒーレントな重ね合わせに基づいて、位相フリップ誤差に対するロバスト性を示し、ボソニック量子符号の候補となる。 猫の状態を実現する経路は、超伝導デバイスやリドバーグ原子に見られる単一のカー型非調和性を利用することである。 このようなプラットフォームでは、猫の状態の準備に要する時間を制限する2階の無調和性のみを使用している。 本稿では,複数の高次非線形相互作用の適切なチューニングが猫の状態準備時間を短縮することを示す。 また,標準的な単一モード駆動下で真空状態から状態準備を開始可能な最適制御スキームを含む実用的側面についても検討する。 最後に,実験室で猫状態を作成するためのプラットフォームとして,高次非線形性を示すrydberg原子のアンサンブルを提案する。

Cat states are a valuable resource for quantum metrology applications, promising to enable sensitivity down to the Heisenberg limit. Moreover, Schr\"odinger cat states, based on a coherent superposition of coherent states, show robustness against phase-flip errors making them a promising candidate for bosonic quantum codes. A pathway to realize cat states is via utilizing single Kerr-type anharmonicities as found in superconducting devices as well as in Rydberg atoms. Such platforms nevertheless utilize only the second order anharmonicity, which limits the time it takes for a cat state to be prepared. Here we show how proper tuning of multiple higher order nonlinear interactions leads to shorter cat state preparation time. We also discuss practical aspects including an optimal control scheme which allows us to start the state preparation from the vacuum state under standard single mode driving. Lastly, we propose an ensemble of Rydberg atoms that exhibits higher order nonlinearities as a platform to prepare cat states in the laboratory.
翻訳日:2023-12-11 14:27:56 公開日:2023-12-08
# DeltaZip: Delta Compressionを通じたマルチテナント言語モデル

DeltaZip: Multi-Tenant Language Model Serving via Delta Compression ( http://arxiv.org/abs/2312.05215v1 )

ライセンス: Link先を確認
Xiaozhe Yao, Ana Klimovic(参考訳) 下流タスクのための細調整大型言語モデル(LLM)は、モデル品質を大幅に改善するが、マルチテナント環境のユーザに対して、多数の細調整LDMを同時に提供することは困難である。 モデル毎のGPUメモリの指定は極めて高価であり、GPUメモリの内外にある大きなモデルの重みを取り替えるのは遅い。 キーとなる洞察は、各モデルとトレーニング済みベースモデルの間のデルタを抽出し圧縮することで、微調整されたモデルをGPUメモリ内と外部に素早く交換できるということです。 モデルデルタを高いモデル品質を維持しつつ、6-times$から8-times$の係数でアグレッシブに圧縮することで、複数のフルパラメータの微調整モデルを同時に効率的に提供するLLMサービスシステムDeltaZipを提案する。 DeltaZipは、サービススループットを1.5\times$から3\times$に向上し、バニラHuggingFaceサービスシステムと比較してSLOの達成率を改善する。

Fine-tuning large language models (LLMs) for downstream tasks can greatly improve model quality, however serving many different fine-tuned LLMs concurrently for users in multi-tenant environments is challenging. Dedicating GPU memory for each model is prohibitively expensive and naively swapping large model weights in and out of GPU memory is slow. Our key insight is that fine-tuned models can be quickly swapped in and out of GPU memory by extracting and compressing the delta between each model and its pre-trained base model. We propose DeltaZip, an LLM serving system that efficiently serves multiple full-parameter fine-tuned models concurrently by aggressively compressing model deltas by a factor of $6\times$ to $8\times$ while maintaining high model quality. DeltaZip increases serving throughput by $1.5\times$ to $3\times$ and improves SLO attainment compared to a vanilla HuggingFace serving system.
翻訳日:2023-12-11 14:27:37 公開日:2023-12-08
# Intrinsic Avatar:明示的レイトレーシングによる単眼映像からの動的人間の逆レンダリング

IntrinsicAvatar: Physically Based Inverse Rendering of Dynamic Humans from Monocular Videos via Explicit Ray Tracing ( http://arxiv.org/abs/2312.05210v1 )

ライセンス: Link先を確認
Shaofei Wang and Bo\v{z}idar Anti\'c and Andreas Geiger and Siyu Tang(参考訳) 本研究は,単眼映像のみから,幾何学,アルベド,素材,環境照明などの衣服アバターの固有特性を回復するための新しいアプローチであるin vivoavatarを提案する。 近年の人間の神経レンダリングの進歩により、単眼ビデオから高品質な幾何学と外観復元が可能になった。 しかし、これらの手法はアルベド、材料、環境照明などの固有の特性を単一の絡み合った神経表現に焼き付ける。 一方,単眼映像から身に着けた人間の幾何学的特徴と不連続な外観特性を推定する問題には,ほんの一握りの著作しか取り組まなかった。 通常は、学習したMDPによる二次シェーディング効果の近似により、限られた品質とゆがみを達成する。 本研究では,モンテカルロ線トレーシングによる二次シェーディング効果のモデル化を提案する。 布を施した人間のレンダリング過程を体積散乱法としてモデル化し, レイトレーシングと身体調音を組み合わせる。 本手法は,単眼映像から高品質な形状,アルベド,材料,照明特性を回復する。 さらに, 体積散乱過程とレイトレーシングを明示的にモデル化するため, 新たなポーズに自然に一般化し, 新たな照明条件下でのアバターのアニメーション化を可能にする。

We present IntrinsicAvatar, a novel approach to recovering the intrinsic properties of clothed human avatars including geometry, albedo, material, and environment lighting from only monocular videos. Recent advancements in human-based neural rendering have enabled high-quality geometry and appearance reconstruction of clothed humans from just monocular videos. However, these methods bake intrinsic properties such as albedo, material, and environment lighting into a single entangled neural representation. On the other hand, only a handful of works tackle the problem of estimating geometry and disentangled appearance properties of clothed humans from monocular videos. They usually achieve limited quality and disentanglement due to approximations of secondary shading effects via learned MLPs. In this work, we propose to model secondary shading effects explicitly via Monte-Carlo ray tracing. We model the rendering process of clothed humans as a volumetric scattering process, and combine ray tracing with body articulation. Our approach can recover high-quality geometry, albedo, material, and lighting properties of clothed humans from a single monocular video, without requiring supervised pre-training using ground truth materials. Furthermore, since we explicitly model the volumetric scattering process and ray tracing, our model naturally generalizes to novel poses, enabling animation of the reconstructed avatar in novel lighting conditions.
翻訳日:2023-12-11 14:27:20 公開日:2023-12-08
# halo: 生成モデルにおける幻覚を表現するオントロジー

HALO: An Ontology for Representing Hallucinations in Generative Models ( http://arxiv.org/abs/2312.05209v1 )

ライセンス: Link先を確認
Navapat Nananukul, Mayank Kejriwal(参考訳) ChatGPTのような大規模言語モデル(LLM)を含むジェネレーティブAIの最近の進歩は、自然言語処理から知識発見、データマイニングまで、分野において大きな機会を生み出している。 しかし、情報作りや「幻覚」といった問題や、一見単純な問題に対する誤った推論など、モデルが問題を起こしやすいという認識も高まっている。 ChatGPTのようなモデルの人気のため、学者も市民科学者も様々な種類の幻覚と重大さを文書化してきた。 この研究にもかかわらず、これらの幻覚(関連するメタデータ)を細かなレベルで表現し表現するための形式的なモデルはまだ不足している。 本稿では,現在 LLM に現れる6種類の幻覚をサポートする OWL で書かれた形式的拡張性オントロジーである HALO を,証明と実験メタデータのサポートとともに提示することで,このギャップに対処する。 我々はまた、複数の独立したWebソースに誘導的に集まった幻覚を含むデータセットを収集し、公開し、HALOがこのデータセットをモデル化し、有能な質問に答えられることを示す。

Recent progress in generative AI, including large language models (LLMs) like ChatGPT, has opened up significant opportunities in fields ranging from natural language processing to knowledge discovery and data mining. However, there is also a growing awareness that the models can be prone to problems such as making information up or `hallucinations', and faulty reasoning on seemingly simple problems. Because of the popularity of models like ChatGPT, both academic scholars and citizen scientists have documented hallucinations of several different types and severity. Despite this body of work, a formal model for describing and representing these hallucinations (with relevant meta-data) at a fine-grained level, is still lacking. In this paper, we address this gap by presenting the Hallucination Ontology or HALO, a formal, extensible ontology written in OWL that currently offers support for six different types of hallucinations known to arise in LLMs, along with support for provenance and experimental metadata. We also collect and publish a dataset containing hallucinations that we inductively gathered across multiple independent Web sources, and show that HALO can be successfully used to model this dataset and answer competency questions.
翻訳日:2023-12-11 14:26:57 公開日:2023-12-08
# ControlRoom3D:Semantic Proxy Roomsを用いたルーム生成

ControlRoom3D: Room Generation using Semantic Proxy Rooms ( http://arxiv.org/abs/2312.05208v1 )

ライセンス: Link先を確認
Jonas Schult, Sam Tsai, Lukas H\"ollein, Bichen Wu, Jialiang Wang, Chih-Yao Ma, Kunpeng Li, Xiaofang Wang, Felix Wimbauer, Zijian He, Peizhao Zhang, Bastian Leibe, Peter Vajda, Ji Hou(参考訳) AR/VRアプリケーション用に手動で3D環境を作成することは、3Dモデリングソフトウェアで専門知識を必要とする複雑なプロセスである。 先駆的な作業は、テキストスタイル記述に基づいたルームメッシュを生成することによって、このプロセスを促進する。 しかし、これらの自動生成された3dメッシュの多くは、典型的な部屋のレイアウトに固執せず、例えば複数のベッドを1つの寝室に置くことで、その信頼性を損なう。 そこで本研究では,高品質ルームメッシュを生成する新しい方法である controlroom3d を提案する。 私たちのアプローチの中心は、セマンティックバウンディングボックスに基づく粗い部屋レイアウトと、部屋全体のスタイルに関するテキスト記述を概説する、ユーザ定義の3dセマンティックプロキシルームです。 我々の重要な洞察は、この3D表現が2Dにレンダリングされると、強力な2Dモデルを制御するために貴重な幾何学的および意味的な情報を提供し、プロキシルームとよく整合する3Dの一貫性のあるテクスチャと幾何学を生成することである。 定量的な計測値や定性的なユーザ評価を含む広範な研究によって,本手法は多種多様かつグローバルに利用可能な3Dルームメッシュを生成する。

Manually creating 3D environments for AR/VR applications is a complex process requiring expert knowledge in 3D modeling software. Pioneering works facilitate this process by generating room meshes conditioned on textual style descriptions. Yet, many of these automatically generated 3D meshes do not adhere to typical room layouts, compromising their plausibility, e.g., by placing several beds in one bedroom. To address these challenges, we present ControlRoom3D, a novel method to generate high-quality room meshes. Central to our approach is a user-defined 3D semantic proxy room that outlines a rough room layout based on semantic bounding boxes and a textual description of the overall room style. Our key insight is that when rendered to 2D, this 3D representation provides valuable geometric and semantic information to control powerful 2D models to generate 3D consistent textures and geometry that aligns well with the proxy room. Backed up by an extensive study including quantitative metrics and qualitative user evaluations, our method generates diverse and globally plausible 3D room meshes, thus empowering users to design 3D rooms effortlessly without specialized knowledge.
翻訳日:2023-12-11 14:26:36 公開日:2023-12-08
# 量子物理学における創発時間と時間移動

Emergent Time and Time Travel in Quantum Physics ( http://arxiv.org/abs/2312.05202v1 )

ライセンス: Link先を確認
Ana Alonso-Serrano (Humboldt-Universit\"at zu Berlin and Max-Planck-Institut f\"ur Gravitationsphysik, Potsdam), Sebastian Schuster (Charles University Prague), Matt Visser (Victoria University of Wellington)(参考訳) タイムトラベルの可能性を得るには、基本物理学という重要な概念に必ず挑戦する。 様々な確立された物理学の分野と異なる出発点を用いて、複数の論理矛盾を構築するのは比較的容易になる。 時として、量子重力の完全な理論だけがこれらの論理的矛盾を解決できるという解釈がある。 それでも、多くの問題が克服できるかどうかは不明だ。 しかし、これは物理学における時間旅行の概念であるように思えるが、そのような量子重力への言及は、時間旅行に対するこれらの反論のほとんどに対して、長年にわたる挑戦を伴っている: これらの議論は時間に依存するが、量子重力は(明らかに)時間の問題に悩まされ、対処している。 標準的な枠組みの中でこの問題に答えようとする試みの1つは、時間の概念としてページ・ウーターズ形式主義と最近のゲージ理論の再解釈をもたらした。 ここでは、時間という創発的な概念が時間旅行の可能性について何を教えてくれるかを理解することを目的として、量子理論におけるハミルトンの制約を実装するおもちゃモデルを研究するプログラムを開始する。

Entertaining the possibility of time travel will invariably challenge dearly held concepts of fundamental physics. It becomes relatively easy to construct multiple logical contradictions using differing starting points from various well-established fields of physics. Sometimes, the interpretation is that only a full theory of quantum gravity will be able to settle these logical contradictions. Even then, it remains unclear if the multitude of problems could be overcome. Yet as definitive as this seems to the notion of time travel in physics, such a recourse to quantum gravity comes with its own, long-standing challenge to most of these counter-arguments to time travel: These arguments rely on time, while quantum gravity is (in)famously stuck with and dealing with the problem of time. One attempt to answer this problem within the canonical framework resulted in the Page-Wootters formalism, and its recent gauge-theoretic re-interpretation - as an emergent notion of time. Herein, we will begin a programme to study toy models implementing the Hamiltonian constraint in quantum theory, with an aim towards understanding what an emergent notion of time can tell us about the (im)possibility of time travel.
翻訳日:2023-12-11 14:26:13 公開日:2023-12-08
# DelucionQA:ドメイン固有の質問応答における幻覚の検出

DelucionQA: Detecting Hallucinations in Domain-specific Question Answering ( http://arxiv.org/abs/2312.05200v1 )

ライセンス: Link先を確認
Mobashir Sadat, Zhengyu Zhou, Lukas Lange, Jun Araki, Arsalan Gundroo, Bingqing Wang, Rakesh R Menon, Md Rizwan Parvez, Zhe Feng(参考訳) 幻覚は、大きな言語モデル(LLM)によって生成されたテキストでよく知られた現象である。 幻覚応答の存在は、要約、質問応答(qa)など、ほぼすべてのアプリケーションシナリオで見られます。 高い信頼性を必要とするアプリケーション(例えば、顧客対応アシスタント)にとって、LLM生成テキストにおける幻覚の存在は重要な問題である。 情報検索を利用してllmに関連する背景情報を提供することにより幻覚量を削減できる。 しかし、LLMは、様々な理由で幻覚的内容を生成することができる(例えば、そのパラメトリックな知識を文脈上で優先順位付けしたり、関連する情報をコンテキストから取得できないなど)。 したがって、自動手法による幻覚の検出が最重要である。 この方向の研究を容易にするために,ドメイン固有のQAタスクに対するLLMの検索による幻覚をキャプチャする高度なデータセットDelucionQAを導入する。 また,研究コミュニティの今後の研究のベースラインとして,幻覚検出手法のセットを提案する。 分析とケーススタディも提供され、対象シナリオにおける幻覚現象に関する貴重な洞察を共有している。

Hallucination is a well-known phenomenon in text generated by large language models (LLMs). The existence of hallucinatory responses is found in almost all application scenarios e.g., summarization, question-answering (QA) etc. For applications requiring high reliability (e.g., customer-facing assistants), the potential existence of hallucination in LLM-generated text is a critical problem. The amount of hallucination can be reduced by leveraging information retrieval to provide relevant background information to the LLM. However, LLMs can still generate hallucinatory content for various reasons (e.g., prioritizing its parametric knowledge over the context, failure to capture the relevant information from the context, etc.). Detecting hallucinations through automated methods is thus paramount. To facilitate research in this direction, we introduce a sophisticated dataset, DelucionQA, that captures hallucinations made by retrieval-augmented LLMs for a domain-specific QA task. Furthermore, we propose a set of hallucination detection methods to serve as baselines for future works from the research community. Analysis and case study are also provided to share valuable insights on hallucination phenomena in the target scenario.
翻訳日:2023-12-11 14:25:51 公開日:2023-12-08
# 単結晶タングステートの低温マルチモードマイクロ波分光

Low Temperature Multi-mode Microwave Spectroscopy of Single Crystal Calcium Tungstate ( http://arxiv.org/abs/2312.05199v1 )

ライセンス: Link先を確認
Elrina Hartman, Michael E Tobar, Ben T McAllister, Jeremy Bourhill, Maxim Goryachev(参考訳) 単結晶カルシウムタングステート(CaWO$_4$)は、電子量子力学(QED)を用いて固体中のスピンを研究する興味深い材料である。 本研究では,CaWO$_4$の円筒単結晶から誘電体を装荷したマイクロ波空洞共振器を構築し,30mKでマルチモード分光を行う。 この研究では多くの高値q$モードを発見し、光子-スピン相互作用の高感度解析を可能にする低誘電損失(\tan\delta<10^{-7}$)を示す。 スピン$g_L$因子とゼロフィールドスプリッティング(ZFS)の測定は、常磁性不純物の存在から生じるスピンの同定とキャラクタリゼーションを可能にする。 我々は、Gd$^{3+}$濃度が$\mathcal{O}(10^{13})$ cm$^{-3}$であり、スピン濃度の低い境界がpbの順に置かれることを発見した。 さらに, 極めて低い濃度で, 未知の希土類金属不純物の存在を観察した。

Single crystal calcium tungstate (CaWO$_4$) is an interesting material for investigating spins in solids using microwave quantum electrodynamics (QED). We construct a dielectrically loaded microwave cavity resonator from a cylindrical single crystal of CaWO$_4$ and perform whispering gallery multi-mode spectroscopy at 30 mK. This study found many high-$Q$ modes, indicating a low dielectric loss tangent ($\tan\delta<10^{-7}$) which enables high sensitivity analysis of photon-spin interactions. Measurements of spin $g_L$ factors and zero field splittings (ZFS) allow for identification and characterization of spins that arise from the presence of paramagnetic impurities. We found Gd$^{3+}$ concentrations of $\mathcal{O}(10^{13})$ cm$^{-3}$ and lower bounds on the spin concentration could be placed on the order of ppb. Additionally, we observe the presence of unknown rare\hyp{}earth metal impurities at much lower concentrations.
翻訳日:2023-12-11 14:25:31 公開日:2023-12-08
# マルチユーザ設定における共形予測:評価

Conformal Prediction in Multi-User Settings: An Evaluation ( http://arxiv.org/abs/2312.05195v1 )

ライセンス: Link先を確認
Enrique Garcia-Ceja, Luciano Garcia-Banuelos, Nicolas Jourdan(参考訳) 通常、機械学習モデルはユーザーを区別することなくトレーニングされ、評価される(例えば、従来のホールドアウトとクロスバリデーションを使用する)。 しかし、これはマルチユーザー設定で不正確なパフォーマンス指標を生成する。 すなわち、異なる特性(年齢、性別、身長など)を持つ複数のユーザによってデータが収集される状況は、ユーザコンピュータのインタラクションや医療アプリケーションで非常に一般的である。 このようなシナリオでは,混合モデルやユーザ非依存モデル,ユーザ依存モデル,ユーザ適応モデルなど,よりよいパフォーマンス見積を提供するモデル評価戦略が提案されている。 これらの戦略はマルチユーザシステムに適しているが、一般的にモデル全体の振る舞いを捉え、個々の予測に対するパフォーマンス保証を提供しておらず、予測の不確実性に関するフィードバックも提供しないパフォーマンス指標について評価される。 これらの制約を克服するために,本研究では,複数のマルチユーザ環境での適合予測フレームワークの評価を行った。 適合予測(conformal prediction)は、予測に対する信頼性を提供するモデル非依存の手法であり、モデルの信頼性と堅牢性を高める。 異なる評価戦略を用いた広範囲な実験を行い, 適合性評価の観点で有意な差を認めた。 また,結果の予測集合の異なる側面を捉えた,行列,グラフ,チャートに基づく可視化もいくつか提案した。

Typically, machine learning models are trained and evaluated without making any distinction between users (e.g, using traditional hold-out and cross-validation). However, this produces inaccurate performance metrics estimates in multi-user settings. That is, situations where the data were collected by multiple users with different characteristics (e.g., age, gender, height, etc.) which is very common in user computer interaction and medical applications. For these types of scenarios model evaluation strategies that provide better performance estimates have been proposed such as mixed, user-independent, user-dependent, and user-adaptive models. Although those strategies are better suited for multi-user systems, they are typically assessed with respect to performance metrics that capture the overall behavior of the models and do not provide any performance guarantees for individual predictions nor they provide any feedback about the predictions' uncertainty. In order to overcome those limitations, in this work we evaluated the conformal prediction framework in several multi-user settings. Conformal prediction is a model agnostic method that provides confidence guarantees on the predictions, thus, increasing the trustworthiness and robustness of the models. We conducted extensive experiments using different evaluation strategies and found significant differences in terms of conformal performance measures. We also proposed several visualizations based on matrices, graphs, and charts that capture different aspects of the resulting prediction sets.
翻訳日:2023-12-11 14:25:14 公開日:2023-12-08
# カメラポーズと深度推定による画像バーストの微細密配列

Fine Dense Alignment of Image Bursts through Camera Pose and Depth Estimation ( http://arxiv.org/abs/2312.05190v1 )

ライセンス: Link先を確認
Bruno Lecouat, Yann Dubois de Mont-Marin, Th\'eo Bodrito, Julien Mairal, Jean Ponce(参考訳) 本稿では,ハンドヘルドカメラが捉えたバースト内の画像の微細なアライメントに対する新しいアプローチを提案する。 フレーム対間の二次元変換を推定したり、離散対応に依存する従来の手法とは対照的に、提案されたアルゴリズムは、各画素のカメラの動きと表面深度と方向の両方を最適化することで、密対応を確立する。 このアプローチは、特にパララックス問題のあるシナリオにおいて、アライメントを改善する。 小さくて小さなベースラインを特徴とする合成バーストによる広範囲な実験は、トレーニングを必要とせず、この設定で現在利用可能な最高の光フローメソッドを上回っていることを示している。 強化されたアライメントを超えて,本手法では,予備的な結果が期待できるように,奥行き推定や3次元再構成など,単純な画像復元以上の課題への道を開く。 これは、様々なバースト画像処理アプリケーションのための汎用ツールとして当社のアプローチを位置づけている。

This paper introduces a novel approach to the fine alignment of images in a burst captured by a handheld camera. In contrast to traditional techniques that estimate two-dimensional transformations between frame pairs or rely on discrete correspondences, the proposed algorithm establishes dense correspondences by optimizing both the camera motion and surface depth and orientation at every pixel. This approach improves alignment, particularly in scenarios with parallax challenges. Extensive experiments with synthetic bursts featuring small and even tiny baselines demonstrate that it outperforms the best optical flow methods available today in this setting, without requiring any training. Beyond enhanced alignment, our method opens avenues for tasks beyond simple image restoration, such as depth estimation and 3D reconstruction, as supported by promising preliminary results. This positions our approach as a versatile tool for various burst image processing applications.
翻訳日:2023-12-11 14:24:54 公開日:2023-12-08
# Seamless:多言語表現とストリーム音声翻訳

Seamless: Multilingual Expressive and Streaming Speech Translation ( http://arxiv.org/abs/2312.05187v1 )

ライセンス: Link先を確認
Seamless Communication, Lo\"ic Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia Gonzalez, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-juss\`a, Maha Elbayad, Hongyu Gong, Francisco Guzm\'an, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson(参考訳) 現在、大規模な自動音声翻訳システムには、人間対人間の対話に比べて機械によるコミュニケーションをシームレスに感じられる重要な機能がない。 本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング方式で実現するためのモデルファミリを紹介する。 まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版を提案する。 更新されたUnitY2フレームワークを取り入れたこの新しいモデルは、より低リソースの言語データに基づいてトレーニングされた。 SeamlessM4T v2は、次の2つのモデルを開始する基盤を提供します。 SeamlessExpressiveは、ボーカルスタイルと韻律を保存する翻訳を可能にする。 本研究は,従来の表現的音声研究の取り組みと比較して,発話速度やポーズといった韻律の過小な側面に対処するとともに,声のスタイルを保存している。 SeamlessStreamingに関しては,効率の良いモノトニック・マルチヘッド・アテンション機構を利用して,完全な発話を待たずに低レイテンシなターゲット翻訳を生成する。 この種の最初のものとして、seamlessstreamingは複数のソースとターゲット言語を同時に音声から音声への翻訳を可能にする。 モデルが安全かつ責任を持って使用できるように,マルチモーダル機械翻訳における最初のレッドチーム作業,追加毒性の検出と軽減のためのシステム,性別バイアスの体系的評価,ディープフェイクの影響を弱めるように設計された不明瞭な局所的透かし機構を実装した。 これにより,シームレスな表現とシームレスなストリーミングから主要なコンポーネントを組み合わせることで,表現力のある言語間コミュニケーションをリアルタイムにアンロックする,最初の一般公開システムとなる。 この作業へのコントリビューションはhttps://github.com/facebookresearch/seamless_communicationで公開されている。

Large-scale automatic speech translation systems today lack key features that help machine-mediated communication feel seamless when compared to human-to-human dialogue. In this work, we introduce a family of models that enable end-to-end expressive and multilingual translations in a streaming fashion. First, we contribute an improved version of the massively multilingual and multimodal SeamlessM4T model-SeamlessM4T v2. This newer model, incorporating an updated UnitY2 framework, was trained on more low-resource language data. SeamlessM4T v2 provides the foundation on which our next two models are initiated. SeamlessExpressive enables translation that preserves vocal styles and prosody. Compared to previous efforts in expressive speech research, our work addresses certain underexplored aspects of prosody, such as speech rate and pauses, while also preserving the style of one's voice. As for SeamlessStreaming, our model leverages the Efficient Monotonic Multihead Attention mechanism to generate low-latency target translations without waiting for complete source utterances. As the first of its kind, SeamlessStreaming enables simultaneous speech-to-speech/text translation for multiple source and target languages. To ensure that our models can be used safely and responsibly, we implemented the first known red-teaming effort for multimodal machine translation, a system for the detection and mitigation of added toxicity, a systematic evaluation of gender bias, and an inaudible localized watermarking mechanism designed to dampen the impact of deepfakes. Consequently, we bring major components from SeamlessExpressive and SeamlessStreaming together to form Seamless, the first publicly available system that unlocks expressive cross-lingual communication in real-time. The contributions to this work are publicly released and accessible at https://github.com/facebookresearch/seamless_communication
翻訳日:2023-12-11 14:24:38 公開日:2023-12-08
# AIコンペティションとベンチマーク:コンペティションプラットフォーム

AI Competitions and Benchmarks: Competition platforms ( http://arxiv.org/abs/2312.05185v1 )

ライセンス: Link先を確認
Andrey Ustyuzhanin, Harald Carlens(参考訳) 人工知能コンペティションのエコシステムは多様で多面的な景観であり、毎年多くのコンペティションが開催されている様々なプラットフォームを包含している。 これらのプラットフォームは、競争の組織化に固有の管理上の責任を十分に管理し、組織が競争の他の面により多くの注意を払う自由を与える。 特に、これらのプラットフォームは、運用機能、経済モデル、コミュニティのダイナミクスにおいてかなりの多様性を示している。 この章では、この領域における最上位のサービスについて広範なレビューを行い、これらの課題の独立したホスティングを促進するいくつかの代替手法を解明する。 キーワード:競争プラットフォーム、チャレンジホスティングサービス、比較。

The ecosystem of artificial intelligence competitions is a diverse and multifaceted landscape, encompassing a variety of platforms that each host numerous competitions annually, alongside a plethora of specialized websites dedicated to singular contests. These platforms adeptly manage the overarching administrative responsibilities inherent in orchestrating competitions, thus affording organizers the liberty to allocate greater attention to other facets of their contests. Notably, these platforms exhibit considerable diversity in their operational functionalities, economic models, and community dynamics. This chapter conducts an extensive review of the foremost services in this realm and elucidates several alternative methodologies that facilitate the independent hosting of such challenges. Keywords: competition platform, challenge hosting services, comparison.
翻訳日:2023-12-11 14:24:10 公開日:2023-12-08
# tenplex:並列化型テンソルコレクションを用いたディープラーニングジョブのリソース変更

TENPLEX: Changing Resources of Deep Learning Jobs using Parallelizable Tensor Collections ( http://arxiv.org/abs/2312.05181v1 )

ライセンス: Link先を確認
Marcel Wagenl\"ander, Guo Li, Bo Zhao, Luo Mai, Peter Pietzuch(参考訳) ディープラーニング(DL)ジョブは多次元の並列処理、すなわちデータ、モデル、パイプラインの並列処理を組み合わせて、大きなGPUクラスタを効率的に使用する。 これは、一連のGPUデバイスにジョブを密に結合するが、ジョブはデバイス割り当ての変更を経験する可能性がある。 一 訓練中の資源の弾力性、装置の追加又は除去 (二 ハードウェアのメンテナンスは、異なる装置に再配備することを必要とする場合がある。) (iii)装置故障は、少ない装置でジョブを実行することを強制する。 現在のdlフレームワークは、既に実行されているジョブの多次元並列性を効率的でモデルに依存しない方法で変更できないため、これらのシナリオをサポートしていない。 TenplexはDLフレームワークのための状態管理ライブラリで、ジョブが実行時にGPU割り当てとジョブ並列性を変更することができる。 Tenplexは、トレーニング中のDLジョブ状態を並列化可能なテンソルコレクション(PTC)として外部化する。 dlジョブのgpu割り当てが変更された場合、tenplexはptcを使用してdlジョブ状態を変換する。 データセット状態については、tenplexはデータ並列化の下でそれを再分割し、仮想ファイルシステムを介してワーカーに公開する。 効率性のために、これらのPTC変換は、デバイスとワーカー間のデータ移動の最小限と並行して実行される。 実験により、TenplexはDLジョブを低オーバーヘッドで動的並列化をサポートできることを示した。

Deep learning (DL) jobs use multi-dimensional parallelism, i.e they combine data, model, and pipeline parallelism, to use large GPU clusters efficiently. This couples jobs tightly to a set of GPU devices, but jobs may experience changes to the device allocation: (i) resource elasticity during training adds or removes devices; (ii) hardware maintenance may require redeployment on different devices; and (iii) device failures force jobs to run with fewer devices. Current DL frameworks lack support for these scenarios, as they cannot change the multi-dimensional parallelism of an already-running job in an efficient and model-independent way. We describe Tenplex, a state management library for DL frameworks that enables jobs to change the GPU allocation and job parallelism at runtime. Tenplex achieves this by externalizing the DL job state during training as a parallelizable tensor collection (PTC). When the GPU allocation for the DL job changes, Tenplex uses the PTC to transform the DL job state: for the dataset state, Tenplex repartitions it under data parallelism and exposes it to workers through a virtual file system; for the model state, Tenplex obtains it as partitioned checkpoints and transforms them to reflect the new parallelization configuration. For efficiency, these PTC transformations are executed in parallel with a minimum amount of data movement between devices and workers. Our experiments show that Tenplex enables DL jobs to support dynamic parallelization with low overhead.
翻訳日:2023-12-11 14:23:57 公開日:2023-12-08
# 説明機械学習技術を用いた原始惑星円盤中のCO化学の拡散

Disentangling CO Chemistry in a Protoplanetary Disk Using Explanatory Machine Learning Techniques ( http://arxiv.org/abs/2312.05254v1 )

ライセンス: Link先を確認
Amina Diop (1), Ilse Cleeves (1), Dana Anderson (2), Jamila Pegues (3), Adele Plunkett (4) ((1) University of Virginia, (2) Earth and Planets Laboratory, Carnegie Institution for Science, (3) Space Telescope Science Institute, (4) National Radio Astronomy Observatory)(参考訳) 原始惑星系円盤の分子量は、ガス温度、ガス密度、放射場、塵の性質など、局所的な物理的条件に非常に敏感である。 しばしば複数の要因が絡み合っており、単純種と複雑種の双方に影響を及ぼす。 機械学習を用いてこれらの化学および物理的相互依存を理解するための新しいアプローチを提案する。 具体的には,一般ディスクの条件下でのcoモデルの場合について検討し,co空間密度のガス密度,ガス温度,宇宙線イオン化速度,x線イオン化速度,紫外線フラックス依存性を調べるための説明回帰モデルを構築した。 その結果, パラメータの組み合わせは, 特定の物理パラメータと比較して, CO制御において驚くほど強力な役割を担っていることがわかった。 さらに, 一般に, ディスク内の条件はcoに対して破壊的であることがわかった。 宇宙線環境と初期C/O比の高いディスクではCOの減少がさらに促進される。 この新しいアプローチによって発見されたこれらの依存関係は、より集中的で計算コストの高いモデリングである以前の研究と一致している。 我々の研究は、機械学習が効率的な予測モデルの作成だけでなく、複雑な化学プロセスのより深い理解を可能にする強力なツールであることを示している。

Molecular abundances in protoplanetary disks are highly sensitive to the local physical conditions, including gas temperature, gas density, radiation field, and dust properties. Often multiple factors are intertwined, impacting the abundances of both simple and complex species. We present a new approach to understanding these chemical and physical interdependencies using machine learning. Specifically we explore the case of CO modeled under the conditions of a generic disk and build an explanatory regression model to study the dependence of CO spatial density on the gas density, gas temperature, cosmic ray ionization rate, X-ray ionization rate, and UV flux. Our findings indicate that combinations of parameters play a surprisingly powerful role in regulating CO compared to any singular physical parameter. Moreover, in general, we find the conditions in the disk are destructive toward CO. CO depletion is further enhanced in an increased cosmic ray environment and in disks with higher initial C/O ratios. These dependencies uncovered by our new approach are consistent with previous studies, which are more modeling intensive and computationally expensive. Our work thus shows that machine learning can be a powerful tool not only for creating efficient predictive models, but also for enabling a deeper understanding of complex chemical processes.
翻訳日:2023-12-11 14:17:40 公開日:2023-12-08
# KBFormer:構造化エンティティ補完のための拡散モデル

KBFormer: A Diffusion Model for Structured Entity Completion ( http://arxiv.org/abs/2312.05253v1 )

ライセンス: Link先を確認
Ouail Kitouni, Niklas Nolte, James Hensman, Bhaskar Mitra(参考訳) 本研究では,数値,カテゴリ,文字列,複合など,異なる特性型からなる構造化エンティティをモデル化するための生成的注意に基づくアプローチを開発した。 このアプローチは、特性上の混合連続離散拡散過程を通じて、そのような異種データを扱う。 我々の柔軟なフレームワークは任意の階層特性を持つエンティティをモデル化することができ、アプリケーションは構造化された知識ベース(KB)エンティティと表データにアクセスできる。 提案手法は15データセットにまたがるほとんどのケースで最先端のパフォーマンスが得られる。 さらに、デバイスkbと核物理学データセットを用いた実験は、様々な環境でエンティティ補完に役立つ表現を学習するモデルの能力を示している。 これには、高い精度で数値特性をモデル化するなど、下流のユースケースが多数含まれています。

We develop a generative attention-based approach to modeling structured entities comprising different property types, such as numerical, categorical, string, and composite. This approach handles such heterogeneous data through a mixed continuous-discrete diffusion process over the properties. Our flexible framework can model entities with arbitrary hierarchical properties, enabling applications to structured Knowledge Base (KB) entities and tabular data. Our approach obtains state-of-the-art performance on a majority of cases across 15 datasets. In addition, experiments with a device KB and a nuclear physics dataset demonstrate the model's ability to learn representations useful for entity completion in diverse settings. This has many downstream use cases, including modeling numerical properties with high accuracy - critical for science applications, which also benefit from the model's inherent probabilistic nature.
翻訳日:2023-12-11 14:17:19 公開日:2023-12-08
# 変圧器を用いた3次元手作り

Reconstructing Hands in 3D with Transformers ( http://arxiv.org/abs/2312.05251v1 )

ライセンス: Link先を確認
Georgios Pavlakos, Dandan Shan, Ilija Radosavovic, Angjoo Kanazawa, David Fouhey, Jitendra Malik(参考訳) 単分子入力から3次元の手を再構成する手法を提案する。 ハンドメッシュリカバリのアプローチであるhamerは,完全なトランスフォーマーベースのアーキテクチャに従って,従来の作業に比べて精度と堅牢性が著しく向上した手の分析を行う。 HaMeRの成功の鍵は、トレーニングに使用されるデータと、手作業で使用するディープネットワークの容量のスケールアップである。 トレーニングデータには、2dまたは3dハンドアノテーションを含む複数のデータセットを組み合わせる。 ディープラーニングモデルでは、大規模なVision Transformerアーキテクチャを使用します。 我々の最終モデルは、人気のある3Dハンドポーズベンチマークにおける以前のベースラインを一貫して上回る。 非制御設定における設計の効果をさらに評価するために、2dハンドキーポイントアノテーションを用いた既存のインザワイルドデータセットに注釈を付ける。 新たに収集されたアノテーションのデータセットであるHIntでは、既存のベースラインよりも大幅に改善されている。 コード、データ、モデルはプロジェクトのwebサイト(https://geopavlakos.github.io/hamer/)で利用可能です。

We present an approach that can reconstruct hands in 3D from monocular input. Our approach for Hand Mesh Recovery, HaMeR, follows a fully transformer-based architecture and can analyze hands with significantly increased accuracy and robustness compared to previous work. The key to HaMeR's success lies in scaling up both the data used for training and the capacity of the deep network for hand reconstruction. For training data, we combine multiple datasets that contain 2D or 3D hand annotations. For the deep model, we use a large scale Vision Transformer architecture. Our final model consistently outperforms the previous baselines on popular 3D hand pose benchmarks. To further evaluate the effect of our design in non-controlled settings, we annotate existing in-the-wild datasets with 2D hand keypoint annotations. On this newly collected dataset of annotations, HInt, we demonstrate significant improvements over existing baselines. We make our code, data and models available on the project website: https://geopavlakos.github.io/hamer/.
翻訳日:2023-12-11 14:17:05 公開日:2023-12-08
# taskmet: モデル学習のためのタスク駆動メトリック学習

TaskMet: Task-Driven Metric Learning for Model Learning ( http://arxiv.org/abs/2312.05250v1 )

ライセンス: Link先を確認
Dishank Bansal, Ricky T. Q. Chen, Mustafa Mukadam, Brandon Amos(参考訳) ディープラーニングモデルは、トレーニング手順が認識できないダウンストリームタスクにデプロイされることが多い。 例えば、正確な予測を行うためにのみ訓練されたモデルは、小さな予測エラーが急激なタスクエラーを引き起こす可能性があるため、下流のタスクでうまく実行するのに苦労する可能性がある。 エンド・ツー・エンド学習の標準的なアプローチは、タスクの損失を微分可能にする、あるいはモデルをトレーニング可能な微分可能なサロゲートを導入することである。 これらの設定では、タスク損失は、目標に矛盾する可能性があるため、予測損失と注意深くバランスする必要がある。 タスク損失信号はモデルのパラメータよりも1レベル深く、モデルがトレーニングした損失関数のパラメータを学習するために使用し、予測空間でメトリクスを学習することで実現できる。 このアプローチは最適な予測モデル自体を変えるのではなく、モデル学習を変えて下流タスクにとって重要な情報を強調します。 これにより、元の予測空間で訓練された予測モデルと、所望の下流タスクに価値ある予測モデルという、両方の世界のベストを達成できます。 主に2つの環境で実施した実験を通じて,我々のアプローチを検証する。 1)ポートフォリオ最適化と予算配分を含む意思決定型モデル学習シナリオ 2)邪魔な状態をもつ騒音環境における強化学習 実験を再現するソースコードはhttps://github.com/facebookresearch/taskmetで閲覧できます。

Deep learning models are often deployed in downstream tasks that the training procedure may not be aware of. For example, models solely trained to achieve accurate predictions may struggle to perform well on downstream tasks because seemingly small prediction errors may incur drastic task errors. The standard end-to-end learning approach is to make the task loss differentiable or to introduce a differentiable surrogate that the model can be trained on. In these settings, the task loss needs to be carefully balanced with the prediction loss because they may have conflicting objectives. We propose take the task loss signal one level deeper than the parameters of the model and use it to learn the parameters of the loss function the model is trained on, which can be done by learning a metric in the prediction space. This approach does not alter the optimal prediction model itself, but rather changes the model learning to emphasize the information important for the downstream task. This enables us to achieve the best of both worlds: a prediction model trained in the original prediction space while also being valuable for the desired downstream task. We validate our approach through experiments conducted in two main settings: 1) decision-focused model learning scenarios involving portfolio optimization and budget allocation, and 2) reinforcement learning in noisy environments with distracting states. The source code to reproduce our experiments is available at https://github.com/facebookresearch/taskmet
翻訳日:2023-12-11 14:16:49 公開日:2023-12-08
# 分散学習のためのトポロジーに基づく再構成防止

Topology-Based Reconstruction Prevention for Decentralised Learning ( http://arxiv.org/abs/2312.05248v1 )

ライセンス: Link先を確認
Florine W. Dekker (1), Zekeriya Erkin (1), Mauro Conti (2 and 1) ((1) Delft University of Technology, the Netherlands and (2) Universit\`a di Padova, Italy)(参考訳) 分散学習は、データとコーディネーションの両方がユーザ間で分散する連合学習の代替として、最近注目を集めている。 ユーザのデータの機密性を維持するために、分散学習は差分プライバシー、マルチパーティ計算、あるいはそれらの組み合わせに依存する。 しかし、複数のプライバシ保存サマリーを連続して実行すると、敵がリコンストラクション攻撃を行うことができる。 残念ながら、現在のリコンストラクション対策は分散設定に簡単に適応できないか、あるいは過剰なノイズを加えることができない。 本研究は,プライバシ保存の要約を数回行った結果,受動的に誠実だが正確な敵が,他のユーザのプライベートデータを再構築できることを最初に示す。 例えば、18人のユーザを持つサブグラフでは、3人の受動的真正な敵のみが11.0%の時間でプライベートデータを再構築することに成功した。 成功率は全ネットワークのサイズとは無関係である。 我々は,グラフトポロジを制御せず,要約プロトコルの動作やユーザのデータの詳細を利用できない弱い敵について考察する。 我々は,再構築がトポロジーとどのように関連しているかを数学的に理解し,再構成攻撃に対する最初のトポロジーベースの分散防御を提案する。 具体的には,ネットワークの最短周期の長さに線形な複数の逆数を必要とすることを示す。 したがって、非循環ネットワークではプライバシー保護の和からプライベートデータを再構築することは不可能である。 我々の研究は、トポロジに基づく分散型復興防衛の正式な理論のための足場である。 このような理論は、要約を超えて我々の対策を一般化し、エントロピーの観点から機密性を定義し、(トポロジーを意識した)微分プライバシーの効果を記述する。

Decentralised learning has recently gained traction as an alternative to federated learning in which both data and coordination are distributed over its users. To preserve the confidentiality of users' data, decentralised learning relies on differential privacy, multi-party computation, or a combination thereof. However, running multiple privacy-preserving summations in sequence may allow adversaries to perform reconstruction attacks. Unfortunately, current reconstruction countermeasures either cannot trivially be adapted to the distributed setting, or add excessive amounts of noise. In this work, we first show that passive honest-but-curious adversaries can reconstruct other users' private data after several privacy-preserving summations. For example, in subgraphs with 18 users, we show that only three passive honest-but-curious adversaries succeed at reconstructing private data 11.0% of the time, requiring an average of 8.8 summations per adversary. The success rate is independent of the size of the full network. We consider weak adversaries, who do not control the graph topology and can exploit neither the workings of the summation protocol nor the specifics of users' data. We develop a mathematical understanding of how reconstruction relates to topology and propose the first topology-based decentralised defence against reconstruction attacks. Specifically, we show that reconstruction requires a number of adversaries linear in the length of the network's shortest cycle. Consequently, reconstructing private data from privacy-preserving summations is impossible in acyclic networks. Our work is a stepping stone for a formal theory of decentralised reconstruction defences based on topology. Such a theory would generalise our countermeasure beyond summation, define confidentiality in terms of entropy, and describe the effects of (topology-aware) differential privacy.
翻訳日:2023-12-11 14:15:59 公開日:2023-12-08
# 合成ニューラルネットワークを用いた動的LiDAR再シミュレーション

Dynamic LiDAR Re-simulation using Compositional Neural Fields ( http://arxiv.org/abs/2312.05247v1 )

ライセンス: Link先を確認
Hanfeng Wu, Xingxing Zuo, Stefan Leutenegger, Or Litany, Konrad Schindler, Shengyu Huang(参考訳) dynflは,動的運転シーンにおけるライダースキャンの高忠実度再シミュレーションのための,新しいニューラルフィールドに基づくアプローチである。 DyNFLは、移動物体の境界ボックスを伴う動的環境からのLiDAR測定を処理し、編集可能なニューラルネットワークを構築する。 このフィールドは、個別に再構成された静的背景と動的オブジェクトで構成されており、ユーザーは視点を変更し、オブジェクトの位置を調整し、再シミュレーションされたシーンでオブジェクトをシームレスに追加または削除することができる。 この手法の重要なイノベーションは、様々なシーンから再構成された神経資産をレイドロップテストを通じて効果的に統合し、閉塞や透明な表面を考慮できるニューラルフィールド合成技術である。 合成環境と実環境環境の両方で評価したところ, \ShortNameはLiDARスキャンに基づく動的シーンシミュレーションを大幅に改善し, 物理的忠実度とフレキシブルな編集機能の組み合わせを提供することがわかった。

We introduce DyNFL, a novel neural field-based approach for high-fidelity re-simulation of LiDAR scans in dynamic driving scenes. DyNFL processes LiDAR measurements from dynamic environments, accompanied by bounding boxes of moving objects, to construct an editable neural field. This field, comprising separately reconstructed static backgrounds and dynamic objects, allows users to modify viewpoints, adjust object positions, and seamlessly add or remove objects in the re-simulated scene. A key innovation of our method is the neural field composition technique, which effectively integrates reconstructed neural assets from various scenes through a ray drop test, accounting for occlusions and transparent surfaces. Our evaluation with both synthetic and real-world environments demonstrates that \ShortName substantial improves dynamic scene simulation based on LiDAR scans, offering a combination of physical fidelity and flexible editing capabilities.
翻訳日:2023-12-11 14:15:05 公開日:2023-12-08
# ダイヤモンドのスズ空調色中心における光量子ビットのスーパーとサブピコ秒コヒーレント制御

SUPER and subpicosecond coherent control of an optical qubit in a tin-vacancy color center in diamond ( http://arxiv.org/abs/2312.05246v1 )

ライセンス: Link先を確認
Cem G\"uney Torun, Mustafa G\"ok\c{c}e, Thomas K. Bracht, Mariano Isaza Monsalve, Sarah Benbouabdellah, \"Ozg\"un Ozan Nacitarhan, Marco E. Stucki, Matthew L. Markham, Gregor Pieplow, Tommaso Pregnolato, Joseph H. D. Munns, Doris E. Reiter, and Tim Schr\"oder(参考訳) 光活性スピン系のコヒーレント励起は、スピン-光子界面の工学における重要な要素の1つである。 本研究では,非共振超短光パルスを用いた新しいスーパースキームを用いて,ダイヤモンド中のスズ空白色中心の光遷移をコヒーレントに制御し,量子メモリと単一光子源の両方として使用できる有望なエミッタとした。 さらに,ダイヤモンドカラーセンタに適用した記録短い量子ゲートを実現するために,共振パルスを用いたサブピコ秒制御方式を実装した。 採用された超高速量子ゲートは、固体色中心による新しい量子情報処理体制を開き、最終的に、決定論的に合成されたコヒーレント光子から励起レーザーの光学量子ビットと効率的なスペクトルフィルタリングによるマルチゲート操作を可能にする。

The coherent excitation of an optically active spin system is one of the key elements in the engineering of a spin-photon interface. In this work, we use the novel SUPER scheme, employing nonresonant ultrashort optical pulses, to coherently control the main optical transition of a tin-vacancy color center in diamond, a promising emitter that can both be utilized as a quantum memory and a single-photon source. Furthermore, we implement a subpicosecond control scheme using resonant pulses for achieving record short quantum gates applied to diamond color centers. The employed ultrafast quantum gates open up a new regime of quantum information processing with solid-state color centers, eventually enabling multi-gate operations with the optical qubit and efficient spectral filtering of the excitation laser from deterministically prepared coherent photons.
翻訳日:2023-12-11 14:14:47 公開日:2023-12-08
# 高等教育評価におけるコントラジェネレーティブAI検出

Contra generative AI detection in higher education assessments ( http://arxiv.org/abs/2312.05241v1 )

ライセンス: Link先を確認
Cesare G. Ardito(参考訳) 本稿では,高等教育評価における生成人工知能(AI)検出ツールの批判的分析について述べる。 特に教育における生成aiの急速な発展と普及は、伝統的な学術的整合性メカニズムの再評価を必要としている。 学術的整合性を維持するという文脈で,ai検出ツールの有効性,脆弱性,倫理的意義について検討する。 本研究は,AI検出に関わる実践的,哲学的な課題を精査するために,様々な事例研究,新聞記事,学生証言から洞察を合成する。 我々は、検出メカニズムへの依存は、AIがますます幅広い役割を果たす教育現場と不一致であると主張している。 本稿では,AI活用を取り入れたロバストな評価手法と教育方針への戦略的転換を提唱し,学術的完全性と評価の信頼性を確保した。

This paper presents a critical analysis of generative Artificial Intelligence (AI) detection tools in higher education assessments. The rapid advancement and widespread adoption of generative AI, particularly in education, necessitates a reevaluation of traditional academic integrity mechanisms. We explore the effectiveness, vulnerabilities, and ethical implications of AI detection tools in the context of preserving academic integrity. Our study synthesises insights from various case studies, newspaper articles, and student testimonies to scrutinise the practical and philosophical challenges associated with AI detection. We argue that the reliance on detection mechanisms is misaligned with the educational landscape, where AI plays an increasingly widespread role. This paper advocates for a strategic shift towards robust assessment methods and educational policies that embrace generative AI usage while ensuring academic integrity and authenticity in assessments.
翻訳日:2023-12-11 14:14:28 公開日:2023-12-08
# SwiftBrush: 変量スコア蒸留を用いたワンステップテキスト・画像拡散モデル

SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation ( http://arxiv.org/abs/2312.05239v1 )

ライセンス: Link先を確認
Thuan Hoang Nguyen, Anh Tran(参考訳) テキストプロンプトから高解像度で多様な画像を生成できるにもかかわらず、テキスト間拡散モデルは、しばしば遅い反復サンプリングプロセスに悩まされる。 モデル蒸留はこれらのモデルを加速する最も効果的な方法の1つである。 しかし, 従来の蒸留法では, 実データから, あるいは教師モデルで合成的に生成した画像にかなりの量の画像を必要とするため, 生成品質を保たない。 この制限に対応するために、$\textbf{SwiftBrush}$という新しい画像のない蒸留スキームを示す。 入力プロンプトと整合する3dニューラルラジアンスフィールドを、特別な損失を伴わずに2dのテキストから画像への拡散から得ることができるテキストから3d合成へのインスピレーションを引き出す手法は、事前訓練された複数ステップのテキストから画像へのモデルを1つの推論ステップで高精細な画像を生成することができる学生ネットワークに蒸留するために同じ損失を再利用する。 その単純さにもかかわらず、我々のモデルは、トレーニング画像データに頼らずに安定拡散に匹敵する画質の画像を生成できる最初のワンステップのテキスト・ツー・イメージ・ジェネレータの1つである。 注目すべきは、SwiftBrushがFIDスコアの$\textbf{16.67}$とCLIPスコアの$\textbf{0.29}$をCOCO-30Kベンチマークで達成し、競争的な結果を達成するか、あるいは既存の最先端蒸留技術よりもはるかに上回っていることだ。

Despite their ability to generate high-resolution and diverse images from text prompts, text-to-image diffusion models often suffer from slow iterative sampling processes. Model distillation is one of the most effective directions to accelerate these models. However, previous distillation methods fail to retain the generation quality while requiring a significant amount of images for training, either from real data or synthetically generated by the teacher model. In response to this limitation, we present a novel image-free distillation scheme named $\textbf{SwiftBrush}$. Drawing inspiration from text-to-3D synthesis, in which a 3D neural radiance field that aligns with the input prompt can be obtained from a 2D text-to-image diffusion prior via a specialized loss without the use of any 3D data ground-truth, our approach re-purposes that same loss for distilling a pretrained multi-step text-to-image model to a student network that can generate high-fidelity images with just a single inference step. In spite of its simplicity, our model stands as one of the first one-step text-to-image generators that can produce images of comparable quality to Stable Diffusion without reliance on any training image data. Remarkably, SwiftBrush achieves an FID score of $\textbf{16.67}$ and a CLIP score of $\textbf{0.29}$ on the COCO-30K benchmark, achieving competitive results or even substantially surpassing existing state-of-the-art distillation techniques.
翻訳日:2023-12-11 14:14:17 公開日:2023-12-08
# 大学政策・資源・ガイドラインからみたチャットGPT

Seeing ChatGPT Through Universities' Policies, Resources and Guidelines ( http://arxiv.org/abs/2312.05235v1 )

ライセンス: Link先を確認
Hui Wang, Anh Dang, Zihao Wu, Son Mac(参考訳) ChatGPTのような人工知能(AI)技術の進歩は近年人気を集めている。 教育的文脈におけるChatGPTの統合は、様々な応用のために既にアトラクションを生み出している。 しかし、人文的テキストの自動生成は、特に筆記集約言語コースに直面する場合、学術的完全性に潜在的なリスクをもたらす。 本研究は,現在進行中の議論を踏まえ,米国の大学が教育・学習におけるchatgptの利用に関する学術的方針とガイドラインを検討することを目的としている。 米国ニュースによると、データソースには、学術政策、声明、ガイドライン、および米国の上位50の大学が提供した関連するリソースが含まれる。 分析には主題分析と質的分析が採用され、トップ50大学のほとんどがオープンだが、教育と学習における生成aiの統合に慎重であり、倫理的利用、正確性、データプライバシに関する懸念も示していた。 多くの大学は、シラバステンプレートやサンプル、ワークショップや議論、共有記事、一対一のコンサルティングなど、様々なリソースやガイドラインを提供しており、一般的な技術導入、倫理的懸念、教育的応用、予防戦略、データのプライバシー、制限、探偵ツールに焦点を当てている。 この結果は、大学レベルの教育におけるChatGPTの統合に関する今後の政策決定と、ChatGPTの教育への適切な適用のための大学による支援資源の供給に影響を与えるものである。

The advancements in Artificial Intelligence (AI) technologies such as ChatGPT have gained popularity in recent days. The integration of ChatGPT in educational contexts has already created attractions due to a wide range of applications. However, the automatic generation of human-like texts also poses potential risks to academic integrity, especially when faced with writing-intensive language courses. Considering the ongoing debates, this study aims to investigate the academic policies and guidelines established by US universities regarding the use of ChatGPT in teaching and learning. The data sources include academic policies, statements, guidelines as well as relevant resources that were provided by the top 50 universities in the United States, according to U.S. News. Thematic analysis and qualitative analysis were employed in the analysis and showed that most top 50 universities were open but cautious towards the integration of generative AI in teaching and learning and also expressed their concerns on ethical usage, accuracy, and data privacy. Most universities also provided a variety of resources and guidelines, including syllabus templates/samples, workshops and discussions, shared articles, and one-on-one consultations, with focuses on general technical introduction, ethical concerns, pedagogical applications, preventive strategies, data privacy, limitations, and detective tools. The findings will inform future policy-making regarding the integration of ChatGPT in college-level education and influence the provision of supportive resources by universities for the appropriate application of ChatGPT in education.
翻訳日:2023-12-11 14:13:42 公開日:2023-12-08
# 揚力モデリングにおけるヘテロスケダスト性の影響

The impact of heteroskedasticity on uplift modeling ( http://arxiv.org/abs/2312.05234v1 )

ライセンス: Link先を確認
Bj\"orn Bokelmann and Stefan Lessmann(参考訳) さまざまなアプリケーションがあり、企業はどの個人に治療を割り当てるべきかを判断する必要がある。 このような意思決定を支援するために、個々のレベルの治療効果を予測するために昇降モデルを適用する。 予測された治療効果に基づいて、個人をランク付けし、このランキングに従って治療割り当てを優先することができる。 以前のアップリフトモデリング文献では疑わしくなかった暗黙の仮定は、この治療優先化アプローチは、上位に高い治療効果を持つ個人、下位に低い治療効果を持つ個人をもたらす傾向にあるということである。 本研究は,トレーニングデータのヘテロセクタスティック性が上昇モデルランキングのバイアスを生じさせる可能性があることを示し,最も治療効果の高い個人はランキングの下部に大量に蓄積できることを示した。 ヘテロスケダスティック性は, 昇降モデルのランク付けに偏りがあり, シミュレーションや実世界のデータにこの過程を示すことができる。 ヘテロスパイク性によるランキングバイアスの問題は多くの実世界のアプリケーションで発生しうるし、効率的な治療割り当てを達成するためには治療優先順位の変更が必要であると論じている。

There are various applications, where companies need to decide to which individuals they should best allocate treatment. To support such decisions, uplift models are applied to predict treatment effects on an individual level. Based on the predicted treatment effects, individuals can be ranked and treatment allocation can be prioritized according to this ranking. An implicit assumption, which has not been doubted in the previous uplift modeling literature, is that this treatment prioritization approach tends to bring individuals with high treatment effects to the top and individuals with low treatment effects to the bottom of the ranking. In our research, we show that heteroskedastictity in the training data can cause a bias of the uplift model ranking: individuals with the highest treatment effects can get accumulated in large numbers at the bottom of the ranking. We explain theoretically how heteroskedasticity can bias the ranking of uplift models and show this process in a simulation and on real-world data. We argue that this problem of ranking bias due to heteroskedasticity might occur in many real-world applications and requires modification of the treatment prioritization to achieve an efficient treatment allocation.
翻訳日:2023-12-11 14:13:15 公開日:2023-12-08
# 強化学習におけるモデリングリスク:文献マッピング

Modeling Risk in Reinforcement Learning: A Literature Mapping ( http://arxiv.org/abs/2312.05231v1 )

ライセンス: Link先を確認
Leonardo Villalobos-Arias, Derek Martin, Abhijeet Krishnan, Madeleine Gagn\'e, Colin M. Potts, Arnav Jhala(参考訳) 安全強化学習は、強化学習(RL)エージェントによる安全でない状況を緩和または回避する。 安全なRLアプローチは、特定の問題やドメインに対する特定のリスク表現に基づいている。 エージェントの動作を分析し、安全なRLアプローチを比較し、アプリケーションドメイン間で効果的に転送するには、安全なRL問題に特有のリスクの種類を理解する必要がある。 安全RLのリスクを特徴付けるために,系統的な文献マッピングを行った。 得られた結果に基づいて,複数のアプリケーションドメインに保持するリスクの定義,特徴,タイプを示す。 RLアプローチがリスク表現と管理を重視するさまざまな知識領域(AI,金融,工学,医学)から,過去5年間(2017-2022年)の文献を網羅する。 私たちのマッピングは、このトピックに関する数千以上の論文から体系的にフィルタリングされた72の論文をカバーしています。 提案するリスク概念は,様々な表現,学際的差異,共通の訓練演習,技術の種類をカバーする。 我々は、このマッピングを出発点として、将来の安全なRL研究レポートに明示的で詳細なリスク説明を含めることを推奨する。 この情報により、研究者や実践者は、異なる問題におけるテクニックの有効性について、より強力な結論を導き出すことができる。

Safe reinforcement learning deals with mitigating or avoiding unsafe situations by reinforcement learning (RL) agents. Safe RL approaches are based on specific risk representations for particular problems or domains. In order to analyze agent behaviors, compare safe RL approaches, and effectively transfer techniques between application domains, it is necessary to understand the types of risk specific to safe RL problems. We performed a systematic literature mapping with the objective to characterize risk in safe RL. Based on the obtained results, we present definitions, characteristics, and types of risk that hold on multiple application domains. Our literature mapping covers literature from the last 5 years (2017-2022), from a variety of knowledge areas (AI, finance, engineering, medicine) where RL approaches emphasize risk representation and management. Our mapping covers 72 papers filtered systematically from over thousands of papers on the topic. Our proposed notion of risk covers a variety of representations, disciplinary differences, common training exercises, and types of techniques. We encourage researchers to include explicit and detailed accounts of risk in future safe RL research reports, using this mapping as a starting point. With this information, researchers and practitioners could draw stronger conclusions on the effectiveness of techniques on different problems.
翻訳日:2023-12-11 14:12:53 公開日:2023-12-08
# 言語モデル、エージェントモデル、世界モデル:機械推論と計画のためのLAW

Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning ( http://arxiv.org/abs/2312.05230v1 )

ライセンス: Link先を確認
Zhiting Hu, Tianmin Shu(参考訳) 多くのアプリケーションで非常に成功したにもかかわらず、大きな言語モデルは、推論、学習、モデリング能力に固有の制限があるため、様々な(言語、具体的、社会的)シナリオにおける一貫した推論と計画に欠けることが多い。 本稿では,言語モデル,エージェントモデル,ワールドモデルといった概念を結合し,より堅牢で汎用的な推論機能を実現するマシン推論の新しい視点であるLAWについて述べる。 特に、世界とエージェントモデルが推論のより優れた抽象化であり、世界や他のエージェントに対する信念、結果の予測、目標/目標、戦略的計画など、人間のような推論を熟慮する重要な要素を導入することを提案している。 重要なことに、LAWの言語モデルはシステムやその要素を実装するバックエンドとして機能し、計算能力と適応性を提供する。 本稿では,LAWフレームワークの運用に向けた今後の研究の方向性について考察する。

Despite their tremendous success in many applications, large language models often fall short of consistent reasoning and planning in various (language, embodied, and social) scenarios, due to inherent limitations in their inference, learning, and modeling capabilities. In this position paper, we present a new perspective of machine reasoning, LAW, that connects the concepts of Language models, Agent models, and World models, for more robust and versatile reasoning capabilities. In particular, we propose that world and agent models are a better abstraction of reasoning, that introduces the crucial elements of deliberate human-like reasoning, including beliefs about the world and other agents, anticipation of consequences, goals/rewards, and strategic planning. Crucially, language models in LAW serve as a backend to implement the system or its elements and hence provide the computational power and adaptability. We review the recent studies that have made relevant progress and discuss future research directions towards operationalizing the LAW framework.
翻訳日:2023-12-11 14:12:34 公開日:2023-12-08
# 学習自由なプロトタイプ校正によるクラスインクリメンタルラーニング

Few-Shot Class-Incremental Learning via Training-Free Prototype Calibration ( http://arxiv.org/abs/2312.05229v1 )

ライセンス: Link先を確認
Qi-Wei Wang, Da-Wei Zhou, Yi-Kai Zhang, De-Chuan Zhan, Han-Jia Ye(参考訳) 現実のシナリオは通常、ラベル付きサンプルで連続的に現れるクラスを伴い、機械学習モデルでは、新しいクラスを漸進的に学習し、ベースクラスの知識を維持する必要がある。 この少数ショットのclass-incremental learning (fscil)のシナリオでは、既存のメソッドは追加の学習可能なコンポーネントを導入するか、機能抽出器を凍結して、破滅的な放棄とオーバーフィットの問題を緩和している。 しかし、既存のメソッドが新しいクラスのサンプルをベースクラスに誤分類する傾向が見られ、それによって新しいクラスのパフォーマンスが低下する。 言い換えれば、基底クラスの強い識別性は、新しいクラスの分類を妨げている。 この興味深い現象を解明するために、特徴抽出器はベースクラスでのみ訓練されているが、ベースクラスと目に見えない新しいクラス間のセマンティックな類似性を驚くほど表すことができることを観察する。 これらの分析に基づいて,新しいプロトタイプ(すなわち,クラスの平均特徴)と重み付きベースプロトタイプを融合することにより,新しいクラスの識別性を高めるための,単純かつ効果的なトレーニングフリーキャリブレーション(ティーン)戦略を提案する。 FSCILの標準ベンチマークに加えて、TEENは、数ショットの学習シナリオにおけるベースラインメソッドよりも優れたパフォーマンスと一貫した改善を示している。 コードは、https://github.com/wangkiw/TEENで入手できる。

Real-world scenarios are usually accompanied by continuously appearing classes with scare labeled samples, which require the machine learning model to incrementally learn new classes and maintain the knowledge of base classes. In this Few-Shot Class-Incremental Learning (FSCIL) scenario, existing methods either introduce extra learnable components or rely on a frozen feature extractor to mitigate catastrophic forgetting and overfitting problems. However, we find a tendency for existing methods to misclassify the samples of new classes into base classes, which leads to the poor performance of new classes. In other words, the strong discriminability of base classes distracts the classification of new classes. To figure out this intriguing phenomenon, we observe that although the feature extractor is only trained on base classes, it can surprisingly represent the semantic similarity between the base and unseen new classes. Building upon these analyses, we propose a simple yet effective Training-frEE calibratioN (TEEN) strategy to enhance the discriminability of new classes by fusing the new prototypes (i.e., mean features of a class) with weighted base prototypes. In addition to standard benchmarks in FSCIL, TEEN demonstrates remarkable performance and consistent improvements over baseline methods in the few-shot learning scenario. Code is available at: https://github.com/wangkiw/TEEN
翻訳日:2023-12-11 14:12:18 公開日:2023-12-08
# 神経スペクトル法:スペクトル領域における自己教師あり学習

Neural Spectral Methods: Self-supervised learning in the spectral domain ( http://arxiv.org/abs/2312.05225v1 )

ライセンス: Link先を確認
Yiheng Du, Nithin Chalapathi, Aditi Krishnapriyan(参考訳) 本稿では,古典スペクトル法に基づくパラメトリック偏微分方程式(PDE)の解法であるニューラルスペクトル法を提案する。 本手法は直交基底を用いてスペクトル係数間の写像としてPDE解を学習する。 時空間領域の残差の数値的2乗を最小化することでPDE制約を強制する現在の機械学習アプローチとは対照的に,Parsevalのアイデンティティを活用し,‘textit{spectral loss} を通じて新たなトレーニング戦略を導入する。 私たちのスペクトル損失は、ニューラルネットワークによるより効率的な分化を可能にし、トレーニングの複雑さを大幅に削減します。 推定時には, 領域の時空間分解能によらず, 計算コストは一定のままである。 実験の結果,提案手法は,複数の異なる問題に対して1~2桁の精度で,従来の機械学習手法よりも大幅に優れていた。 同じ精度の数値解法と比較して、本手法は性能速度が10倍に向上することを示す。

We present Neural Spectral Methods, a technique to solve parametric Partial Differential Equations (PDEs), grounded in classical spectral methods. Our method uses orthogonal bases to learn PDE solutions as mappings between spectral coefficients. In contrast to current machine learning approaches which enforce PDE constraints by minimizing the numerical quadrature of the residuals in the spatiotemporal domain, we leverage Parseval's identity and introduce a new training strategy through a \textit{spectral loss}. Our spectral loss enables more efficient differentiation through the neural network, and substantially reduces training complexity. At inference time, the computational cost of our method remains constant, regardless of the spatiotemporal resolution of the domain. Our experimental results demonstrate that our method significantly outperforms previous machine learning approaches in terms of speed and accuracy by one to two orders of magnitude on multiple different problems. When compared to numerical solvers of the same accuracy, our method demonstrates a $10\times$ increase in performance speed.
翻訳日:2023-12-11 14:11:53 公開日:2023-12-08
# コードの連鎖:言語モデル拡張コードエミュレータによる推論

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator ( http://arxiv.org/abs/2312.04474v2 )

ライセンス: Link先を確認
Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter(参考訳) Codeは、複雑なプログラムを構築し、コードインタプリタとペアになったときに正確な計算を行うための一般的な構文構造を提供します。 LMはインタプリタで実行できる"detect_sarcasm(string)"の実装を書くのに苦労するかもしれません(エッジケースの処理は不要でしょう)。 しかし、lmsはコードを書き込むだけでなく、"detect_sarcasm(string)"やその他の実行できないコード行の期待出力を生成することでインタプリタを選択的に"エミュレート"する場合にも有効なソリューションを生成できる。 本研究では,LMコード駆動推論を改善するシンプルな,驚くほど効果的な拡張であるChain of Code (CoC)を提案する。 キーとなる考え方は、LMがプログラム内のセマンティックサブタスクをフレキシブルな擬似コードとしてフォーマットすることを奨励し、インタープリタが明示的に未定義の振る舞いをキャッチし、LMでシミュレートする("LMulator")ことである。 さまざまなベンチマークにおいて、Chain of CodeがChain of Thoughtやその他のベースラインよりも優れており、BIG-Bench Hardでは、Chain of Codeが84%、Chain of Thoughtよりも12%向上している。 CoCは、大小のモデルと同様の規模でスケールし、LMが「コードを考える」ことで正しく答えられるような推論の問題の範囲を広げます。 プロジェクトWebページ: https://chain-of-code.github.io.com

Code provides a general syntactic structure to build complex programs and perform precise computations when paired with a code interpreter - we hypothesize that language models (LMs) can leverage code-writing to improve Chain of Thought reasoning not only for logic and arithmetic tasks, but also for semantic ones (and in particular, those that are a mix of both). For example, consider prompting an LM to write code that counts the number of times it detects sarcasm in an essay: the LM may struggle to write an implementation for "detect_sarcasm(string)" that can be executed by the interpreter (handling the edge cases would be insurmountable). However, LMs may still produce a valid solution if they not only write code, but also selectively "emulate" the interpreter by generating the expected output of "detect_sarcasm(string)" and other lines of code that cannot be executed. In this work, we propose Chain of Code (CoC), a simple yet surprisingly effective extension that improves LM code-driven reasoning. The key idea is to encourage LMs to format semantic sub-tasks in a program as flexible pseudocode that the interpreter can explicitly catch undefined behaviors and hand off to simulate with an LM (as an "LMulator"). Experiments demonstrate that Chain of Code outperforms Chain of Thought and other baselines across a variety of benchmarks; on BIG-Bench Hard, Chain of Code achieves 84%, a gain of 12% over Chain of Thought. CoC scales well with large and small models alike, and broadens the scope of reasoning questions that LMs can correctly answer by "thinking in code". Project webpage: https://chain-of-code.github.io.
翻訳日:2023-12-11 12:29:36 公開日:2023-12-08
# 多次元局所微分プライバシーが公平性に及ぼす影響について

On the Impact of Multi-dimensional Local Differential Privacy on Fairness ( http://arxiv.org/abs/2312.04404v2 )

ライセンス: Link先を確認
Karima Makhlouf, Heber H. Arcolezi, Sami Zhioua, Ghassen Ben Brahim, and Catuscia Palamidessi(参考訳) 自動意思決定システムは、人々の生活の中で連続的な決定を行うためにますます使われています。 操作されたデータの感度と結果の決定により、これらの技術、特に公平さとプライバシーを適切に利用するためには、いくつかの倫理的な懸念に対処する必要がある。 本稿では, 単一機密属性に対する集中型差分プライバシー (DP) やローカルDP (LDP) に着目した以前の研究と異なり, 複数属性 (多次元データ) が公平性に与える影響について検討する。 合成およびベンチマークデータセットの詳細な実験分析により、非常に関連する観測が明らかになった。 特に,(1)多次元 LDP は格差を低減するための効率的なアプローチであり,(2)低プライバシー保証においてのみ LDP の多次元的アプローチが重要であり,(3) 結果 Y 分布は,どの群が難易度に敏感であるかに重要な影響を与える。 最後に,MLアプリケーションの公正性と実用性を維持しつつ,効果的なプライバシ保護プラクティスの採用を実践者に対して指導する上での推奨事項として,私たちの知見を要約する。

Automated decision systems are increasingly used to make consequential decisions in people's lives. Due to the sensitivity of the manipulated data as well as the resulting decisions, several ethical concerns need to be addressed for the appropriate use of such technologies, in particular, fairness and privacy. Unlike previous work, which focused on centralized differential privacy (DP) or local DP (LDP) for a single sensitive attribute, in this paper, we examine the impact of LDP in the presence of several sensitive attributes (i.e., multi-dimensional data) on fairness. Detailed empirical analysis on synthetic and benchmark datasets revealed very relevant observations. In particular, (1) multi-dimensional LDP is an efficient approach to reduce disparity, (2) the multi-dimensional approach of LDP (independent vs. combined) matters only at low privacy guarantees, and (3) the outcome Y distribution has an important effect on which group is more sensitive to the obfuscation. Last, we summarize our findings in the form of recommendations to guide practitioners in adopting effective privacy-preserving practices while maintaining fairness and utility in ML applications.
翻訳日:2023-12-11 12:29:02 公開日:2023-12-08
# SingingHead: 頭部アニメーションのための大規模4Dデータセット

SingingHead: A Large-scale 4D Dataset for Singing Head Animation ( http://arxiv.org/abs/2312.04369v2 )

ライセンス: Link先を確認
Sijing Wu, Yunhao Li, Weitian Zhang, Jun Jia, Yucheng Zhu, Yichao Yan, Guangtao Zhai(参考訳) 歌唱は、話すことに次ぐ共通の顔の動きとして、民族や文化にまたがる普遍言語と見なされ、感情的なコミュニケーション、芸術、娯楽において重要な役割を果たしている。 しかし、歌唱ヘッドデータセットの欠如や、リズムや振幅における歌唱と話しのドメインギャップが原因で、音声による顔のアニメーションの分野では見落とされがちである。 この目的のために,76人の個人と8種類の音楽から27時間以上の同期歌唱ビデオ,3D顔の動き,歌唱音声,バックグラウンド音楽からなる,高品質な大規模歌唱ヘッドデータセットであるSingingHeadを収集した。 歌唱ヘッドデータセットとともに,3次元と2次元の表情アニメーションタスクを組み合わせることで,歌唱音声駆動3次元歌唱ヘッドアニメーションと2次元歌唱ポートレートビデオ合成の両方を実現するための統一歌唱顔アニメーションフレームワークunisingerを提案する。 SOTA 3Dの顔アニメーションと2Dのポートレートアニメーションによる大規模な比較実験は、歌唱ヘッドアニメーションタスクにおける歌唱固有のデータセットの必要性と、我々の統合された顔アニメーションフレームワークの有望な性能を示す。

Singing, as a common facial movement second only to talking, can be regarded as a universal language across ethnicities and cultures, plays an important role in emotional communication, art, and entertainment. However, it is often overlooked in the field of audio-driven facial animation due to the lack of singing head datasets and the domain gap between singing and talking in rhythm and amplitude. To this end, we collect a high-quality large-scale singing head dataset, SingingHead, which consists of more than 27 hours of synchronized singing video, 3D facial motion, singing audio, and background music from 76 individuals and 8 types of music. Along with the SingingHead dataset, we argue that 3D and 2D facial animation tasks can be solved together, and propose a unified singing facial animation framework named UniSinger to achieve both singing audio-driven 3D singing head animation and 2D singing portrait video synthesis. Extensive comparative experiments with both SOTA 3D facial animation and 2D portrait animation methods demonstrate the necessity of singing-specific datasets in singing head animation tasks and the promising performance of our unified facial animation framework.
翻訳日:2023-12-11 12:28:42 公開日:2023-12-08
# beyond surface: スケールとレイヤーにまたがるラマの探索

Beyond Surface: Probing LLaMA Across Scales and Layers ( http://arxiv.org/abs/2312.04333v2 )

ライセンス: Link先を確認
Nuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li(参考訳) 本稿では,自然言語処理における著名なオープンソース基礎モデルであるllamaに着目し,大規模言語モデル(llms)の詳細な解析を行う。 LLaMAを生成出力で評価する代わりに、複数の選択タスクを設計し、推論や計算などの高次タスクにおける本質的な理解を探索する。 モデルを水平的に検討し、異なるサイズと垂直に比較し、異なる層を評価した。 1) モデルサイズを水平に拡大することは, 新たな知識や計算能力を自動的に付与することはほとんど不可能である。 その代わり、特に数学の問題解決において推論能力を高めることができ、幻覚を減少させるのに役立つが、一定の大きさの閾値を超えるだけである。(2)垂直解析において、ラマの下位層は実質的な算術的・事実的知識を欠き、論理的思考、多言語的・認識的能力を示し、上位層は計算能力と実世界の知識を多く含む。

This paper presents an in-depth analysis of Large Language Models (LLMs), focusing on LLaMA, a prominent open-source foundational model in natural language processing. Instead of assessing LLaMA through its generative output, we design multiple-choice tasks to probe its intrinsic understanding in high-order tasks such as reasoning and computation. We examine the model horizontally, comparing different sizes, and vertically, assessing different layers. We unveil several key and uncommon findings based on the designed probing tasks: (1) Horizontally, enlarging model sizes almost could not automatically impart additional knowledge or computational prowess. Instead, it can enhance reasoning abilities, especially in math problem solving, and helps reduce hallucinations, but only beyond certain size thresholds; (2) In vertical analysis, the lower layers of LLaMA lack substantial arithmetic and factual knowledge, showcasing logical thinking, multilingual and recognitive abilities, with top layers housing most computational power and real-world knowledge.
翻訳日:2023-12-11 12:27:42 公開日:2023-12-08
# 画像逆攻撃に対する大規模マルチモーダルモデルのロバスト性について

On the Robustness of Large Multimodal Models Against Image Adversarial Attacks ( http://arxiv.org/abs/2312.03777v2 )

ライセンス: Link先を確認
Xuanming Cui, Alejandro Aparcedo, Young Kyun Jang, Ser-Nam Lim(参考訳) 最近の命令チューニングの進歩は最先端の大規模マルチモーダルモデル(lmms)の開発につながった。 これらのモデルが新規であることを考えると、LMMに対する視覚的敵対攻撃の影響は十分に検討されていない。 我々は、画像分類、画像キャプション、視覚質問応答(VQA)など、様々な敵攻撃に対する様々なLMMの堅牢性について、包括的な研究を行った。 一般に、LMMは視覚的逆入力に対して堅牢ではない。 しかし,この結果から,QAペアの質問など,モデルに与えられた文脈が,視覚的対角入力の効果を軽減することが示唆された。 特に、LMMの評価では、ScienceQAタスクに対する攻撃に対して、99.73%の視覚的な攻撃に比べて、パフォーマンスがわずか8.10%低下した。 また,問合せ分解と呼ぶ実世界の画像分類への新しいアプローチを提案する。 入力プロンプトに存在クエリを組み込むことにより,攻撃効果の低下と画像分類精度の向上を観察する。 本研究は,LMMのロバスト性について未解明の側面を強調し,対向環境におけるマルチモーダルシステムのレジリエンス向上を目的とした今後の研究の舞台となる。

Recent advances in instruction tuning have led to the development of State-of-the-Art Large Multimodal Models (LMMs). Given the novelty of these models, the impact of visual adversarial attacks on LMMs has not been thoroughly examined. We conduct a comprehensive study of the robustness of various LMMs against different adversarial attacks, evaluated across tasks including image classification, image captioning, and Visual Question Answer (VQA). We find that in general LMMs are not robust to visual adversarial inputs. However, our findings suggest that context provided to the model via prompts, such as questions in a QA pair helps to mitigate the effects of visual adversarial inputs. Notably, the LMMs evaluated demonstrated remarkable resilience to such attacks on the ScienceQA task with only an 8.10% drop in performance compared to their visual counterparts which dropped 99.73%. We also propose a new approach to real-world image classification which we term query decomposition. By incorporating existence queries into our input prompt we observe diminished attack effectiveness and improvements in image classification accuracy. This research highlights a previously under-explored facet of LMM robustness and sets the stage for future work aimed at strengthening the resilience of multimodal systems in adversarial environments.
翻訳日:2023-12-11 12:27:00 公開日:2023-12-08
# 表現生成による自己条件画像生成

Self-conditioned Image Generation via Generating Representations ( http://arxiv.org/abs/2312.03701v2 )

ライセンス: Link先を確認
Tianhong Li, Dina Katabi, Kaiming He(参考訳) 本稿では,クラス無条件画像生成の新しいベンチマークを設定する簡易かつ効果的な画像生成フレームワークである,$\textbf{r}$epresentation-$\textbf{c}$onditioned image $\textbf{g}$eneration (rcg)を提案する。 RCGは人間のアノテーションを条件にしていない。 代わりに、事前訓練されたエンコーダを用いて画像分布からマップされる自己教師付き表現分布を条件とする。 生成中、RCGは、表現拡散モデル(RDM)を用いて、そのような表現分布からサンプルをサンプリングし、サンプル表現に条件付けされた画像ピクセルを作成する。 このような設計は生成過程においてかなりのガイダンスを与え、高品質な画像生成をもたらす。 ImageNet 256$\times$256でテストした結果、RCGは3.31のFrechet Inception Distance(FID)と253.4のInception Score(IS)を達成した。 これらの結果は、クラス非条件画像生成の最先端性を著しく向上するだけでなく、クラス非条件画像生成における現在の先行手法に匹敵するものであり、これらの2つのタスク間の長期的なパフォーマンスギャップを埋めるものである。 コードはhttps://github.com/lth14/rcgで入手できる。

This paper presents $\textbf{R}$epresentation-$\textbf{C}$onditioned image $\textbf{G}$eneration (RCG), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. RCG does not condition on any human annotations. Instead, it conditions on a self-supervised representation distribution which is mapped from the image distribution using a pre-trained encoder. During generation, RCG samples from such representation distribution using a representation diffusion model (RDM), and employs a pixel generator to craft image pixels conditioned on the sampled representation. Such a design provides substantial guidance during the generative process, resulting in high-quality image generation. Tested on ImageNet 256$\times$256, RCG achieves a Frechet Inception Distance (FID) of 3.31 and an Inception Score (IS) of 253.4. These results not only significantly improve the state-of-the-art of class-unconditional image generation but also rival the current leading methods in class-conditional image generation, bridging the long-standing performance gap between these two tasks. Code is available at https://github.com/LTH14/rcg.
翻訳日:2023-12-11 12:26:42 公開日:2023-12-08
# 気腫 : 大言語モデルの力を利用した気腫症の診断

PneumoLLM: Harnessing the Power of Large Language Model for Pneumoconiosis Diagnosis ( http://arxiv.org/abs/2312.03490v2 )

ライセンス: Link先を確認
Meiyue Song, Zhihua Yu, Jiaxin Wang, Jiarui Wang, Yuting Lu, Baicun Li, Xiaoxu Wang, Qinghua Huang, Zhijun Li, Nikolaos I.Kanellakis, Jiangfeng Liu, Jing Wang, Binglu Wang, Juntao Yang(参考訳) 従来のプレトレーニングとファインタニングのパラダイムは、十分なデータを持つ一般的な疾患に対して有効であるが、肺炎のようなデータスカースな職業疾患の診断における課題に直面している。 近年,大規模言語モデル (LLM) は対話における複数のタスクの実行において前例のない能力を示し,診断の機会をもたらしている。 一般的な戦略は、視覚言語によるアライメントと診断にアダプタ層を使用することである。 しかし、このアプローチでは、テキストブランチと対話ヘッドの広範な学習可能なパラメータの最適化が必要となり、特に限られたトレーニングデータではllmsの有効性が低下する可能性がある。 本研究では,テキスト分岐を除去し,対話ヘッドを分類ヘッドで置換することで革新を行う。 本手法は, 学習可能なパラメータが少ない診断において, LLMを効果的に活用する方法を提案する。 さらに, 詳細な画像情報の保持と正確な診断に向けた進捗のバランスをとるため, コンテクストマルチトケンエンジンを導入する。 このエンジンは、適応的に診断トークンを生成する。 さらに,画像トークンから診断トークンへ一方向的に情報を発信する情報エミッタモジュールを提案する。 総合実験により提案手法の優位性と提案モジュールの有効性が検証された。 私たちのコードはhttps://github.com/CodeMonsterPHD/PneumoLLM/tree/mainで確認できます。

The conventional pretraining-and-finetuning paradigm, while effective for common diseases with ample data, faces challenges in diagnosing data-scarce occupational diseases like pneumoconiosis. Recently, large language models (LLMs) have exhibits unprecedented ability when conducting multiple tasks in dialogue, bringing opportunities to diagnosis. A common strategy might involve using adapter layers for vision-language alignment and diagnosis in a dialogic manner. Yet, this approach often requires optimization of extensive learnable parameters in the text branch and the dialogue head, potentially diminishing the LLMs' efficacy, especially with limited training data. In our work, we innovate by eliminating the text branch and substituting the dialogue head with a classification head. This approach presents a more effective method for harnessing LLMs in diagnosis with fewer learnable parameters. Furthermore, to balance the retention of detailed image information with progression towards accurate diagnosis, we introduce the contextual multi-token engine. This engine is specialized in adaptively generating diagnostic tokens. Additionally, we propose the information emitter module, which unidirectionally emits information from image tokens to diagnosis tokens. Comprehensive experiments validate the superiority of our methods and the effectiveness of proposed modules. Our codes can be found at https://github.com/CodeMonsterPHD/PneumoLLM/tree/main.
翻訳日:2023-12-11 12:26:16 公開日:2023-12-08
# 透明性を伴う臨床予測に向けて:高齢者医療における生存モデル構築のための説明可能なAIアプローチ

Towards Clinical Prediction with Transparency: An Explainable AI Approach to Survival Modelling in Residential Aged Care ( http://arxiv.org/abs/2312.00271v3 )

ライセンス: Link先を確認
Teo Susnjak, Elise Griffin(参考訳) 背景: 正確な生存時間推定は、終末期の医療意思決定に役立つ。 目的:先進的機械学習を用いた高齢者介護者のための解釈可能な生存モデルの開発 オーストララシアの主要住宅介護業者である。 参加者:65歳以上の住民が2017年7月から2023年8月までの長期療養を認められた。 サンプルサイズ:40施設11,944人。 予測因子:年齢、性別、健康状態、共生性、認知機能、気分、栄養、運動性、喫煙、睡眠、肌の完全性、継続性などである。 結果:6カ月生存率を特に調整した生存後生存確率。 統計的分析: coxph, en, rr, lasso, gb, xgb, rfモデルの試験を20回行い、90/10の列車/テスト分割を行った。 c-index, harrell's c-index, dynamic auroc, ibs, calibrated rocを用いた精度評価。 パフォーマンスのためにXGBを選択し、Platetスケーリングを使用して1, 3, 6, 12ヶ月の予測をキャリブレーションした。 予測への影響を分析するためにSHAP値が使用される。 結果: GB, XGB, RFモデルは最高C-Index値(0.714, 0.712, 0.712)を示した。 最適xgbモデルは6ヶ月生存予測auroc 0.746 (95% ci 0.744-0.749) を示した。 主な死亡率予測には、年齢、男性性、移動性、健康状態、圧力潰瘍リスク、食欲などが含まれる。 結論: 本研究は, 高齢者医療の生存モデル作成に機械学習を適用し, 死亡リスク要因に関する臨床的知見と整合し, 説明可能なAIによるモデル解釈可能性と臨床的有用性を向上させる。

Background: Accurate survival time estimates aid end-of-life medical decision-making. Objectives: Develop an interpretable survival model for elderly residential aged care residents using advanced machine learning. Setting: A major Australasian residential aged care provider. Participants: Residents aged 65+ admitted for long-term care from July 2017 to August 2023. Sample size: 11,944 residents across 40 facilities. Predictors: Factors include age, gender, health status, co-morbidities, cognitive function, mood, nutrition, mobility, smoking, sleep, skin integrity, and continence. Outcome: Probability of survival post-admission, specifically calibrated for 6-month survival estimates. Statistical Analysis: Tested CoxPH, EN, RR, Lasso, GB, XGB, and RF models in 20 experiments with a 90/10 train/test split. Evaluated accuracy using C-index, Harrell's C-index, dynamic AUROC, IBS, and calibrated ROC. Chose XGB for its performance and calibrated it for 1, 3, 6, and 12-month predictions using Platt scaling. Employed SHAP values to analyze predictor impacts. Results: GB, XGB, and RF models showed the highest C-Index values (0.714, 0.712, 0.712). The optimal XGB model demonstrated a 6-month survival prediction AUROC of 0.746 (95% CI 0.744-0.749). Key mortality predictors include age, male gender, mobility, health status, pressure ulcer risk, and appetite. Conclusions: The study successfully applies machine learning to create a survival model for aged care, aligning with clinical insights on mortality risk factors and enhancing model interpretability and clinical utility through explainable AI.
翻訳日:2023-12-11 12:25:54 公開日:2023-12-08