このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231203となっている論文です。

PDF登録状況(公開日: 20231203)

TitleAuthorsAbstract論文公表日・翻訳日
# 意味論と時間における両世界の橋渡し--ドメイン知識に基づく分析と産業プロセス攻撃の相関

Bridging Both Worlds in Semantics and Time: Domain Knowledge Based Analysis and Correlation of Industrial Process Attacks ( http://arxiv.org/abs/2311.18539v2 )

ライセンス: Link先を確認
Moses Ike, Kandy Phan, Anwesh Badapanda, Matthew Landen, Keaton Sadoski, Wanda Guo, Asfahan Shah, Saman Zonouz, Wenke Lee, (参考訳) 現代の産業制御システム(ICS)は、監督管理とデータ取得(SCADA)に感染し、産業のプロセスを密かに変更し、損害を与える。 誤報の少ない攻撃を検出するために、最近の研究はSCADAとプロセスデータの両方の攻撃を検出する。 残念なことに、SCADAのセマンティクスと時間的ギャップ、すなわちSCADAの実行はプロセスのダイナミクスにマップされず、同様の時間スケールで進化しないためである。 BRIDGEは、ドメイン知識を用いてSCADAと産業プロセスの攻撃を分析し、相関付けし、それらのユニークな意味と時間の進化を橋渡しする。 これにより、悪質なSCADA操作と悪質なプロセス効果を結びつけることができ、誤報を低減し、攻撃の理解を改善することができる。 橋梁 i)SCADAプロセス制御におけるアクティベーション依存性を測定することにより、SCADAにおけるプロセス制約違反を特定し、 (II) 慣性プロセスダイナミクスの一般的な知識を組み込んだ物理インフォームドニューラルネットワークを用いて、プロセス内の悪意あるSCADA効果を検出する。 BRIDGEは、解析(iとi)の両方を動的に整列する。 二 プロセス慣性遅延に基づいて時間進化を調整するタイムウインドウ 我々はBRIDGEを11の多様な産業プロセスに適用し、過去の出来事にインスパイアされた適応攻撃を行った。 BRIDGEは98.3%の攻撃と0.8%の偽陽性(FP)を、最近の研究では78.3%の検出精度と13.7%のFPと比較した。

Modern industrial control systems (ICS) attacks infect supervisory control and data acquisition (SCADA) hosts to stealthily alter industrial processes, causing damage. To detect attacks with low false alarms, recent work detects attacks in both SCADA and process data. Unfortunately, this led to the same problem - disjointed (false) alerts, due to the semantic and time gap in SCADA and process behavior, i.e., SCADA execution does not map to process dynamics nor evolve at similar time scales. We propose BRIDGE to analyze and correlate SCADA and industrial process attacks using domain knowledge to bridge their unique semantic and time evolution. This enables operators to tie malicious SCADA operations to their adverse process effects, which reduces false alarms and improves attack understanding. BRIDGE (i) identifies process constraints violations in SCADA by measuring actuation dependencies in SCADA process-control, and (ii) detects malicious SCADA effects in processes via a physics-informed neural network that embeds generic knowledge of inertial process dynamics. BRIDGE then dynamically aligns both analysis (i and ii) in a time-window that adjusts their time evolution based on process inertial delays. We applied BRIDGE to 11 diverse real-world industrial processes, and adaptive attacks inspired by past events. BRIDGE correlated 98.3% of attacks with 0.8% false positives (FP), compared to 78.3% detection accuracy and 13.7% FP of recent work.
翻訳日:2024-03-18 13:35:06 公開日:2023-12-03
# 信頼性情報のないXORアービタPUFの切断

Breaking XOR Arbiter PUFs without Reliability Information ( http://arxiv.org/abs/2312.01256v1 )

ライセンス: Link先を確認
Niloufar Sayadi, Phuong Ha Nguyen, Marten van Dijk, Chenglu Jin, (参考訳) 信頼性の低いXOR Arbiter PUFは、基盤となるArbiter PUFを個別にターゲットとする機械学習攻撃によって壊れた。 しかし、この攻撃にはPUFからの信頼性情報が必要だった。 信頼性情報にアクセスできない完全信頼性の高いXOR Arbiter PUFを,この分割対コンカレント方式で効率的に攻撃できることを示す。 私たちの重要な洞察は、相関する課題の応答もまた、決定境界までの距離を明らかにしていることです。 これにより、XOR Arbiter PUFへの挑戦攻撃が選択される。 本攻撃の有効性はPUFシミュレーションとFPGA実装を用いて確認した。

Unreliable XOR Arbiter PUFs were broken by a machine learning attack, which targets the underlying Arbiter PUFs individually. However, reliability information from the PUF was required for this attack. We show that, for the first time, a perfectly reliable XOR Arbiter PUF, where no reliability information is accessible, can be efficiently attacked in the same divide-and-conquer manner. Our key insight is that the responses of correlated challenges also reveal their distance to the decision boundary. This leads to a chosen challenge attack on XOR Arbiter PUFs. The effectiveness of our attack is confirmed through PUF simulation and FPGA implementation.
翻訳日:2024-03-18 13:15:35 公開日:2023-12-03
# 衛星システムのセキュリティ評価

Evaluating the Security of Satellite Systems ( http://arxiv.org/abs/2312.01330v1 )

ライセンス: Link先を確認
Roy Peled, Eran Aizikovich, Edan Habler, Yuval Elovici, Asaf Shabtai, (参考訳) 衛星システムは、通信、ナビゲーション、その他のサービスでの役割が拡大するにつれて、サイバーセキュリティの脅威がますます増大している。 近年の研究では、衛星や宇宙システムをターゲットにした攻撃を調査しているが、衛星に対する脅威を包括的に分析することはなく、攻撃ライフサイクル全体にわたって敵の技術を体系的に同定した。 本稿では,LEO衛星を対象とする敵戦術,技術,手順を包括的に分類する。 まず、地上、空間、コミュニケーション、ユーザーセグメントを含む宇宙のエコシステムを分析し、そのアーキテクチャ、機能、脆弱性を強調します。 そして、敵のタイプや能力を含む脅威の風景を調査し、ジャミング、スプーフィング、サプライチェーンといった歴史的および最近の攻撃を調査した。 最後に,MITRE ATT&CKフレームワークの新たな拡張について提案する。 この分類法は、ウクライナの通信を妨害したViasat攻撃を含む、有名な事件をモデル化することで実証されている。 分類学は宇宙資産に対する新たなサイバーリスクに対する防衛開発の基礎を提供する。 提案した脅威モデルは、宇宙領域の研究を進め、高度な攻撃に対する宇宙領域のセキュリティに寄与する。

Satellite systems are facing an ever-increasing amount of cybersecurity threats as their role in communications, navigation, and other services expands. Recent papers have examined attacks targeting satellites and space systems; however, they did not comprehensively analyze the threats to satellites and systematically identify adversarial techniques across the attack lifecycle. This paper presents a comprehensive taxonomy of adversarial tactics, techniques, and procedures explicitly targeting LEO satellites. First, we analyze the space ecosystem including the ground, space, Communication, and user segments, highlighting their architectures, functions, and vulnerabilities. Then, we examine the threat landscape, including adversary types, and capabilities, and survey historical and recent attacks such as jamming, spoofing, and supply chain. Finally, we propose a novel extension of the MITRE ATT&CK framework to categorize satellite attack techniques across the adversary lifecycle from reconnaissance to impact. The taxonomy is demonstrated by modeling high-profile incidents, including the Viasat attack that disrupted Ukraine's communications. The taxonomy provides the foundation for the development of defenses against emerging cyber risks to space assets. The proposed threat model will advance research in the space domain and contribute to the security of the space domain against sophisticated attacks.
翻訳日:2024-03-18 13:15:35 公開日:2023-12-03
# ハイブリッドクラウドにおける知覚的語彙データ保護

Protecting Sensitive Tabular Data in Hybrid Clouds ( http://arxiv.org/abs/2312.01354v1 )

ライセンス: Link先を確認
Maya Anderson, Gidon Gershinsky, Eliot Salant, Salvador Garcia, (参考訳) ヘルスケアやファイナンスといった規制された業界は、データとワークロードの一部をパブリッククラウドに移行し始めている。 しかし、彼らは最も機密性の高いレコードでパブリッククラウドを信頼することを拒んでいるため、ハイブリッドクラウドアーキテクチャを活用して、それらを自身のオンプレミスに置き去りにしている。 病院の実際のユースケースにおいて,ハイブリッドクラウドを使用したビッグデータ分析のセキュリティとパフォーマンスの課題に対処する。 このユースケースでは、病院は敏感な患者データを収集し、抗生物質耐性を低下させるために分析を行いたいと考えている。 我々は,Apache Parquet Modular Encryption (PME) を用いて暗号化されたパブリッククラウドにセキュアに格納されたデータに対して大規模な解析を行うことで,秘密鍵をオンプレミスに保管しても,大幅なパフォーマンス上の損失を伴わないことを示す。 PMEは、データ暗号化とキー管理のための標準的なメカニズムであり、パブリッククラウドに特化していないため、ベンダーのロックインを防ぐのに役立つ。 また、プライバシと整合性の保証を提供し、データへの詳細なアクセス制御を可能にする。 また、キーマネジメントサービスへのコールによって生じるパフォーマンスのヒットを下げるためのPMEのイノベーションも提示します。 したがって、当社のソリューションは、ハイブリッドクラウドにおける大量の機密データを保護することができ、なおかつ、その価値ある洞察を効率的に得ることができます。

Regulated industries, such as Healthcare and Finance, are starting to move parts of their data and workloads to the public cloud. However, they are still reluctant to trust the public cloud with their most sensitive records, and hence leave them in their premises, leveraging the hybrid cloud architecture. We address the security and performance challenges of big data analytics using a hybrid cloud in a real-life use case from a hospital. In this use case, the hospital collects sensitive patient data and wants to run analytics on it in order to lower antibiotics resistance, a significant challenge in healthcare. We show that it is possible to run large-scale analytics on data that is securely stored in the public cloud encrypted using Apache Parquet Modular Encryption (PME), without significant performance losses even if the secret encryption keys are stored on-premises. PME is a standard mechanism for data encryption and key management, not specific to any public cloud, and therefore helps prevent vendor lock-in. It also provides privacy and integrity guarantees, and enables granular access control to the data. We also present an innovation in PME for lowering the performance hit incurred by calls to the Key Management Service. Our solution therefore enables protecting large amounts of sensitive data in hybrid clouds and still allows to efficiently gain valuable insights from it.
翻訳日:2024-03-18 13:15:35 公開日:2023-12-03
# 大規模言語モデルを用いた入門プログラミングのための次ステップヒント生成

Next-Step Hint Generation for Introductory Programming Using Large Language Models ( http://arxiv.org/abs/2312.10055v1 )

ライセンス: Link先を確認
Lianne Roest, Hieke Keuning, Johan Jeuring(参考訳) 大きな言語モデルは、質問に答えたり、エッセイを書いたり、プログラミングの練習を解くといったスキルを持っている。 これらのモデルは容易に利用できるため、研究者はプログラミング教育の能力とリスクを調査した。 本研究は,LLMが学生に次のステップの自動ヒントを提供することで,プログラミング教育にどう貢献できるかを考察する。 我々は、効果的な次のステップのヒントにつながるプロンプトプラクティスを調査し、これらの洞察を使ってStAP-tutorを構築します。 学生と実験を行い,専門家による評価を行うことで,教師の評価を行う。 以上の結果から, LLM生成したフィードバックメッセージの多くは, 次のステップを記述しており, 学生のコードやアプローチをパーソナライズしていることがわかった。 しかし、ヒントには誤解を招く情報が含まれ、学生が課題の終わりに近づく際に十分な詳細情報がない可能性がある。 本研究は, LLM生成フィードバックの可能性を示すものであるが, 実用化にはさらなる研究が必要である。

Large Language Models possess skills such as answering questions, writing essays or solving programming exercises. Since these models are easily accessible, researchers have investigated their capabilities and risks for programming education. This work explores how LLMs can contribute to programming education by supporting students with automated next-step hints. We investigate prompt practices that lead to effective next-step hints and use these insights to build our StAP-tutor. We evaluate this tutor by conducting an experiment with students, and performing expert assessments. Our findings show that most LLM-generated feedback messages describe one specific next step and are personalised to the student's code and approach. However, the hints may contain misleading information and lack sufficient detail when students approach the end of the assignment. This work demonstrates the potential for LLM-generated feedback, but further research is required to explore its practical implementation.
翻訳日:2024-01-15 14:14:21 公開日:2023-12-03
# ProtoEEGNet:Interictal Epileptiform Dischargesの検出のための解釈可能なアプローチ

ProtoEEGNet: An Interpretable Approach for Detecting Interictal Epileptiform Discharges ( http://arxiv.org/abs/2312.10056v1 )

ライセンス: Link先を確認
Dennis Tang, Frank Willard, Ronan Tegerdine, Luke Triplett, Jon Donnelly, Luke Moffett, Lesia Semenova, Alina Jade Barnett, Jin Jing, Cynthia Rudin, Brandon Westover(参考訳) 脳波記録(EEG)では、間質性てんかん性放電(IEDs)の存在は発作や発作様事象の重要バイオマーカーとして機能し、IEDの検出は困難であり、高度に訓練された専門家でさえ同じサンプルについて意見が一致しない。 その結果、専門家は支援のための機械学習モデルに移行した。 しかし、既存のモデルの多くはブラックボックスであり、決定に対する人間解釈可能な推論は提供していない。 高度な医療応用においては、重要な診断を行う前に、専門家がモデルの推論を検証できるように解釈可能なモデルを持つことが重要である。 本稿では,IED検出の最先端精度を実現するモデルであるProtoEEGNetを紹介し,その分類の解釈可能な正当性を提供する。 具体的には、ある脳波が別の「原型的」な脳波と類似していることは、iadを含むことが知られている。 プロトEEGNetは、透明な意思決定プロセスを維持しながら、医療専門家がIEDを効果的に検出するのに役立つ。

In electroencephalogram (EEG) recordings, the presence of interictal epileptiform discharges (IEDs) serves as a critical biomarker for seizures or seizure-like events.Detecting IEDs can be difficult; even highly trained experts disagree on the same sample. As a result, specialists have turned to machine-learning models for assistance. However, many existing models are black boxes and do not provide any human-interpretable reasoning for their decisions. In high-stakes medical applications, it is critical to have interpretable models so that experts can validate the reasoning of the model before making important diagnoses. We introduce ProtoEEGNet, a model that achieves state-of-the-art accuracy for IED detection while additionally providing an interpretable justification for its classifications. Specifically, it can reason that one EEG looks similar to another ''prototypical'' EEG that is known to contain an IED. ProtoEEGNet can therefore help medical professionals effectively detect IEDs while maintaining a transparent decision-making process.
翻訳日:2024-01-15 14:01:24 公開日:2023-12-03
# オンライン教育における目標指向知的指導システムに向けて

Towards Goal-oriented Intelligent Tutoring Systems in Online Education ( http://arxiv.org/abs/2312.10053v1 )

ライセンス: Link先を確認
Yang Deng, Zifeng Ren, An Zhang, Wenqiang Lei, Tat-Seng Chua(参考訳) インタラクティブ・インテリジェント・チュータリング・システム(ITS)は、オンライン教育における対話と問題解決を通じて効果的な学習を促進することで従来のITSを強化する。 しかし、資源最適化を計画と評価能力で優先する積極的関与は、現在のITS設計では見落とされがちである。 本研究では,目標指向知能学習システム (GITS) と呼ばれる新たな課題について検討する。これは,訓練と評価のカスタマイズシーケンスを戦略的に計画することで,学生の指定概念の習得を可能にすることを目的としている。 GITSにおける目標指向型政策学習の課題に対処するために,計画-評価-相互作用(PAI)と呼ばれるグラフに基づく新たな強化学習フレームワークを提案する。 具体的には,まず認知構造情報を活用し,次の行動計画のための状態表現学習と行動選択を改善する。 さらに,運動や概念に対する学生の反応をシミュレートするために,動的に更新された認知診断モデルを用いた。 GITSのオフライン学術研究を可能にするために、異なる分野にわたる3つのベンチマークデータセットを構築した。 実験の結果,paiの有効性と効率を実証し,課題を明らかにするため,様々な学生の広範な分析を行った。

Interactive Intelligent Tutoring Systems (ITSs) enhance traditional ITSs by promoting effective learning through interactions and problem resolution in online education. Yet, proactive engagement, prioritizing resource optimization with planning and assessment capabilities, is often overlooked in current ITS designs. In this work, we investigate a new task, named Goal-oriented Intelligent Tutoring Systems (GITS), which aims to enable the student's mastery of a designated concept by strategically planning a customized sequence of exercises and assessment. To address the problem of goal-oriented policy learning in GITS, we propose a novel graph-based reinforcement learning framework, named Planning-Assessment-Interaction (PAI). Specifically, we first leverage cognitive structure information to improve state representation learning and action selection for planning the next action, which can be either to tutor an exercise or to assess the target concept. Further, we use a dynamically updated cognitive diagnosis model to simulate student responses to exercises and concepts. Three benchmark datasets across different subjects are constructed for enabling offline academic research on GITS. Experimental results demonstrate the effectiveness and efficiency of PAI and extensive analyses of various types of students are conducted to showcase the challenges in this task.
翻訳日:2024-01-15 14:01:05 公開日:2023-12-03
# ESTformer:脳波超解像の時空間依存性を利用した変換器

ESTformer: Transformer Utilizing Spatiotemporal Dependencies for EEG Super-resolution ( http://arxiv.org/abs/2312.10052v1 )

ライセンス: Link先を確認
Dongdong Li, Zhongliang Zeng, Zhe Wang, Hai Yang(参考訳) 脳波データ(EEG)の実用化に向けて、少数の電極を備えた軽量な取得装置は、分析手法が極めて低空間分解能の脳波データしか利用できない状況に陥る。 近年,脳波超解像(SR)のための数学的補間法や畳み込みニューラルネットワークの利用に主眼を置いているが,計算コストが高く,バイアスが増大し,時空間依存性モデリングの知見がほとんどない。 そこで本稿では,Transformerに基づく時空間依存性を利用したEEG SRフレームワークであるESTformerを提案する。 ESTformerは空間的構造情報と時間的機能変化を学習できる空間的・時間的次元に位置符号化法とマルチヘッド自己認識機構を適用する。 ESTformerは固定マスク方式で、数学的補間法から乱れた場合の低解像度(LR)脳波データをアップサンプリングするためにマスクトークンを採用している。 そこで我々は,空間補間モジュール (SIM) とテンポラル再構成モジュール (TRM) を構築するために,様々なトランスフォーマーブロックを設計する。 最後に、ESTformer は SIM と TRM をカスケードして、EEG SR の時空間依存を忠実に捉え、モデル化する。 2つのEEGデータセットの大規模な実験結果から,従来の最先端手法に対するESTformerの有効性が示され,個人識別と感情認識の下流タスクにおけるLRデータに対するSRデータの優位性が検証された。 提案したESTformerは、EEG SRタスクのためのTransformerの汎用性を実証する。

Towards practical applications of Electroencephalography (EEG) data, lightweight acquisition devices, equipped with a few electrodes, result in a predicament where analysis methods can only leverage EEG data with extremely low spatial resolution. Recent methods mainly focus on using mathematical interpolation methods and Convolutional Neural Networks for EEG super-resolution (SR), but they suffer from high computation costs, extra bias, and few insights in spatiotemporal dependency modeling. To this end, we propose the ESTformer, an EEG SR framework utilizing spatiotemporal dependencies based on the Transformer. The ESTformer applies positional encoding methods and the Multi-head Self-attention mechanism to the space and time dimensions, which can learn spatial structural information and temporal functional variation. The ESTformer, with the fixed masking strategy, adopts a mask token to up-sample the low-resolution (LR) EEG data in case of disturbance from mathematical interpolation methods. On this basis, we design various Transformer blocks to construct the Spatial Interpolation Module (SIM) and the Temporal Reconstruction Module (TRM). Finally, the ESTformer cascades the SIM and the TRM to capture and model spatiotemporal dependencies for EEG SR with fidelity. Extensive experimental results on two EEG datasets show the effectiveness of the ESTformer against previous state-of-the-art methods and verify the superiority of the SR data to the LR data in EEG-based downstream tasks of person identification and emotion recognition. The proposed ESTformer demonstrates the versatility of the Transformer for EEG SR tasks.
翻訳日:2024-01-15 14:00:44 公開日:2023-12-03
# PerCNet: 結晶グラフのための周期的完全表現

PerCNet: Periodic Complete Representation for Crystal Graphs ( http://arxiv.org/abs/2312.14936v1 )

ライセンス: Link先を確認
Jiao Huang, Qianli Xing, Jinglong Ji, Bo Yang(参考訳) 結晶材料表現は結晶材料研究の基礎である。 既存の研究は、結晶分子を異なる表現法を持つグラフデータとみなし、グラフ学習の技法の利点を生かしている。 合理的な結晶表現法は、局所的および大域的な情報を捉えるべきである。 しかし、既存の方法では、原子の1階隣人の結合距離と結合角をモデル化することで結晶分子の局所的な情報のみを考慮し、異なる結晶が同じ表現を持つという問題に繋がる。 この多対一の問題を解決するために, 2面角を更に考慮し, 結晶材料と一対一の表現を確実にするグローバル情報を考える。 まず,無限拡張結晶材料に対する周期的完全表現と計算アルゴリズムを提案する。 周期的完全性を満たす表現の理論的証明が提供される。 提案する表現に基づいて,特別に設計されたメッセージパッシング機構を用いて結晶材料特性を予測するネットワークpercnetを提案する。 2つの実世界の物質ベンチマークデータセットで大規模な実験を行う。 PerCNetは、MAEの点で、ベースラインメソッドの中で最高のパフォーマンスを達成する。 さらに,結晶表現学習における周期的スキームの重要性と完全性を示した。

Crystal material representation is the foundation of crystal material research. Existing works consider crystal molecules as graph data with different representation methods and leverage the advantages of techniques in graph learning. A reasonable crystal representation method should capture the local and global information. However, existing methods only consider the local information of crystal molecules by modeling the bond distance and bond angle of first-order neighbors of atoms, which leads to the issue that different crystals will have the same representation. To solve this many-to-one issue, we consider the global information by further considering dihedral angles, which can guarantee that the proposed representation corresponds one-to-one with the crystal material. We first propose a periodic complete representation and calculation algorithm for infinite extended crystal materials. A theoretical proof for the representation that satisfies the periodic completeness is provided. Based on the proposed representation, we then propose a network for predicting crystal material properties, PerCNet, with a specially designed message passing mechanism. Extensive experiments are conducted on two real-world material benchmark datasets. The PerCNet achieves the best performance among baseline methods in terms of MAE. In addition, our results demonstrate the importance of the periodic scheme and completeness for crystal representation learning.
翻訳日:2024-01-15 13:16:47 公開日:2023-12-03
# 超伝導量子情報処理のための量子量測定の確率モデル

Stochastic Model of Qudit Measurement for Superconducting Quantum Information Processing ( http://arxiv.org/abs/2312.03754v1 )

ライセンス: Link先を確認
Kangdi Yu(参考訳) ジョセフソン接合に基づく超伝導量子コンピューティングの分野は、最近、論理量子ビットの数のスケーリングにおいて顕著な進歩を見せている。 特に、1ビットと2ビットのゲートの忠実度は、新しい誤差緩和法と補正法で破断点に近い。 これらの進歩と並行して、ヒルベルト空間を1つの装置内で拡張するために高次元の量子ビット(qudits)を用いる。 トランスモンで高次遷移を駆動したり、革新的なマルチモード超伝導回路を設計する可能性を実証した。 これらの進歩は、大規模量子プロセッサにおける相互接続を簡素化しながら、計算基盤を大幅に拡張することができる。 この論文は超伝導キューディットの詳細な紹介を提供し、リンドブラッドマスター方程式と確率マスター方程式(SME)を用いて2段階以上の人工原子におけるデコヒーレンスを包括的に解析する。 従来の超伝導量子ビットの設計、制御、読み出しの理論をキューディットに拡張した後、理論は二次検出を用いたオープン量子系におけるトランモン量子ビットの分散測定をモデル化することに焦点を当てた。 マルコフの仮定の下では、異なる抽象レベルを持つマスター方程式を提案し、解くとともに、デコヒーレンス解析のアンサンブル平均法と量子ジャンプ法の両方を解析的および数値的に比較した。 この論文はトランスモン型クトリットに関する一連の実験結果で終わり、確率モデルの有効性を検証する。

The field of superconducting quantum computing, based on Josephson junctions, has recently seen remarkable strides in scaling the number of logical qubits. In particular, the fidelities of one- and two-qubit gates are close to the breakeven point with the novel error mitigation and correction methods. Parallel to these advances is the effort to expand the Hilbert space within a single device by employing high-dimensional qubits, otherwise known as qudits. Research has demonstrated the possibility of driving higher-order transitions in a transmon or designing innovative multimode superconducting circuits, termed multimons. These advances can significantly expand the computational basis while simplifying the interconnects in a large-scale quantum processor. This thesis provides a detailed introduction to the superconducting qudit and demonstrates a comprehensive analysis of decoherence in an artificial atom with more than two levels using Lindblad master equations and stochastic master equations (SMEs). After extending the theory of the design, control, and readout of a conventional superconducting qubit to that of a qudit, the thesis focuses on modeling the dispersive measurement of a transmon qutrit in an open quantum system using quadrature detections. Under the Markov assumption, master equations with different levels of abstraction are proposed and solved; in addition, both the ensemble-averaged and the quantum-jump approach of decoherence analysis are presented and compared analytically and numerically. The thesis ends with a series of experimental results on a transmon-type qutrit, verifying the validity of the stochastic model.
翻訳日:2023-12-08 17:49:59 公開日:2023-12-03
# 文脈内分類課題におけるデータ依存と突然学習の力学的基礎

The mechanistic basis of data dependence and abrupt learning in an in-context classification task ( http://arxiv.org/abs/2312.03002v1 )

ライセンス: Link先を確認
Gautam Reddy(参考訳) トランスフォーマーモデルは、入力シーケンスのイラストレーション例に基づいて、新しいクエリに対する応答を正確に予測する能力である。 インコンテキスト学習は、クエリー出力関係の伝統的なインウェイト学習とは対照的である。 トレーニングデータ配布とアーキテクチャのどの側面がコンテキスト内と重み内学習に有利か? 近年の研究では、バースト性、大きな辞書、歪んだランク周波数分布などの言語固有の分布特性が、これらの2種類の学習のトレードオフや同時出現を制御することが示されている。 まず,これらの結果は,簡易データセット上でトレーニングされた最小限の注意のみのネットワークで再認識されることを示す。 インコンテキスト学習(icl)は、インウェイト学習と競合する誘導ヘッドの突然の出現によって駆動される。 文脈内学習と対象実験に先行する進捗度を同定することにより,注意に基づくネットワークで表示された全データ分布依存性をエミュレートする誘導ヘッドの2パラメータモデルを構築する。 誘導頭部形成の現象論的モデルによって、その突然の出現は、本質的カリキュラムによって実現される3つのネストロジットの逐次学習に遡る。 注意に基づくネットワークの急激な遷移は、トレーニング中に連続的に学習されたネスト非線形性によって実装されるICLを実現するために必要な多層演算の特定の連鎖によって生じる。

Transformer models exhibit in-context learning: the ability to accurately predict the response to a novel query based on illustrative examples in the input sequence. In-context learning contrasts with traditional in-weights learning of query-output relationships. What aspects of the training data distribution and architecture favor in-context vs in-weights learning? Recent work has shown that specific distributional properties inherent in language, such as burstiness, large dictionaries and skewed rank-frequency distributions, control the trade-off or simultaneous appearance of these two forms of learning. We first show that these results are recapitulated in a minimal attention-only network trained on a simplified dataset. In-context learning (ICL) is driven by the abrupt emergence of an induction head, which subsequently competes with in-weights learning. By identifying progress measures that precede in-context learning and targeted experiments, we construct a two-parameter model of an induction head which emulates the full data distributional dependencies displayed by the attention-based network. A phenomenological model of induction head formation traces its abrupt emergence to the sequential learning of three nested logits enabled by an intrinsic curriculum. We propose that the sharp transitions in attention-based networks arise due to a specific chain of multi-layer operations necessary to achieve ICL, which is implemented by nested nonlinearities sequentially learned during training.
翻訳日:2023-12-07 17:37:48 公開日:2023-12-03
# 神経外科手術室における機器識別による手術効率向上のためのコンピュータビジョン : 概念実証研究

Computer Vision for Increased Operative Efficiency via Identification of Instruments in the Neurosurgical Operating Room: A Proof-of-Concept Study ( http://arxiv.org/abs/2312.03001v1 )

ライセンス: Link先を確認
Tanner J. Zachem (1,2), Sully F. Chen (1), Vishal Venkatraman (1), David AW Sykes (1), Ravi Prakash (2), Samantha Spellicy (1), Alexander D Suarez (1), Weston Ross (1), Patrick J. Codd (1,2) ((1) Department of Neurosurgery, Duke University School of Medicine, Durham, NC, USA, (2) Department of Mechanical Engineering and Materials Science, Duke University, Durham, NC, USA)(参考訳) Objectives Computer Vision(CV)は、機械が画像やビデオの解釈と理解を可能にする人工知能の分野である。 CVは手術器具を追跡するために手術室(OR)で補助を受ける可能性がある。 我々は,神経外科手術室の手術器具を識別するためのcvアルゴリズムを,手術器具の追跡と管理の潜在的な解決策として開発した。 方法】神経外科手術器具27台1660枚を採取した。 画像はVGG Image Annotatorを使用してラベル付けされ、5倍のクロスバリデーションを使用してU-Net Convolutional Neural Networkをトレーニングするために80%のトレーニングと20%のテストセットに分割された。 結果:U-Netでは,25種類の楽器を識別するツール識別精度が80-100%,19/25級が90%以上であった。 モデル性能は,60~80%の精度を持つadson,gerald,debakey forcepsのサブ分類には不十分であった。 結論 手術器具を正確に識別する機械学習の有用性を実証した。 器具の識別は、手術用トレイパッキングの最適化、工具使用量と廃棄物の削減、計器ミスプレースの発生率の低減、定期的な計器メンテナンスのタイミングの補助に役立つ。 神経外科手術室に現れるすべての手術器具の精度を高めるには、さらなるトレーニングデータが必要である。 このような技術は、各手術で本当に必要なツールを証明する方法として使われる可能性があり、世界中の外科医がより少ない労力でできることを証明できる。

Objectives Computer vision (CV) is a field of artificial intelligence that enables machines to interpret and understand images and videos. CV has the potential to be of assistance in the operating room (OR) to track surgical instruments. We built a CV algorithm for identifying surgical instruments in the neurosurgical operating room as a potential solution for surgical instrument tracking and management to decrease surgical waste and opening of unnecessary tools. Methods We collected 1660 images of 27 commonly used neurosurgical instruments. Images were labeled using the VGG Image Annotator and split into 80% training and 20% testing sets in order to train a U-Net Convolutional Neural Network using 5-fold cross validation. Results Our U-Net achieved a tool identification accuracy of 80-100% when distinguishing 25 classes of instruments, with 19/25 classes having accuracy over 90%. The model performance was not adequate for sub classifying Adson, Gerald, and Debakey forceps, which had accuracies of 60-80%. Conclusions We demonstrated the viability of using machine learning to accurately identify surgical instruments. Instrument identification could help optimize surgical tray packing, decrease tool usage and waste, decrease incidence of instrument misplacement events, and assist in timing of routine instrument maintenance. More training data will be needed to increase accuracy across all surgical instruments that would appear in a neurosurgical operating room. Such technology has the potential to be used as a method to be used for proving what tools are truly needed in each type of operation allowing surgeons across the world to do more with less.
翻訳日:2023-12-07 17:37:25 公開日:2023-12-03
# アクティベート顔シミュレーションのための高効率インクリメンタル電位接触

Efficient Incremental Potential Contact for Actuated Face Simulation ( http://arxiv.org/abs/2312.02999v1 )

ライセンス: Link先を確認
Bo Li, Lingchen Yang, Barbara Solenthaler(参考訳) 人間の顔アニメーションのための準静的有限要素シミュレータを提案する。 顔は運動可能な軟体体としてモデル化し, 射影力学 (pd) を用いて効率的にシミュレーションする。 自己切除にIPC(Incrmental Potential Contact)を併用した。 しかし, ipcをシミュレーションに直接統合することは, 大域ステップの剛性行列がもはや一定ではなく, 事前因子化できないため, pdソルバの高効率化を阻害する。 衝突によって影響を受ける頂点の実際の数は、モデル全体のごく一部に過ぎず、この事実を利用して、解決すべき線形システムのスケールを効果的に削減する。 提案する衝突の最適化手法により,比較的低い性能で高い視認性を実現する。

We present a quasi-static finite element simulator for human face animation. We model the face as an actuated soft body, which can be efficiently simulated using Projective Dynamics (PD). We adopt Incremental Potential Contact (IPC) to handle self-intersection. However, directly integrating IPC into the simulation would impede the high efficiency of the PD solver, since the stiffness matrix in the global step is no longer constant and cannot be pre-factorized. We notice that the actual number of vertices affected by the collision is only a small fraction of the whole model, and by utilizing this fact we effectively decrease the scale of the linear system to be solved. With the proposed optimization method for collision, we achieve high visual fidelity at a relatively low performance overhead.
翻訳日:2023-12-07 17:36:57 公開日:2023-12-03
# AIの個性

Personality of AI ( http://arxiv.org/abs/2312.02998v1 )

ライセンス: Link先を確認
Byunggu Yu and Junwhan Kim(参考訳) 本研究は,大規模言語モデル(LLM)の進化する展望を人間のユーザと整合させ,基本的アライメントを超えて,組織的設定における言語モデルの「個性アライメント」を提案する。 トレーニング手法がAIモデルにおける未定義の性格特性の形成に与える影響を認識し、この研究はパーソナリティテストを用いた人間の適合プロセスと類似している。 元のケーススタディを通じて、AIのためのパーソナリティの微調整の必要性を実証し、AIに人間設計のテストを適用すること、エンジニアリング専門のAIパーソナリティテスト、組織の役割に合ったAIパーソナリティを形成することに関する興味深い疑問を提起する。 この論文は、AIパーソナリティアライメントの急成長する分野における議論と発展の出発点となり、人間と機械のチームリングと共存における将来の探索の基盤となるアンカーを提供する。

This research paper delves into the evolving landscape of fine-tuning large language models (LLMs) to align with human users, extending beyond basic alignment to propose "personality alignment" for language models in organizational settings. Acknowledging the impact of training methods on the formation of undefined personality traits in AI models, the study draws parallels with human fitting processes using personality tests. Through an original case study, we demonstrate the necessity of personality fine-tuning for AIs and raise intriguing questions about applying human-designed tests to AIs, engineering specialized AI personality tests, and shaping AI personalities to suit organizational roles. The paper serves as a starting point for discussions and developments in the burgeoning field of AI personality alignment, offering a foundational anchor for future exploration in human-machine teaming and co-existence.
翻訳日:2023-12-07 17:36:44 公開日:2023-12-03
# 同位体層からの南極棚氷の表面積と基底融解速度のシミュレーションによる推定

Simulation-Based Inference of Surface Accumulation and Basal Melt Rates of an Antarctic Ice Shelf from Isochronal Layers ( http://arxiv.org/abs/2312.02997v1 )

ライセンス: Link先を確認
Guy Moss, Vjeran Vi\v{s}njevi\'c, Olaf Eisen, Falk M. Oraschewski, Cornelius Schr\"oder, Jakob H. Macke, Reinhard Drews(参考訳) 南極氷床に突き当たる氷棚は、周囲の海への氷の放出率を決定する。 棚氷の幾何学、それゆえ強引な強度は、氷の流れによって決定され、また、大気と海洋の条件によって制御される局所的な表面積と基底融解率によって決定される。 現代の手法はこれらのレートの1つを解決するが、典型的には両方ではない。 また、時間とともにどのように変化したかという情報はほとんどない。 本研究では, 表層堆積と玄武岩の融解速度を, 日時, 年時平均で同時に推定する手法を提案する。 内部層序のキネマティックフォワードモデルを用いて, レーダーにより観測された内部層序を用いて, 流れ線を横切る速度の空間依存性を推算する。 シミュレーションベース推論(SBI)を用いて逆問題を解く。 sbiは、前方モデルのシミュレーションでニューラルネットワークを訓練して後方分布を近似することでベイズ推定を行い、推定されたパラメータに対する不確かさを定量化する。 本手法の有効性を合成例に示すとともに,新たに取得したレーダ測定が可能な南極のEkstr\"om Ice Shelfに適用する。 我々は2022年以前に42,84,146,188以上の表面積と基底融解の後方分布を得た。 その結果,南極大陸におけるこの期間の大気と海洋の安定な状況が示唆された。 観察された内部層序の使用は、表面の堆積と基底融解の影響を分離することができ、過去数世紀以降の歴史的な文脈で解釈することができる。

The ice shelves buttressing the Antarctic ice sheet determine the rate of ice-discharge into the surrounding oceans. The geometry of ice shelves, and hence their buttressing strength, is determined by ice flow as well as by the local surface accumulation and basal melt rates, governed by atmospheric and oceanic conditions. Contemporary methods resolve one of these rates, but typically not both. Moreover, there is little information of how they changed in time. We present a new method to simultaneously infer the surface accumulation and basal melt rates averaged over decadal and centennial timescales. We infer the spatial dependence of these rates along flow line transects using internal stratigraphy observed by radars, using a kinematic forward model of internal stratigraphy. We solve the inverse problem using simulation-based inference (SBI). SBI performs Bayesian inference by training neural networks on simulations of the forward model to approximate the posterior distribution, allowing us to also quantify uncertainties over the inferred parameters. We demonstrate the validity of our method on a synthetic example, and apply it to Ekstr\"om Ice Shelf, Antarctica, for which newly acquired radar measurements are available. We obtain posterior distributions of surface accumulation and basal melt averaging over 42, 84, 146, and 188 years before 2022. Our results suggest stable atmospheric and oceanographic conditions over this period in this catchment of Antarctica. Use of observed internal stratigraphy can separate the effects of surface accumulation and basal melt, allowing them to be interpreted in a historical context of the last centuries and beyond.
翻訳日:2023-12-07 17:36:26 公開日:2023-12-03
# オープンエンドワールドにおける学習カリキュラム

Learning Curricula in Open-Ended Worlds ( http://arxiv.org/abs/2312.03126v1 )

ライセンス: Link先を確認
Minqi Jiang(参考訳) 深部強化学習(RL)は最適な逐次意思決定エージェントを訓練するための強力な方法を提供する。 現実のインタラクションの収集には追加のコストと安全性のリスクが伴うため、sim2realの共通パラダイムはシミュレータでトレーニングを行い、続いて実世界のデプロイを行う。 残念ながら、RLエージェントはシミュレートされたトレーニング環境の選択に容易に適しており、さらに悪いことに、エージェントが特定のシミュレートされた環境セットをマスターすると学習は終了する。 対照的に、現実世界は非常にオープンで、進化を続ける環境と課題が特徴であり、そのようなRLアプローチは適さない。 シミュレーション環境よりも単純なランダム化は、任意の分布仮定を必要とするため不十分であり、学習に役立つ特定の環境インスタンスを組合せ的にサンプリングする可能性が低い。 理想的な学習プロセスは、エージェントの学習能力を、現実世界の複雑さに合ったり、超えたりしたオープンなタスク空間に、自動的に適応させなければならない。 この論文はUnsupervised Environment Design (UED)と呼ばれる手法を開発し、そのようなオープンなプロセスを生み出すことを目的としている。 環境設計空間が与えられると、UEDは学習エージェントの能力の最前線で、無限のシーケンスや訓練環境のカリキュラムを自動的に生成する。 ミニマックス回帰決定理論とゲーム理論に基づく広範な実証研究と理論論を通じて、この論文の知見は、UEDオートキュリキュラがRLエージェントを生成できることを示す。 このようなautocurriculaは、より汎用的な知性を達成するオープンエンドの学習システムへの道筋であり、彼ら自身の設計の新たな挑戦を継続的に生成し、マスターする。

Deep reinforcement learning (RL) provides powerful methods for training optimal sequential decision-making agents. As collecting real-world interactions can entail additional costs and safety risks, the common paradigm of sim2real conducts training in a simulator, followed by real-world deployment. Unfortunately, RL agents easily overfit to the choice of simulated training environments, and worse still, learning ends when the agent masters the specific set of simulated environments. In contrast, the real world is highly open-ended, featuring endlessly evolving environments and challenges, making such RL approaches unsuitable. Simply randomizing over simulated environments is insufficient, as it requires making arbitrary distributional assumptions and can be combinatorially less likely to sample specific environment instances that are useful for learning. An ideal learning process should automatically adapt the training environment to maximize the learning potential of the agent over an open-ended task space that matches or surpasses the complexity of the real world. This thesis develops a class of methods called Unsupervised Environment Design (UED), which aim to produce such open-ended processes. Given an environment design space, UED automatically generates an infinite sequence or curriculum of training environments at the frontier of the learning agent's capabilities. Through extensive empirical studies and theoretical arguments founded on minimax-regret decision theory and game theory, the findings in this thesis show that UED autocurricula can produce RL agents exhibiting significantly improved robustness and generalization to previously unseen environment instances. Such autocurricula are promising paths toward open-ended learning systems that achieve more general intelligence by continually generating and mastering additional challenges of their own design.
翻訳日:2023-12-07 16:54:13 公開日:2023-12-03
# 条件付き消音拡散モデルによる異常検出

Anomaly Detection with Conditioned Denoising Diffusion Models ( http://arxiv.org/abs/2305.15956v2 )

ライセンス: Link先を確認
Arian Mousakhan, Thomas Brox, Jawad Tayyub(参考訳) 従来のレコンストラクションベースの手法は、異常検出における競合性能を達成するのに苦労している。 本稿では,対象画像に条件付き画像再構成のための新しいデノナイズプロセスであるDAD(Denoising Diffusion Anomaly Detection)を提案する。 これにより、ターゲット画像によく似たコヒーレントな復元が保証される。 この異常検出フレームワークでは,対象画像を入力画像として設定し,雑音化過程を誘導し,名目パターンを維持しながら欠陥のない再構築を行う条件付け機構を採用している。 異常は入力された画像と再構成された画像の画素単位で特徴的に比較して局所化する。 最後に, 特徴量比較の有効性を高めるため, 条件付き復調プロセスから生成したほぼ同一の例を利用して事前学習した特徴量抽出器を微調整する領域適応手法を提案する。 DDADの妥当性は、MVTecとVisAベンチマークなどの様々なデータセットで示され、それぞれ(99.8 \%\)と(98.9 \%\)の画像レベルのAUROCの最先端結果が得られる。

Traditional reconstruction-based methods have struggled to achieve competitive performance in anomaly detection. In this paper, we introduce Denoising Diffusion Anomaly Detection (DDAD), a novel denoising process for image reconstruction conditioned on a target image. This ensures a coherent restoration that closely resembles the target image. Our anomaly detection framework employs the conditioning mechanism, where the target image is set as the input image to guide the denoising process, leading to a defectless reconstruction while maintaining nominal patterns. Anomalies are then localised via a pixel-wise and feature-wise comparison of the input and reconstructed image. Finally, to enhance the effectiveness of the feature-wise comparison, we introduce a domain adaptation method that utilises nearly identical generated examples from our conditioned denoising process to fine-tune the pretrained feature extractor. The veracity of DDAD is demonstrated on various datasets including MVTec and VisA benchmarks, achieving state-of-the-art results of \(99.8 \%\) and \(98.9 \%\) image-level AUROC respectively.
翻訳日:2023-12-06 20:06:51 公開日:2023-12-03
# 等角予測のためのベイズグラフニューラルネットワークの温度について

On the Temperature of Bayesian Graph Neural Networks for Conformal Prediction ( http://arxiv.org/abs/2310.11479v3 )

ライセンス: Link先を確認
Seohyeon Cha, Honggu Kang, and Joonhyuk Kang(参考訳) グラフニューラルネットワーク(GNN)における正確な不確実性定量化は、特にGNNが頻繁に使用される高い領域において不可欠である。 コンフォーマル予測(CP)は、任意のブラックボックスモデルに対して$\textit{valid}$予測セットを提供することによって不確実性を定量化する有望なフレームワークを提供する。 CPは、予測セットが所望の確率を持つ真のラベルを含むことを保証する。 しかし、$\textit{inefficiency}$として知られる予測セットのサイズは、基礎となるモデルとデータ生成プロセスの影響を受けている。 一方、ベイズ学習は推定された後続分布に基づく信頼できる領域も提供するが、この領域はモデルが正しく指定されたときのみ$\textit{well-calibrated}$である。 過去の推定値から有効信頼領域を構築するためのスケーリングパラメータを導入した最近の研究に基づいて, CP フレームワーク内にベイズ GNN に温度パラメータを組み込むことの利点について検討した。 より効率的な予測セットをもたらす温度の存在を実証的に実証する。 さらに,非効率に寄与する要因を明らかにするために分析を行い,cp性能とモデル校正の関係に関する貴重な知見を提供する。

Accurate uncertainty quantification in graph neural networks (GNNs) is essential, especially in high-stakes domains where GNNs are frequently employed. Conformal prediction (CP) offers a promising framework for quantifying uncertainty by providing $\textit{valid}$ prediction sets for any black-box model. CP ensures formal probabilistic guarantees that a prediction set contains a true label with a desired probability. However, the size of prediction sets, known as $\textit{inefficiency}$, is influenced by the underlying model and data generating process. On the other hand, Bayesian learning also provides a credible region based on the estimated posterior distribution, but this region is $\textit{well-calibrated}$ only when the model is correctly specified. Building on a recent work that introduced a scaling parameter for constructing valid credible regions from posterior estimate, our study explores the advantages of incorporating a temperature parameter into Bayesian GNNs within CP framework. We empirically demonstrate the existence of temperatures that result in more efficient prediction sets. Furthermore, we conduct an analysis to identify the factors contributing to inefficiency and offer valuable insights into the relationship between CP performance and model calibration.
翻訳日:2023-12-06 19:22:03 公開日:2023-12-03
# マジックの背後にあるMERLIM:大規模画像言語モデルのマルチモーダル評価ベンチマーク

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models ( http://arxiv.org/abs/2312.02219v1 )

ライセンス: Link先を確認
Andr\'es Villa, Juan Carlos Le\'on Alc\'azar, Alvaro Soto, Bernard Ghanem(参考訳) 大きなビジョンと言語モデルは、完全な教師付きおよびゼロショットビジョンタスクにおいて大きな進歩を可能にした。 これらの大きな事前学習されたアーキテクチャは、現在大きなビジョンと言語モデル(it-lvlms)をチューニングする命令のベースラインとして機能する。 IT-LVLMは、自然言語命令と任意の視覚データによって応答を変調する汎用マルチモーダルアシスタントである。 この汎用性にもかかわらず、基本的なコンピュータビジョン問題におけるIT-LVLMの有効性は、主に標準化された評価ベンチマークがないため、不明である。 本稿では,基本コンピュータビジョンタスクにおけるit-lvlmsの性能を評価するためのスケーラブルなテストベッドmerlimというマルチモーダル評価ベンチマークを提案する。 MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな「ハロシン化」イベントの検出に重点を置いている。 以上の結果から,現状のIT-LVMLは細かな視覚概念の特定にはまだ限界があり,オブジェクトの幻覚はタスク間で共通であり,クエリが全く同じ意味を持つ場合でも,入力クエリの小さなバリエーションに強く偏っていることがわかった。 また,これらのモデルには弱い視覚基盤があるが,グローバルな視覚パターンやllmコンポーネントに含まれるテキストバイアスによっても十分な推測ができることが示唆された。

Large Vision and Language Models have enabled significant advances in fully supervised and zero-shot vision tasks. These large pre-trained architectures serve as the baseline to what is currently known as Instruction Tuning Large Vision and Language models (IT-LVLMs). IT-LVLMs are general-purpose multi-modal assistants whose responses are modulated by natural language instructions and arbitrary visual data. Despite this versatility, IT-LVLM effectiveness in fundamental computer vision problems remains unclear, primarily due to the absence of a standardized evaluation benchmark. This paper introduces a Multi-modal Evaluation Benchmark named MERLIM, a scalable test-bed to assess the performance of IT-LVLMs on fundamental computer vision tasks. MERLIM contains over 279K image-question pairs, and has a strong focus on detecting cross-modal "hallucination" events in IT-LVLMs, where the language output refers to visual concepts that lack any effective grounding in the image. Our results show that state-of-the-art IT-LVMLs are still limited at identifying fine-grained visual concepts, object hallucinations are common across tasks, and their results are strongly biased by small variations in the input query, even if the queries have the very same semantics. Our findings also suggest that these models have weak visual groundings but they can still make adequate guesses by global visual patterns or textual biases contained in the LLM component.
翻訳日:2023-12-06 18:26:17 公開日:2023-12-03
# WavePlanes: 動的ニューラルラジアンス場のためのコンパクトウェーブレット表現

WavePlanes: A compact Wavelet representation for Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2312.02218v1 )

ライセンス: Link先を確認
Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull(参考訳) Dynamic Neural Radiance Fields (Dynamic NeRF)は、移動シーンをモデル化するためのNeRF技術を強化する。 しかし、それらは資源集約的で圧縮が難しい。 本稿では,高速かつコンパクトな明示的モデルであるWavePlanesについて述べる。 Nレベル2次元ウェーブレット係数を用いたマルチスケール空間および時空間特徴平面表現を提案する。 逆離散ウェーブレット変換は、N特徴信号を様々な詳細で再構成し、4次元グリッドにおける体積の色と密度を近似するために線形デコードする。 ウェーブレット係数の間隔を計算し、非ゼロ係数と各平面上の位置のみを含むハッシュマップを圧縮する。 これにより、圧縮されたモデルサイズは ~12 MB になる。 最先端のプレーンベースモデルと比較すると、WavePlanesは最大15倍小さくなり、計算負荷が小さくなり、1時間のトレーニングで同等の結果が得られます。 さらに,従来提案してきたスキームと同様に機能する新しい機能融合スキームを提案し,解釈性も向上した。 私たちのコードは、https://github.com/azzarelli/waveplanes/で利用可能です。

Dynamic Neural Radiance Fields (Dynamic NeRF) enhance NeRF technology to model moving scenes. However, they are resource intensive and challenging to compress. To address this issue, this paper presents WavePlanes, a fast and more compact explicit model. We propose a multi-scale space and space-time feature plane representation using N-level 2-D wavelet coefficients. The inverse discrete wavelet transform reconstructs N feature signals at varying detail, which are linearly decoded to approximate the color and density of volumes in a 4-D grid. Exploiting the sparsity of wavelet coefficients, we compress a Hash Map containing only non-zero coefficients and their locations on each plane. This results in a compressed model size of ~12 MB. Compared with state-of-the-art plane-based models, WavePlanes is up to 15x smaller, less computationally demanding and achieves comparable results in as little as one hour of training - without requiring custom CUDA code or high performance computing resources. Additionally, we propose new feature fusion schemes that work as well as previously proposed schemes while providing greater interpretability. Our code is available at: https://github.com/azzarelli/waveplanes/
翻訳日:2023-12-06 18:25:49 公開日:2023-12-03
# DragVideo:インタラクティブなドラッグスタイルのビデオ編集

DragVideo: Interactive Drag-style Video Editing ( http://arxiv.org/abs/2312.02216v1 )

ライセンス: Link先を確認
Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang(参考訳) ビデオ上のビジュアルコンテンツの編集は、大きな課題として2つある。 1)直接的かつ容易なユーザ制御 2)自然編集の結果,形状,表現,レイアウトが変化した後,不明瞭な歪みやアーティファクトは生じない。 最近の画像ベースのドラッグスタイル編集技術であるdragganにインスパイアされたdragvideoは、時間的一貫性を維持しながらビデオコンテンツの編集に類似したドラッグスタイルのユーザインタラクションを採用する。 DragDiffusionのような最近の拡散モデルを利用して、DragVideoにはDrag-on-Video U-Net(DoVe)編集方法が含まれており、ビデオU-Netが生成した拡散したビデオラテントを最適化して所望の制御を実現する。 具体的には、サンプル固有のLoRA微調整と相互自己注意制御を用いて、DoVe法による映像の忠実な再構成を保証する。 また,ドラッグスタイルビデオ編集のための一連のテスト例を示し,モーション編集やスケルトン編集など,dragvideoの汎用性と汎用性を強調する,幅広い編集タスクにわたる広範な実験を行う。 DragVideo Webユーザインターフェースを含む私たちのコードはリリースされます。

Editing visual content on videos remains a formidable challenge with two main issues: 1) direct and easy user control to produce 2) natural editing results without unsightly distortion and artifacts after changing shape, expression and layout. Inspired by DragGAN, a recent image-based drag-style editing technique, we address above issues by proposing DragVideo, where a similar drag-style user interaction is adopted to edit video content while maintaining temporal consistency. Empowered by recent diffusion models as in DragDiffusion, DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which optimizes diffused video latents generated by video U-Net to achieve the desired control. Specifically, we use Sample-specific LoRA fine-tuning and Mutual Self-Attention control to ensure faithful reconstruction of video from the DoVe method. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion editing, skeleton editing, etc, underscoring DragVideo's versatility and generality. Our codes including the DragVideo web user interface will be released.
翻訳日:2023-12-06 18:25:31 公開日:2023-12-03
# FlashAvatar:300FPSで高忠実なデジタルアバターレンダリング

FlashAvatar: High-Fidelity Digital Avatar Rendering at 300FPS ( http://arxiv.org/abs/2312.02214v1 )

ライセンス: Link先を確認
Jun Xiang, Xuan Gao, Yudong Guo, Juyong Zhang(参考訳) 本研究では,短い単眼映像列からデジタルアバターを数分で再構成し,300fpsで高精細なフォトリアリスティック画像をコンシューマ級gpu上でレンダリングできる,新しい,軽量な3dアニメーション可能なアバター表現であるflashavatarを提案する。 これを実現するために、パラメトリック顔モデルの表面に埋め込まれた均一な3次元ガウス場を維持し、非表面領域と微妙な顔の詳細をモデル化するための余剰空間オフセットを学習する。 幾何学的プリエントをフルに使用することで、高頻度の表情の詳細を捉え、誇張された表現を保存することができるが、適切な初期化はガウス数を減少させ、高速レンダリングを可能にする。 広範な実験の結果、flashavatarは、視覚品質とパーソナライズされた詳細に関する既存の作品よりも優れており、レンダリング速度がほぼ桁違いに速いことがわかった。 プロジェクトページ: https://ustc3dv.github.io/FlashAvatar/

We propose FlashAvatar, a novel and lightweight 3D animatable avatar representation that could reconstruct a digital avatar from a short monocular video sequence in minutes and render high-fidelity photo-realistic images at 300FPS on a consumer-grade GPU. To achieve this, we maintain a uniform 3D Gaussian field embedded in the surface of a parametric face model and learn extra spatial offset to model non-surface regions and subtle facial details. While full use of geometric priors can capture high-frequency facial details and preserve exaggerated expressions, proper initialization can help reduce the number of Gaussians, thus enabling super-fast rendering speed. Extensive experimental results demonstrate that FlashAvatar outperforms existing works regarding visual quality and personalized details and is almost an order of magnitude faster in rendering speed. Project page: https://ustc3dv.github.io/FlashAvatar/
翻訳日:2023-12-06 18:25:10 公開日:2023-12-03
# jarvix: 表データ解析と最適化のためのllm no code platform

JarviX: A LLM No code Platform for Tabular Data Analysis and Optimization ( http://arxiv.org/abs/2312.02213v1 )

ライセンス: Link先を確認
Shang-Ching Liu, ShengKun Wang, Wenqi Lin, Chung-Wei Hsiung, Yi-Chen Hsieh, Yu-Ping Cheng, Sian-Hong Luo, Tsungyao Chang, Jianwei Zhang(参考訳) 本研究では,高度なデータ分析フレームワークであるjarvixを紹介する。 JarviXは、LLM(Large Language Models)を使用して、自動ガイドを容易にし、グラフデータセット上で高精度なデータ解析を実行するように設計されている。 このフレームワークは、様々な列タイプの重要性を強調し、最先端のLCMを活用して簡潔なデータインサイト・サマリを生成し、関連する分析問合せを提案し、データを効果的に視覚化し、広範なデータ分析パイプラインから引き出された結果に関する包括的な説明を提供する。 さらに、JarviXは予測モデリングのための自動機械学習(AutoML)パイプラインも組み込んでいる。 この統合は包括的な自動最適化サイクルを形成し、特にマシン構成の最適化に有利である。 JarviXの有効性と適応性は、一連の実用的なユースケース研究を通じて実証されている。

In this study, we introduce JarviX, a sophisticated data analytics framework. JarviX is designed to employ Large Language Models (LLMs) to facilitate an automated guide and execute high-precision data analyzes on tabular datasets. This framework emphasizes the significance of varying column types, capitalizing on state-of-the-art LLMs to generate concise data insight summaries, propose relevant analysis inquiries, visualize data effectively, and provide comprehensive explanations for results drawn from an extensive data analysis pipeline. Moreover, JarviX incorporates an automated machine learning (AutoML) pipeline for predictive modeling. This integration forms a comprehensive and automated optimization cycle, which proves particularly advantageous for optimizing machine configuration. The efficacy and adaptability of JarviX are substantiated through a series of practical use case studies.
翻訳日:2023-12-06 18:24:50 公開日:2023-12-03
# ポートレート拡散:チェーン・オブ・ペインティングによるトレーニングフリーフェイススタイライゼーション

Portrait Diffusion: Training-free Face Stylization with Chain-of-Painting ( http://arxiv.org/abs/2312.02212v1 )

ライセンス: Link先を確認
Jin Liu, Huaibo Huang, Chao Jin, Ran He(参考訳) 顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。 しかし、現在の手法では、事前学習された生成モデルにサンプルベースの適応アプローチを使用する必要があるため、多くの時間とストレージ空間を必要とし、詳細なスタイル変換を達成できない。 本稿では,ポートレート拡散という,トレーニングフリーな顔スタイライゼーションフレームワークを提案する。 このフレームワークは、既製のテキストから画像への拡散モデルを活用し、微調整の具体例を必要としない。 具体的には、コンテンツとスタイルイメージは最初に潜在コードに変換される。 そして、対応する潜在コードを用いた画像再構成中に、スタイル注意制御と呼ばれる修正自己注意操作により、注意空間の内容及びスタイル特徴を微妙にブレンドする。 さらに,不満足領域を粗調整から微調整まで段階的に再描画する手法を提案する。 ポートレート拡散法の有効性を検証し, 正確な顔のスタイリングを実現する上でのパターン・オブ・パインティングの優位性を実証した。 コードは \url{https://github.com/liujin112/PortraitDiffusion} でリリースされる。

Face stylization refers to the transformation of a face into a specific portrait style. However, current methods require the use of example-based adaptation approaches to fine-tune pre-trained generative models so that they demand lots of time and storage space and fail to achieve detailed style transformation. This paper proposes a training-free face stylization framework, named Portrait Diffusion. This framework leverages off-the-shelf text-to-image diffusion models, eliminating the need for fine-tuning specific examples. Specifically, the content and style images are first inverted into latent codes. Then, during image reconstruction using the corresponding latent code, the content and style features in the attention space are delicately blended through a modified self-attention operation called Style Attention Control. Additionally, a Chain-of-Painting method is proposed for the gradual redrawing of unsatisfactory areas from rough adjustments to fine-tuning. Extensive experiments validate the effectiveness of our Portrait Diffusion method and demonstrate the superiority of Chain-of-Painting in achieving precise face stylization. Code will be released at \url{https://github.com/liujin112/PortraitDiffusion}.
翻訳日:2023-12-06 18:24:35 公開日:2023-12-03
# MR-LinacにおけるMRのみ適応放射線治療のためのサイクリックコンシステント・ジェネレーション・アドバーサリアル・ネットワーク・シンセティックCT

Cycle-consistent Generative Adversarial Network Synthetic CT for MR-only Adaptive Radiation Therapy on MR-Linac ( http://arxiv.org/abs/2312.02211v1 )

ライセンス: Link先を確認
Gabriel L. Asher, Bassem I. Zaki, Gregory A. Russo, Gobind S. Gill, Charles R. Thomas, Temiloluwa O. Prioleau, Rongxiao Zhang, and Brady Hunt(参考訳) 目的:MR誘導適応放射線療法(MRgART)におけるSCT画像作成におけるディープラーニング(DL)の有効性について検討した。 方法: MR-LINAC治療のMRIおよびCTスキャンスライスを用いてCycle-GANモデルを訓練した。 この分析は、様々な腫瘍患者からの振り返り治療計画データを含む。 sCT画像は,Hounsfield Units(HU)と画像類似度指標(SSIM, PSNR, NCC)の平均絶対誤差を用いて,標準CTスキャンと比較した。 sCTボリュームをドシメトリック再評価のための臨床治療システムに統合した。 結果: このモデルでは, 57例の8405フレームで訓練し, 17例の357 sCTフレームで試験した。 sCTとdCTの間のMAEは49.2+/-13.2HUで、sCT NCCは0.06以上、SSIMとPSNRはそれぞれ0.97+/0.01、PSNRは19.9+/-1.6であった。 ドシメトリック評価では, sCTとdCTの差は小さかったが, sCTでは気泡再建が良好であった。 結論: MR-Linacs における DL ベースの sCT 生成は MRgART の線量計算と最適化に正確である。 これによりMRのみの治療計画、シミュレーションの強化、MR-Linacの適応計画効率が向上する。

Purpose: This study assesses the effectiveness of Deep Learning (DL) for creating synthetic CT (sCT) images in MR-guided adaptive radiation therapy (MRgART). Methods: A Cycle-GAN model was trained with MRI and CT scan slices from MR-LINAC treatments, generating sCT volumes. The analysis involved retrospective treatment plan data from patients with various tumors. sCT images were compared with standard CT scans using mean absolute error in Hounsfield Units (HU) and image similarity metrics (SSIM, PSNR, NCC). sCT volumes were integrated into a clinical treatment system for dosimetric re-evaluation. Results: The model, trained on 8405 frames from 57 patients and tested on 357 sCT frames from 17 patients, showed sCTs comparable to dCTs in electron density and structural similarity with MRI scans. The MAE between sCT and dCT was 49.2 +/- 13.2 HU, with sCT NCC exceeding dCT by 0.06, and SSIM and PSNR at 0.97 +/- 0.01 and 19.9 +/- 1.6 respectively. Dosimetric evaluations indicated minimal differences between sCTs and dCTs, with sCTs showing better air-bubble reconstruction. Conclusions: DL-based sCT generation on MR-Linacs is accurate for dose calculation and optimization in MRgART. This could facilitate MR-only treatment planning, enhancing simulation and adaptive planning efficiency on MR-Linacs.
翻訳日:2023-12-06 18:24:21 公開日:2023-12-03
# エッジ上の推論のための低精度混合計算モデル

Low-Precision Mixed-Computation Models for Inference on Edge ( http://arxiv.org/abs/2312.02210v1 )

ライセンス: Link先を確認
Seyedarmin Azizi, Mahdi Nazemi, Mehdi Kamal, Massoud Pedram(参考訳) 本稿では,低精度(低幅)と低精度固定点(FixP)を組み込んだエッジアプリケーションのための混合計算ニューラルネットワーク処理手法を提案する。 この混合計算法は4ビットポジット(posit4)を使用し、0付近の精度が高く、感度の高い重みを表すが、他の重みを表すのに4ビットfixp(fixp4)を用いる。 適切な数体系を異なる重みに割り当てるために,重みの重要性と量化誤差を分析するヒューリスティックを提案する。 さらに,後方伝播過程における重み更新の質を向上させるため,Posit表現の勾配近似を導入する。 完全Positベースの計算の高エネルギー消費のため、ニューラルネットワーク操作はFixPまたはPosit/FixPで行われる。 第1のPositオペランドと第2のオペランドおよびアキュムレータのためのFixPによるMAC操作の効率的なハードウェア実装を示す。 提案手法の有効性は,視覚モデルと言語モデルに基づいて広く評価されている。 その結果、平均して混合計算の精度はフィップより約1.5%高く、エネルギーオーバーヘッドは0.19%であった。

This paper presents a mixed-computation neural network processing approach for edge applications that incorporates low-precision (low-width) Posit and low-precision fixed point (FixP) number systems. This mixed-computation approach employs 4-bit Posit (Posit4), which has higher precision around zero, for representing weights with high sensitivity, while it uses 4-bit FixP (FixP4) for representing other weights. A heuristic for analyzing the importance and the quantization error of the weights is presented to assign the proper number system to different weights. Additionally, a gradient approximation for Posit representation is introduced to improve the quality of weight updates in the backpropagation process. Due to the high energy consumption of the fully Posit-based computations, neural network operations are carried out in FixP or Posit/FixP. An efficient hardware implementation of a MAC operation with a first Posit operand and FixP for a second operand and accumulator is presented. The efficacy of the proposed low-precision mixed-computation approach is extensively assessed on vision and language models. The results show that, on average, the accuracy of the mixed-computation is about 1.5% higher than that of FixP with a cost of 0.19% energy overhead.
翻訳日:2023-12-06 18:23:52 公開日:2023-12-03
# AttriHuman-3D: 属性分解とインデックス化による編集可能な3次元アバター生成

AttriHuman-3D: Editable 3D Human Avatar Generation with Attribute Decomposition and Indexing ( http://arxiv.org/abs/2312.02209v1 )

ライセンス: Link先を確認
Fan Yang, Tianyi Chen, Xiaosheng He, Zhongang Cai, Lei Yang, Si Wu, Guosheng Lin(参考訳) ユーザインタラクション編集をサポートする編集可能な3D認識生成は、最近、急速な開発を目撃している。 しかし、既存の編集可能な3d ganは高精度なローカル編集を達成できなかったり、膨大な計算コストを被ったりする。 本稿では、上記の属性分解とインデックス化の問題に対処する編集可能な3次元人文生成モデルであるAttriHuman-3Dを提案する。 提案モデルの中核となる考え方は、6つの特徴面を持つ全体属性空間において、すべての属性(人体、髪、衣服など)を生成し、それらを分解し、異なる属性インデックスで操作することである。 生成した特徴平面から異なる属性の特徴を高精度に抽出するために,新しい属性索引法と直交射影正規化法を提案する。 また,超ラテントトレーニング戦略と属性特異的サンプリング戦略を導入し,判別者からのスタイル絡み合いや誤解を招く罰を回避する。 提案手法では, ユーザーが生成した3次元アバターの属性を対話的に編集し, 他者を固定する。 質的かつ定量的な実験により,本モデルが異なる属性間の強い絡み合いを与え,精細な画像編集を可能にし,高品質な3dアバターを生成できることが証明された。

Editable 3D-aware generation, which supports user-interacted editing, has witnessed rapid development recently. However, existing editable 3D GANs either fail to achieve high-accuracy local editing or suffer from huge computational costs. We propose AttriHuman-3D, an editable 3D human generation model, which address the aforementioned problems with attribute decomposition and indexing. The core idea of the proposed model is to generate all attributes (e.g. human body, hair, clothes and so on) in an overall attribute space with six feature planes, which are then decomposed and manipulated with different attribute indexes. To precisely extract features of different attributes from the generated feature planes, we propose a novel attribute indexing method as well as an orthogonal projection regularization to enhance the disentanglement. We also introduce a hyper-latent training strategy and an attribute-specific sampling strategy to avoid style entanglement and misleading punishment from the discriminator. Our method allows users to interactively edit selected attributes in the generated 3D human avatars while keeping others fixed. Both qualitative and quantitative experiments demonstrate that our model provides a strong disentanglement between different attributes, allows fine-grained image editing and generates high-quality 3D human avatars.
翻訳日:2023-12-06 18:23:31 公開日:2023-12-03
# 大規模LiDARシーン解析のためのデータ効率フレームワーク

A Data-efficient Framework for Robotics Large-scale LiDAR Scene Parsing ( http://arxiv.org/abs/2312.02208v1 )

ライセンス: Link先を確認
Kangcheng Liu(参考訳) 既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。 我々の知る限りでは、下流の高レベル理解タスクを同時に解決する統一的なフレームワークは存在しない。 この作業は、ラベルが制限されたときにポイントクラウドを理解するための汎用的でシンプルなフレームワークを提供する。 本稿では,非教師なし領域拡張に基づくクラスタリング手法を提案する。 より重要なことは,局所的な低レベル幾何学的性質の類似性と,弱いラベルによって監督される学習された高レベル特徴の類似性に基づいて,超分割クラスタを融合することを学ぶことを提案することである。 したがって、真の弱ラベルは、幾何学的特徴相関と意味的特徴相関の両方を考慮した擬似ラベルマージを導く。 最後に,シーン内の意味的類似点間のラベルの伝搬を誘導する自己教師付き再構成とデータ拡張最適化モジュールを提案する。 実験結果から,大規模3次元セマンティックシーン解析のためのデータ効率設定の下で,制限点がラベル付けされた場合でも,セマンティックセグメンテーション,インスタンスセグメンテーション,オブジェクト検出などのタスクを理解する上で,我々のフレームワークは最も重要な3つのポイントクラウドの中で最高の性能を有することが示された。 ロボット操作やロボット自律ナビゲーションにおいて、より優れた表現のために下流タスクに適用すべき課題がある。 コードとモデルは、https://github.com/KangchengLiu.comで公開されている。

Existing state-of-the-art 3D point clouds understanding methods only perform well in a fully supervised manner. To the best of our knowledge, there exists no unified framework which simultaneously solves the downstream high-level understanding tasks, especially when labels are extremely limited. This work presents a general and simple framework to tackle point clouds understanding when labels are limited. We propose a novel unsupervised region expansion based clustering method for generating clusters. More importantly, we innovatively propose to learn to merge the over-divided clusters based on the local low-level geometric property similarities and the learned high-level feature similarities supervised by weak labels. Hence, the true weak labels guide pseudo labels merging taking both geometric and semantic feature correlations into consideration. Finally, the self-supervised reconstruction and data augmentation optimization modules are proposed to guide the propagation of labels among semantically similar points within a scene. Experimental Results demonstrate that our framework has the best performance among the three most important weakly supervised point clouds understanding tasks including semantic segmentation, instance segmentation, and object detection even when limited points are labeled, under the data-efficient settings for the large-scale 3D semantic scene parsing. The developed techniques have postentials to be applied to downstream tasks for better representations in robotic manipulation and robotic autonomous navigation. Codes and models are publicly available at: https://github.com/KangchengLiu.
翻訳日:2023-12-06 18:23:10 公開日:2023-12-03
# TranSegPGD: セマンティックセグメンテーションにおける逆例の転送性の改善

TranSegPGD: Improving Transferability of Adversarial Examples on Semantic Segmentation ( http://arxiv.org/abs/2312.02207v1 )

ライセンス: Link先を確認
Xiaojun Jia, Jindong Gu, Yihao Huang, Simeng Qin, Qing Guo, Yang Liu, Xiaochun Cao(参考訳) 画像分類における逆例の転送性は系統的に検討され、ブラックボックスモードで逆例を生成する。 しかし、セマンティックセグメンテーションにおける逆例の転送可能性はほとんど見過ごされている。 本稿では,意味セグメンテーションにおける攻撃例の伝達性を改善するための,効果的な二段階攻撃戦略であるtransegpgdを提案する。 特に、第1段階では、入力画像の各画素はその対向特性に基づいて異なる分岐に分割される。 全画素の対角性能を改善するために、異なる枝に異なる重みを割り当て、全ての画素を誤分類する難易度画素の損失に高い重みを割り当てる。 第2段階では、各画素は、kullback-leiblerの発散に依存する転送可能特性に基づいて異なる枝に分割される。 異なる分岐は最適化のために異なる重みを与えられ、逆の例の転送性が向上する。 高転送性画素の損失に対して高重みを割り当て、逆例の転送性を改善する。 PASCAL VOC 2012とCityscapesのデータセットを用いて,様々なセグメンテーションモデルによる大規模な実験を行い,提案手法の有効性を実証した。 提案手法は,最先端の性能を達成できる。

Transferability of adversarial examples on image classification has been systematically explored, which generates adversarial examples in black-box mode. However, the transferability of adversarial examples on semantic segmentation has been largely overlooked. In this paper, we propose an effective two-stage adversarial attack strategy to improve the transferability of adversarial examples on semantic segmentation, dubbed TranSegPGD. Specifically, at the first stage, every pixel in an input image is divided into different branches based on its adversarial property. Different branches are assigned different weights for optimization to improve the adversarial performance of all pixels.We assign high weights to the loss of the hard-to-attack pixels to misclassify all pixels. At the second stage, the pixels are divided into different branches based on their transferable property which is dependent on Kullback-Leibler divergence. Different branches are assigned different weights for optimization to improve the transferability of the adversarial examples. We assign high weights to the loss of the high-transferability pixels to improve the transferability of adversarial examples. Extensive experiments with various segmentation models are conducted on PASCAL VOC 2012 and Cityscapes datasets to demonstrate the effectiveness of the proposed method. The proposed adversarial attack method can achieve state-of-the-art performance.
翻訳日:2023-12-06 18:22:43 公開日:2023-12-03
# 学習可能なグラフプーリングネットワークによるモデル解析のためのハイパーパラメータ依存性の追跡

Tracing Hyperparameter Dependencies for Model Parsing via Learnable Graph Pooling Network ( http://arxiv.org/abs/2312.02224v1 )

ライセンス: Link先を確認
Xiao Guo, Vishal Asnani, Sijia Liu, Xiaoming Liu(参考訳) モデル解析は、生成した画像を入力として与えた生成モデル(gm)のハイパーパラメータを予測する研究タスクを定義する。 多様なハイパーパラメータの集合が生成モデルに共同で採用されているため、モデル解析性能を向上させるためにこれらのハイパーパラメータの依存関係を学ぶことが不可欠である。 そこで本研究では,学習可能なグラフプーリングネットワーク(lgpn)と呼ばれるモデル解析手法を提案する。 具体的には,モデル解析をグラフノード分類タスクに変換し,グラフノードとエッジを用いてハイパーパラメータとその依存関係を表現する。 さらに、LGPNはモデル解析に適した学習可能なプールアンプール機構を導入し、入力画像を生成するために使用されるGMのハイパーパラメータ依存性を適応的に学習する。 また,提案手法をcnn生成画像検出と協調攻撃検出に拡張した。 実験により,本手法の有効性を実証し,モデル解析とその拡張アプリケーションに適用した。 ソースコードは利用可能です。

Model Parsing defines the research task of predicting hyperparameters of the generative model (GM), given a generated image as input. Since a diverse set of hyperparameters is jointly employed by the generative model, and dependencies often exist among them, it is crucial to learn these hyperparameter dependencies for the improved model parsing performance. To explore such important dependencies, we propose a novel model parsing method called Learnable Graph Pooling Network (LGPN). Specifically, we transform model parsing into a graph node classification task, using graph nodes and edges to represent hyperparameters and their dependencies, respectively. Furthermore, LGPN incorporates a learnable pooling-unpooling mechanism tailored to model parsing, which adaptively learns hyperparameter dependencies of GMs used to generate the input image. We also extend our proposed method to CNN-generated image detection and coordinate attacks detection. Empirically, we achieve state-of-the-art results in model parsing and its extended applications, showing the effectiveness of our method. Our source code are available.
翻訳日:2023-12-06 18:11:24 公開日:2023-12-03
# InvertAvatar: 一般化ヘッドアバターに対するインクリメンタルGANインバージョン

InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars ( http://arxiv.org/abs/2312.02222v1 )

ライセンス: Link先を確認
Xiaochen Zhao, Jingxiang Sun, Lizhen Wang, Yebin Liu(参考訳) 高忠実度と効率性はデジタルヘッドアバターの作成の中心であるが、近年の2次元または3次元生成モデルに依存する手法では、形状の歪み、表現の不正確さ、アイデンティティ・フリックリングといった制限がしばしば経験されている。 さらに、既存のワンショット反転技術では、詳細な特徴抽出のために複数の入力画像を完全に活用できない。 本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークである‘textbf{Incremental 3D GAN Inversion} を提案する。 本手法では,UVパラメータ化に基づくテクスチャ特徴空間を分類する革新的テクスチャエンコーダとともに,表現制御性向上のための2つの重要な修正を加えた,ユニークなアニマタブルな3D GANを導入する。 従来の手法と異なるアーキテクチャでは、ピクセルに整合した画像から画像への変換を強調し、観測と標準空間間の対応を学習する必要性を緩和する。 さらに,複数のフレームからの時間的データアグリゲーションにConvGRUをベースとしたリカレントネットワークを導入し,形状やテクスチャディテールを再構築する。 提案するパラダイムは,ワンショットおよびマイショットアバターアニメーションタスクにおける最先端のパフォーマンスを示す。

While high fidelity and efficiency are central to the creation of digital head avatars, recent methods relying on 2D or 3D generative models often experience limitations such as shape distortion, expression inaccuracy, and identity flickering. Additionally, existing one-shot inversion techniques fail to fully leverage multiple input images for detailed feature extraction. We propose a novel framework, \textbf{Incremental 3D GAN Inversion}, that enhances avatar reconstruction performance using an algorithm designed to increase the fidelity from multiple frames, resulting in improved reconstruction quality proportional to frame count. Our method introduces a unique animatable 3D GAN prior with two crucial modifications for enhanced expression controllability alongside an innovative neural texture encoder that categorizes texture feature spaces based on UV parameterization. Differentiating from traditional techniques, our architecture emphasizes pixel-aligned image-to-image translation, mitigating the need to learn correspondences between observation and canonical spaces. Furthermore, we incorporate ConvGRU-based recurrent networks for temporal data aggregation from multiple frames, boosting geometry and texture detail reconstruction. The proposed paradigm demonstrates state-of-the-art performance on one-shot and few-shot avatar animation tasks.
翻訳日:2023-12-06 18:11:05 公開日:2023-12-03
# slice3d:マルチスライス、オクルージョンリビアリング、single view 3d reconstruction

Slice3D: Multi-Slice, Occlusion-Revealing, Single View 3D Reconstruction ( http://arxiv.org/abs/2312.02221v1 )

ライセンス: Link先を確認
Yizhi Wang, Wallace Lira, Wenqi Wang, Ali Mahdavi-Amiri, Hao Zhang(参考訳) 複数視点合成が単一視点と3次元の最も自然なコンジットであるという、現在および一般的な信念に挑戦する、単一視点3次元再構成の新しい概念であるマルチスライス推論を導入する。 私たちのキーとなる観察は、オブジェクトスライシングは、隠された構造を明らかにするためにビューを変更するよりも有利であるということです。 特に、スライシングは閉塞のない咬合器を剥がすことができるため、閉塞防止効果が高い。 限界、すなわち無限に多くのスライスを持つ場合、すべての隠されたオブジェクトの部品を明かすことが保証される。 本研究では,単一のrgb画像から複数のスライス画像を最初に予測し,そのスライスを座標系トランスフォーマーネットワークを用いて3dモデルに統合し,符号付き距離予測を行う,slice3dを開発した。 スライス画像は、U-Netベースのネットワークを介して、後退または生成することができる。 前者の場合、学習可能なスライスインジケータコードを挿入して、各デコードされた画像を空間的なスライスロケーションに指定し、スライス生成器は入力チャネルに積み重ねられたスライスイメージの全体で動作するデノージング拡散モデルである。 本手法の優位性を示すために, 現状の代替案に対して広範囲に評価を行い, あいまいさの中, 複雑かつ厳密な形状構造を復元する。 slice3dの結果はすべて、単一のnvidia a40 gpuでトレーニングされたネットワークが生成し、推論時間は20秒未満だった。

We introduce multi-slice reasoning, a new notion for single-view 3D reconstruction which challenges the current and prevailing belief that multi-view synthesis is the most natural conduit between single-view and 3D. Our key observation is that object slicing is more advantageous than altering views to reveal occluded structures. Specifically, slicing is more occlusion-revealing since it can peel through any occluders without obstruction. In the limit, i.e., with infinitely many slices, it is guaranteed to unveil all hidden object parts. We realize our idea by developing Slice3D, a novel method for single-view 3D reconstruction which first predicts multi-slice images from a single RGB image and then integrates the slices into a 3D model using a coordinate-based transformer network for signed distance prediction. The slice images can be regressed or generated, both through a U-Net based network. For the former, we inject a learnable slice indicator code to designate each decoded image into a spatial slice location, while the slice generator is a denoising diffusion model operating on the entirety of slice images stacked on the input channels. We conduct extensive evaluation against state-of-the-art alternatives to demonstrate superiority of our method, especially in recovering complex and severely occluded shape structures, amid ambiguities. All Slice3D results were produced by networks trained on a single Nvidia A40 GPU, with an inference time less than 20 seconds.
翻訳日:2023-12-06 18:10:42 公開日:2023-12-03
# QuantAttack: 動的量子化を爆発して視覚変換器を攻撃

QuantAttack: Exploiting Dynamic Quantization to Attack Vision Transformers ( http://arxiv.org/abs/2312.02220v1 )

ライセンス: Link先を確認
Amit Baras, Alon Zolfi, Yuval Elovici, Asaf Shabtai(参考訳) 近年、ディープニューラルネットワーク(DNN)、特にトランスフォーマーベースのモデルにおいて、より大きく、より有能なモデルの開発が顕著な傾向にある。 最先端のパフォーマンスを示す一方で、その増大するスケールには計算リソースの増加(メモリ容量の大きいgpuなど)が必要となる。 この問題を解決するため、量子化技術(低ビット精度表現と行列乗算)が提案されている。 ほとんどの量子化技術は、テスト時間サンプルを考慮せずに、トレーニング中または推論中、モデルパラメータが定量化される静的戦略を採用している。 対照的に、ますます普及している動的量子化技術は、完全な精度を維持しつつ、入力に基づいて推論中に適応する。 しかしながら、それらの動的な振る舞いと平均ケースパフォーマンスの仮定は、モデルの効率性と可用性を目標とする、新たな脅威ベクトル -- 敵攻撃 -- に対して脆弱になる。 本稿では,量子化モデルの可用性を目標とし,推論を遅くし,メモリ使用量とエネルギー消費を増加させる新しい攻撃であるquantattackを提案する。 オペレーティングシステムのリソースを無駄にするために設計された、慎重に構築された敵の例は、最悪のパフォーマンスを引き起こす可能性があることを示す。 本実験では,視覚トランスフォーマーに対する単モードと多モードの両方の幅広いタスクに対する攻撃の有効性を実証する。 また、異なる攻撃型(例えば普遍摂動)と異なるモデル間の伝達可能性の影響についても検討する。

In recent years, there has been a significant trend in deep neural networks (DNNs), particularly transformer-based models, of developing ever-larger and more capable models. While they demonstrate state-of-the-art performance, their growing scale requires increased computational resources (e.g., GPUs with greater memory capacity). To address this problem, quantization techniques (i.e., low-bit-precision representation and matrix multiplication) have been proposed. Most quantization techniques employ a static strategy in which the model parameters are quantized, either during training or inference, without considering the test-time sample. In contrast, dynamic quantization techniques, which have become increasingly popular, adapt during inference based on the input provided, while maintaining full-precision performance. However, their dynamic behavior and average-case performance assumption makes them vulnerable to a novel threat vector -- adversarial attacks that target the model's efficiency and availability. In this paper, we present QuantAttack, a novel attack that targets the availability of quantized models, slowing down the inference, and increasing memory usage and energy consumption. We show that carefully crafted adversarial examples, which are designed to exhaust the resources of the operating system, can trigger worst-case performance. In our experiments, we demonstrate the effectiveness of our attack on vision transformers on a wide range of tasks, both uni-modal and multi-modal. We also examine the effect of different attack variants (e.g., a universal perturbation) and the transferability between different models.
翻訳日:2023-12-06 18:10:13 公開日:2023-12-03
# 点群アップサンプリングのための条件付き拡散確率モデル

A Conditional Denoising Diffusion Probabilistic Model for Point Cloud Upsampling ( http://arxiv.org/abs/2312.02719v1 )

ライセンス: Link先を確認
Wentao Qu, Yuantian Shao, Lingwu Meng, Xiaoshui Huang, Liang Xiao(参考訳) ポイントクラウドアップサンプリング(PCU)は、生のポイントクラウドの表現を豊かにし、分類や再構築といった下流タスクのパフォーマンスを大幅に向上させる。 既存のポイントクラウドアップサンプリングメソッドのほとんどは、スパースポイントクラウド機能抽出とアップサンプリングモジュール設計に重点を置いている。 別の方法では、高密度の点雲からのデータ分布の勾配を直接モデル化する。 本稿では,PUDMと呼ばれる点群アップサンプリングのための条件分解拡散確率モデル(DDPM)を提案する。 具体的には、PUDMはスパース点雲を条件として扱い、高密度点雲とノイズの間の変換関係を反復的に学習する。 同時にPUDMは、点特徴の識別をさらに改善するために、デュアルマッピングパラダイムと整合する。 この文脈では、PUDMは、追加のアップサンプリングモジュール設計を回避しつつ、支配的な特徴を通じて、地上の真実の中で複雑な幾何学の詳細を学習することができる。 さらに、推定中に高品質の任意のスケールのポイントクラウドを生成するため、pudmはレート係数をパラメータ化することにより、トレーニング中にスパースポイント雲と密集点雲の間のスケールの事前知識を利用する。 さらに, PUDMは実験結果に強い耐雑音性を示す。 PU1KとPUGANの定量および定性評価において,PUDMは従来の方法に比べて,シャンファー距離 (CD) とハウスドルフ距離 (HD) で有意に優れており,SOTAのパフォーマンスが達成されている。

Point cloud upsampling (PCU) enriches the representation of raw point clouds, significantly improving the performance in downstream tasks such as classification and reconstruction. Most of the existing point cloud upsampling methods focus on sparse point cloud feature extraction and upsampling module design. In a different way, we dive deeper into directly modelling the gradient of data distribution from dense point clouds. In this paper, we proposed a conditional denoising diffusion probability model (DDPM) for point cloud upsampling, called PUDM. Specifically, PUDM treats the sparse point cloud as a condition, and iteratively learns the transformation relationship between the dense point cloud and the noise. Simultaneously, PUDM aligns with a dual mapping paradigm to further improve the discernment of point features. In this context, PUDM enables learning complex geometry details in the ground truth through the dominant features, while avoiding an additional upsampling module design. Furthermore, to generate high-quality arbitrary-scale point clouds during inference, PUDM exploits the prior knowledge of the scale between sparse point clouds and dense point clouds during training by parameterizing a rate factor. Moreover, PUDM exhibits strong noise robustness in experimental results. In the quantitative and qualitative evaluations on PU1K and PUGAN, PUDM significantly outperformed existing methods in terms of Chamfer Distance (CD) and Hausdorff Distance (HD), achieving state of the art (SOTA) performance.
翻訳日:2023-12-06 15:42:41 公開日:2023-12-03
# グラフ表現学習を用いた意味駆動生成型逆ネットワークによる二相性顔写真スケッチ合成

Biphasic Face Photo-Sketch Synthesis via Semantic-Driven Generative Adversarial Network with Graph Representation Learning ( http://arxiv.org/abs/2201.01592v2 )

ライセンス: Link先を確認
Xingqun Qi, Muyi Sun, Zijian Wang, Jiaming Liu, Qi Li, Fang Zhao, Shanghang Zhang, Caifeng Shan(参考訳) biphasic face photo-sketch synthesisはデジタルエンターテイメントや法執行機関といった幅広い分野において重要な実用的価値を持っている。 従来のアプローチでは、グローバルビューで写真スケッチを直接生成するが、スケッチの低品質や複雑な写真のバリエーションに常に苦しむため、不自然で低忠実な結果に繋がる。 本稿では,上記の問題に対処するために,グラフ表現学習と協調して,新たな意味駆動生成型逆ネットワークを提案する。 人間の顔は、異なる空間構造を持つため、まず、ジェネレータにクラスごとに意味的なレイアウトを注入し、顔写真やスケッチを合成するためのスタイルベースの空間情報を提供する。 さらに、生成した顔の詳細の真正性を高めるため、入力面上の意味解析マップ(intra-class semantic graph (iasg) とクラス間構造グラフ (irsg) の2種類の表現グラフを構築した。 具体的には、IASGは、各顔意味成分のクラス内意味相関を効果的にモデル化し、現実的な顔の詳細を生成する。 生成した顔がより構造的協調性を保つために、IRSGはグラフ表現学習により、各顔コンポーネント間のクラス間構造関係をモデル化する。 合成画像の知覚的品質をさらに高めるため,画像とスケッチの多面的特徴の整合性をフル活用して,双相的対話的サイクルトレーニング戦略を提案する。 その結果,本手法はCUFSおよびCUFSFデータセットにおける最先端の競合よりも優れていた。

Biphasic face photo-sketch synthesis has significant practical value in wide-ranging fields such as digital entertainment and law enforcement. Previous approaches directly generate the photo-sketch in a global view, they always suffer from the low quality of sketches and complex photo variations, leading to unnatural and low-fidelity results. In this paper, we propose a novel Semantic-Driven Generative Adversarial Network to address the above issues, cooperating with Graph Representation Learning. Considering that human faces have distinct spatial structures, we first inject class-wise semantic layouts into the generator to provide style-based spatial information for synthesized face photos and sketches. Additionally, to enhance the authenticity of details in generated faces, we construct two types of representational graphs via semantic parsing maps upon input faces, dubbed the IntrA-class Semantic Graph (IASG) and the InteR-class Structure Graph (IRSG). Specifically, the IASG effectively models the intra-class semantic correlations of each facial semantic component, thus producing realistic facial details. To preserve the generated faces being more structure-coordinated, the IRSG models inter-class structural relations among every facial component by graph representation learning. To further enhance the perceptual quality of synthesized images, we present a biphasic interactive cycle training strategy by fully taking advantage of the multi-level feature consistency between the photo and sketch. Extensive experiments demonstrate that our method outperforms the state-of-the-art competitors on the CUFS and CUFSF datasets.
翻訳日:2023-12-06 02:25:41 公開日:2023-12-03
# ゲーム表現の再検討 : 一連の意思決定アルゴリズムにおける効率の隠れたコスト

Revisiting Game Representations: The~Hidden Costs of Efficiency in~Sequential Decision-making Algorithms ( http://arxiv.org/abs/2112.10890v2 )

ライセンス: Link先を確認
Vojt\v{e}ch Kova\v{r}\'ik, David Milec, Michal \v{S}ustr, Dominik Seitz, Viliam Lis\'y(参考訳) 不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、リミットポーカーやノーリミットポーカーのような大きなゲームで顕著な成功を収めている。 これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化するが、これは理論上は正しいが、実際はメモリ非効率で計算集約的である。 これらの課題を軽減するために、人気のある回避策はプレイヤー固有の情報状態木に基づく特殊表現を使用することである。 しかし、我々が示すように、この代替手段は効率的に表現できるゲームの集合を著しく狭める。 本研究では,現代のアルゴリズムが逐次ベイズゲームで自然に表現されているとベンチマークされた大規模ゲームの集合を同定する。 拡張型ゲームとシーケンシャルベイズゲーム表現の臨界差を理論的および経験的に解明する。 さらに、文献でしばしば引用される印象的な実験結果は、これらのアルゴリズムをこの制限された種類のゲームでのみテストすることに起因するため、歪曲される可能性があると論じる。 これらのニュアンスを理解することで、不完全な情報の下でシーケンシャルな意思決定のためのより普遍的に適用可能で効率的なアルゴリズムを開発するための将来の研究を導くことを目指している。

Recent advancements in algorithms for sequential decision-making under imperfect information have shown remarkable success in large games such as limit- and no-limit poker. These algorithms traditionally formalize the games using the extensive-form game formalism, which, as we show, while theoretically sound, is memory-inefficient and computationally intensive in practice. To mitigate these challenges, a popular workaround involves using a specialized representation based on player specific information-state trees. However, as we show, this alternative significantly narrows the set of games that can be represented efficiently. In this study, we identify the set of large games on which modern algorithms have been benchmarked as being naturally represented by Sequential Bayesian Games. We elucidate the critical differences between extensive-form game and sequential Bayesian game representations, both theoretically and empirically. We further argue that the impressive experimental results often cited in the literature may be skewed, as they frequently stem from testing these algorithms only on this restricted class of games. By understanding these nuances, we aim to guide future research in developing more universally applicable and efficient algorithms for sequential decision-making under imperfect information.
翻訳日:2023-12-06 02:25:13 公開日:2023-12-03
# 週次時系列予測のための高精度全自動アンサンブルモデル

An Accurate and Fully-Automated Ensemble Model for Weekly Time Series Forecasting ( http://arxiv.org/abs/2010.08158v2 )

ライセンス: Link先を確認
Rakshitha Godahewa, Christoph Bergmeir, Geoffrey I. Webb, Pablo Montero-Manso(参考訳) 今日では多くの企業や産業が毎週の時系列の正確な予測を必要としている。 しかし、現在、予測文献は、このタスク専用の、使いやすさ、自動性、再現性、正確なアプローチを提供していない。 本稿では,このギャップを埋めるために,予測の組み合わせ,メタラーニング,グローバルモデリングといった最先端の予測手法を活用した予測手法を提案する。 異なるメタ学習アーキテクチャ、アルゴリズム、ベースモデルプールについて検討する。 そこで本研究では,4つのベースモデルの予測を最適に組み合わせたラッソ回帰(lasso regression)を用いた積み重ね手法を提案する。グローバルリカレントニューラルネットワークモデル(rnn),theta,trigonometric box-cox arma trend seasonal (tbats),dynamic harmonic regression arima (dhr-arima) の4つの評価指標を用いた実験データセットの総合的パフォーマンスを示す。 また,提案手法は,統計的に有意なマーケッツと最先端の週次予測モデルとを一貫して上回っている。 提案手法は,M4 週毎のベンチマークデータに対して,平均 sMAPE で最も正確な予測値を生成することができる。

Many businesses and industries require accurate forecasts for weekly time series nowadays. However, the forecasting literature does not currently provide easy-to-use, automatic, reproducible and accurate approaches dedicated to this task. We propose a forecasting method in this domain to fill this gap, leveraging state-of-the-art forecasting techniques, such as forecast combination, meta-learning, and global modelling. We consider different meta-learning architectures, algorithms, and base model pools. Based on all considered model variants, we propose to use a stacking approach with lasso regression which optimally combines the forecasts of four base models: a global Recurrent Neural Network model (RNN), Theta, Trigonometric Box-Cox ARMA Trend Seasonal (TBATS) and Dynamic Harmonic Regression ARIMA (DHR-ARIMA), as it shows the overall best performance across seven experimental weekly datasets on four evaluation metrics. Our proposed method also consistently outperforms a set of benchmarks and state-of-the-art weekly forecasting models by a considerable margin with statistical significance. Our method can produce the most accurate forecasts, in terms of mean sMAPE, for the M4 weekly dataset among all benchmarks and all original competition participants.
翻訳日:2023-12-06 02:22:14 公開日:2023-12-03
# 回帰の確率自由ガウス過程

Likelihood-Free Gaussian Process for Regression ( http://arxiv.org/abs/2006.13456v3 )

ライセンス: Link先を確認
Yuta Shikuri(参考訳) ガウス過程回帰は、その可能性に関する十分な情報が与えられた利子パラメータの後方分布を柔軟に表現することができる。 しかし、場合によっては確率モデルに関する知識がほとんどない場合もある。 例えば、金融機器に投資する場合、キャッシュフローの確率モデルは一般的に不明である。 本稿では,確率自由ガウス過程(LFGP)と呼ばれる新しいフレームワークを提案する。これは,確率関数を直接設定することなく,拡張性のある問題に対する関心パラメータの後方分布を表現できる。 LFGPは、興味パラメータの値をほぼ同一とみなすことのできるクラスタを確立し、最大極大推定器の漸近正規性を用いて、各クラスタにおける関心パラメータの確率をガウスに近似する。 提案手法は,確率モデルに対する仮定と拡張性のある問題に対する計算コストを低減し,可能性のないモデリングに多大な貢献を期待する。

Gaussian process regression can flexibly represent the posterior distribution of an interest parameter given sufficient information on the likelihood. However, in some cases, we have little knowledge regarding the probability model. For example, when investing in a financial instrument, the probability model of cash flow is generally unknown. In this paper, we propose a novel framework called the likelihood-free Gaussian process (LFGP), which allows representation of the posterior distributions of interest parameters for scalable problems without directly setting their likelihood functions. The LFGP establishes clusters in which the value of the interest parameter can be considered approximately identical, and it approximates the likelihood of the interest parameter in each cluster to a Gaussian using the asymptotic normality of the maximum likelihood estimator. We expect that the proposed framework will contribute significantly to likelihood-free modeling, particularly by reducing the assumptions for the probability model and the computational costs for scalable problems.
翻訳日:2023-12-06 02:21:30 公開日:2023-12-03
# 図形因果モデルに基づくデータ駆動因果効果の推定:調査

Data-Driven Causal Effect Estimation Based on Graphical Causal Modelling: A Survey ( http://arxiv.org/abs/2208.09590v2 )

ライセンス: Link先を確認
Debo Cheng and Jiuyong Li and Lin Liu, Jixue Liu, and Thuc Duy Le(参考訳) 科学研究や実世界の多くの分野において、非実験データからの因果効果の偏りのない推定は、データの根底にあるメカニズムを理解し、効果的な反応や介入の意思決定に不可欠である。 さまざまな角度からこの問題に対処するために、多くの研究が行われている。 観測データにおける因果効果を推定するために、マルコフ条件、忠実性、因果満足度などの仮定が常に作成される。 仮定の下では、共変量の集合や基礎となる因果グラフのような完全な知識が通常必要となる。 実用的な課題は、多くのアプリケーションでは、そのような完全な知識や部分的な知識しか利用できないことである。 近年,グラフィカルな因果モデルに基づく探索戦略を用いて,因果効果推定のためのデータから有用な知識を探索する研究が登場し,実用的課題に取り組む上での期待が高まっている。 本稿では,このデータ駆動型手法による単一治療における因果効果推定について検討し,データ駆動型因果効果推定が直面する課題に焦点をあてる。 我々は、グラフィカル因果モデルを用いたデータ駆動因果効果推定に不可欠な基本的な概念と理論を簡潔に要約するが、文献に散らばっている。 我々は,データ駆動因果効果推定が直面する課題を特定し,それらの前提と課題に取り組むアプローチによって既存手法を特徴づける。 我々は,異なる手法の長所と限界を分析し,議論を支援するための経験的評価を行う。 このレビューにより、より多くの研究者が、因果効果推定の難しい問題に対する、グラフィカルな因果モデリングに基づくより良いデータ駆動メソッドを設計する動機となることを期待している。

In many fields of scientific research and real-world applications, unbiased estimation of causal effects from non-experimental data is crucial for understanding the mechanism underlying the data and for decision-making on effective responses or interventions. A great deal of research has been conducted to address this challenging problem from different angles. For estimating causal effect in observational data, assumptions such as Markov condition, faithfulness and causal sufficiency are always made. Under the assumptions, full knowledge such as, a set of covariates or an underlying causal graph, is typically required. A practical challenge is that in many applications, no such full knowledge or only some partial knowledge is available. In recent years, research has emerged to use search strategies based on graphical causal modelling to discover useful knowledge from data for causal effect estimation, with some mild assumptions, and has shown promise in tackling the practical challenge. In this survey, we review these data-driven methods on causal effect estimation for a single treatment with a single outcome of interest and focus on the challenges faced by data-driven causal effect estimation. We concisely summarise the basic concepts and theories that are essential for data-driven causal effect estimation using graphical causal modelling but are scattered around the literature. We identify and discuss the challenges faced by data-driven causal effect estimation and characterise the existing methods by their assumptions and the approaches to tackling the challenges. We analyse the strengths and limitations of the different types of methods and present an empirical evaluation to support the discussions. We hope this review will motivate more researchers to design better data-driven methods based on graphical causal modelling for the challenging problem of causal effect estimation.
翻訳日:2023-12-06 02:14:49 公開日:2023-12-03
# 呼吸音の異常検出のための変分オートエンコーダ

Variational Autoencoders for Anomaly Detection in Respiratory Sounds ( http://arxiv.org/abs/2208.03326v2 )

ライセンス: Link先を確認
Michele Cozzatti, Federico Simonetta, Stavros Ntalampiras(参考訳) 本稿では,患者に呼吸器疾患の可能性を警告するツールを目的とした,弱い教師付き機械学習に基づくアプローチを提案する。 様々な病型が呼吸器系に影響を与え、重篤な疾患や場合によっては死に至る可能性がある。 一般に、患者の健康状態を改善するための効果的な予防実践が主要な要因と考えられている。 提案手法は,呼吸器疾患の自動診断のための簡便なツールの実現を目指している。 具体的には、限られた複雑さと比較的小さなデータセットのトレーニングパイプラインの使用を可能にする変分オートコーダアーキテクチャを利用する。 重要な点として、既存の強く監督されたアプローチと一致した57パーセントの精度を提供する。

This paper proposes a weakly-supervised machine learning-based approach aiming at a tool to alert patients about possible respiratory diseases. Various types of pathologies may affect the respiratory system, potentially leading to severe diseases and, in certain cases, death. In general, effective prevention practices are considered as major actors towards the improvement of the patient's health condition. The proposed method strives to realize an easily accessible tool for the automatic diagnosis of respiratory diseases. Specifically, the method leverages Variational Autoencoder architectures permitting the usage of training pipelines of limited complexity and relatively small-sized datasets. Importantly, it offers an accuracy of 57 %, which is in line with the existing strongly-supervised approaches.
翻訳日:2023-12-06 02:14:20 公開日:2023-12-03
# 新型コロナウイルスの診断・鑑別のための高分解能胸部CTスキャン画像データセット

A High-Resolution Chest CT-Scan Image Dataset for COVID-19 Diagnosis and Differentiation ( http://arxiv.org/abs/2205.03408v2 )

ライセンス: Link先を確認
Iraj Abedi, Mahsa Vali, Bentolhoda Otroshi Shahreza, Hamidreza Bolhasani(参考訳) 新型コロナウイルスのパンデミックの間、CT(Computerd tomography)は新型コロナウイルスの患者を診断するのに良い方法だ。 HRCT(High-Resolution Computed Tomography)は、画像分解能を改善するために高度な手法を用いるCTの一種である。 一般にアクセス可能な新型コロナウイルスのCT画像データセットは、プライバシー上の懸念のため、非常に難しいため、CT画像に基づいたAIによる新型コロナウイルスの診断アルゴリズムの研究と開発を妨げている。 この問題に対処するため、新たにHRCTv1-COVID-19という高解像度胸部CTスキャン画像データセットを導入しました。 HRCTv1-COVID-19データセットには、スライスレベルや患者レベルのラベルが含まれており、特に人工知能アルゴリズム、機械学習、ディープラーニング手法を用いた診断と識別のために、新型コロナウイルスの研究を支援する可能性がある。 このデータセットは、web at: http://databiox.comでアクセスでき、4つのラベルを持つ395人の患者の胸部hrct画像181,106枚を含む。 キーワード-データセット、COVID-19、CTスキャン、CT、医療画像、胸部画像。

During the COVID-19 pandemic, computed tomography (CT) is a good way to diagnose COVID-19 patients. HRCT (High-Resolution Computed Tomography) is a form of computed tomography that uses advanced methods to improve image resolution. Publicly accessible COVID-19 CT image datasets are very difficult to come by due to privacy concerns, which impedes the study and development of AI-powered COVID-19 diagnostic algorithms based on CT images. To address this problem, we have introduced HRCTv1-COVID-19, a new COVID-19 high resolution chest CT Scan image dataset that includes not only COVID-19 cases of Ground Glass Opacity (GGO), Crazy Paving, and Air Space Consolidation, but also CT images of cases with negative COVID-19. The HRCTv1-COVID-19 dataset, which includes slice-level, and patient-level labels, has the potential to aid COVID-19 research, especially for diagnosis and differentiation using artificial intelligence algorithms, machine learning and deep learning methods. This dataset is accessible through web at: http://databiox.com and includes 181,106 chest HRCT images from 395 patients with four labels: GGO, Crazy Paving, Air Space Consolidation and Negative. Keywords- Dataset, COVID-19, CT-Scan, Computed Tomography, Medical Imaging, Chest Image.
翻訳日:2023-12-06 02:11:46 公開日:2023-12-03
# 時間的および/または空間的依存実験に対する政策評価

Policy Evaluation for Temporal and/or Spatial Dependent Experiments ( http://arxiv.org/abs/2202.10887v5 )

ライセンス: Link先を確認
Shikai Luo, Ying Yang, Chengchun Shi, Fang Yao, Jieping Ye, Hongtu Zhu(参考訳) 本研究の目的は,テクノロジー企業が実施する政策とそれらの成果との因果関係を,時間的および/または空間的依存的実験で確立することである。 時間的および/または空間的依存を特徴とする状況における治療効果を効果的に捉えることができる新しい時間的/時空間的変動係数決定プロセス(vcdp)モデルを提案する。 本手法では,平均治療効果(ATE)を直接効果(DE)と間接効果(IE)に分解する。 その後,De と IE の双方を推定・推定するための包括的手順を考案した。 さらに,これらの手法の統計的性質,例えば漸近的パワーの厳密な解析を行う。 提案手法の有効性を実証するため,広範囲なシミュレーションと実データ解析を行った。

The aim of this paper is to establish a causal link between the policies implemented by technology companies and the outcomes they yield within intricate temporal and/or spatial dependent experiments. We propose a novel temporal/spatio-temporal Varying Coefficient Decision Process (VCDP) model, capable of effectively capturing the evolving treatment effects in situations characterized by temporal and/or spatial dependence. Our methodology encompasses the decomposition of the Average Treatment Effect (ATE) into the Direct Effect (DE) and the Indirect Effect (IE). We subsequently devise comprehensive procedures for estimating and making inferences about both DE and IE. Additionally, we provide a rigorous analysis of the statistical properties of these procedures, such as asymptotic power. To substantiate the effectiveness of our approach, we carry out extensive simulations and real data analyses.
翻訳日:2023-12-06 02:10:59 公開日:2023-12-03
# 局所基底関数を用いたガウス過程地形図の空間的スケーラブル再帰的推定

Spatially scalable recursive estimation of Gaussian process terrain maps using local basis functions ( http://arxiv.org/abs/2210.09168v2 )

ライセンス: Link先を確認
Frida Marie Viset, Rudy Helmons and Manon Kok(参考訳) GNSS信号なしでエージェント、人、車、ロボットが未知の環境を移動している場合、エージェントが以前マッピングされた領域に戻ったときに、非線形地形のオンラインマッピングにより位置推定を改善することができる。 オンラインガウス過程(GP)回帰を用いたマッピングアルゴリズムは、通常、同時ローカライゼーションとマッピング(SLAM)のためのアルゴリズムに統合される。 しかし, GPマッピングアルゴリズムは, 空間場の変化に対して面積が拡大するにつれて, 計算需要が増大している。 これは、地図の面積が大きくなるにつれてマップパラメータの増大を推定する必要があるためである。 これとは対照的に,情報フィルタの局所基底関数を用いて空間スケーラビリティを実現する再帰的GPマッピング推定アルゴリズムを提案する。 提案手法は, 有限サポート基底関数のグローバルグリッドを用いるが, 計算を各予測点周辺の局所部分集合に制限する。 提案アルゴリズムは再帰的であるため,SLAMにガウス過程マップを用いる既存のアルゴリズムに自然に組み込むことができる。 磁場SLAMのための拡張カルマンフィルタ(EKF)に提案アルゴリズムを組み込むことで、アルゴリズムの全体的な計算複雑性を低減できる。 提案アルゴリズムは,地図面積が大きい場合の既存手法よりも高速であり,再帰的マッピングタスクと磁場SLAMの両方において,多くの測定値に基づいていることを示す。

When an agent, person, vehicle or robot is moving through an unknown environment without GNSS signals, online mapping of nonlinear terrains can be used to improve position estimates when the agent returns to a previously mapped area. Mapping algorithms using online Gaussian process (GP) regression are commonly integrated in algorithms for simultaneous localisation and mapping (SLAM). However, GP mapping algorithms have increasing computational demands as the mapped area expands relative to spatial field variations. This is due to the need for estimating an increasing amount of map parameters as the area of the map grows. Contrary to this, we propose a recursive GP mapping estimation algorithm which uses local basis functions in an information filter to achieve spatial scalability. Our proposed approximation employs a global grid of finite support basis functions but restricts computations to a localized subset around each prediction point. As our proposed algorithm is recursive, it can naturally be incorporated into existing algorithms that uses Gaussian process maps for SLAM. Incorporating our proposed algorithm into an extended Kalman filter (EKF) for magnetic field SLAM reduces the overall computational complexity of the algorithm. We show experimentally that our algorithm is faster than existing methods when the mapped area is large and the map is based on many measurements, both for recursive mapping tasks and for magnetic field SLAM.
翻訳日:2023-12-06 02:04:47 公開日:2023-12-03
# 局所的操作と古典的コミュニケーションにおける三部交絡測度

Tripartite entanglement measure under local operations and classical communication ( http://arxiv.org/abs/2210.06700v2 )

ライセンス: Link先を確認
Xiaozhen Ge, Lijun Liu, and Shuming Cheng(参考訳) 多元的絡み合いは量子通信や計算において必須の資源であるが、この多元的量子システムの大域的性質を忠実に定量化することは難しい課題である。 本研究では,[S] の3ビット系における真の三部構造エンタングルメントを測る幾何学的解釈を許容するコンカレンスフィリングについて検討する。 xie (複数形 xies) とPhys。 Rev. Lett. 略称は127。 040403 (2021)]. 第一に、我々はよく知られた三角形と二成分の共役を用いて、この量子化器をすべての純粋状態に対して再構成する。 次に、局所的な操作と古典的通信(LOCC)により、コンカレンスフィリングが増大できることを確定的に示す明示的な例を構築し、アンタングルメントモノトンではないことを示唆する。 さらに, 3-三角形のLOCC単調性の簡単な証明を行い, 両部共起と正方形が同一のLOCCの下で異なる性能を持つことを示す。 最後に,多成分系に容易に一般化できる真の三成分絡み合いを定量化するための信頼性の高いモノトーンを提案する。 その結果、真の絡み合いの研究に光を当て、マルチパーティイトシステムの複雑な構造を明らかにした。

Multipartite entanglement is an indispensable resource in quantum communication and computation, however, it is a challenging task to faithfully quantify this global property of multipartite quantum systems. In this work, we study the concurrence fill, which admits a geometric interpretation to measure genuine tripartite entanglement for the three-qubit system in [S. Xie {\it et al.}, Phys. Rev. Lett. \textbf{127}. 040403 (2021)]. First, we use the well-known three-tangle and bipartite concurrence to reformulate this quantifier for all pure states. We then construct an explicit example to conclusively show the concurrence fill can be increased under local operation and classical communications (LOCCs) {\it on average}, implying it is not an entanglement monotone. Moreover, we give a simple proof of the LOCC-monotonicity of three-tangle and find that the bipartite concurrence and the squared can have distinct performances under the same LOCCs. Finally, we propose a reliable monotone to quantify genuine tripartite entanglement, which can also be easily generalised to the multipartite system. Our results shed light on studying genuine entanglement and also reveal the complex structure of multipartite systems.
翻訳日:2023-12-06 02:03:44 公開日:2023-12-03
# データをAtomとして表現する:データ表現を識別するためのサンプル内およびサンプル間関係の統合

Representing Data as Atoms: Unifying Intra- and Inter-Sample Relationship to Discretize Data Representation ( http://arxiv.org/abs/2210.03728v2 )

ライセンス: Link先を確認
Yi-Lin Tuan, Zih-Yun Chiu, William Yang Wang(参考訳) データ表現の質は、モデルの性能にとって最重要である。 近年の研究では,個々のデータポイントのサンプル内構造,例えば局所的およびグローバル的注意の情報を取り入れることで,表現学習の強化に重点を置いている。 さらに研究者は、多様体、対比的、離散的表現学習を含むサンプル間関係をモデル化する方法を探求している。 本研究では, サンプル内構造とサンプル間関係の両方を考慮し, データポイントを表現するために, {\it 原子の概念を活用する新たなトレーニング損失を導入する。 この新しいアプローチである {\it atom modeling} は、連続空間内のデータ表現を識別するための新しい視点を提供する。 実験を通じて、atomモデリングは、ビジョンや言語を含む様々な領域にわたって、分類や生成に関わるタスクにおける既存のモデルのパフォーマンスを高めることを実証する。 これらの知見は、データ表現を強化し、モデル学習を改善するAtom Modelingの可能性を強調し、将来の研究の有望な方向性を示唆している。

The quality of data representation is paramount for the performance of a model. Recent research has focused on enhancing representation learning by incorporating more information about the intra-sample structures of individual data points, such as local and global attention. Additionally, researchers have explored methods to model the inter-sample relationships, including manifold, contrastive, and discrete representation learning. In this study, we introduce a new training loss, which considers both intra-sample structure and inter-sample relationships, leveraging the concept of {\it atoms} to represent data points. This new approach, {\it Atom Modeling}, offers a fresh perspective to discretize data representations within a continuous space. Through experiments, we demonstrate that Atom Modeling enhances the performance of existing models in tasks involving classification and generation, across diverse domains including vision and language. These findings underscore the potential of Atom Modeling to enhance data representation and improve model learning, suggesting a promising direction for future research.
翻訳日:2023-12-06 02:03:03 公開日:2023-12-03
# 新しい合成データセットを用いたエンサンブル機械学習モデルによるウェアラブルデバイスを用いたストレス予測

Ensemble Machine Learning Model Trained on a New Synthesized Dataset Generalizes Well for Stress Prediction Using Wearable Devices ( http://arxiv.org/abs/2209.15146v2 )

ライセンス: Link先を確認
Gideon Vos, Kelly Trinh, Zoltan Sarnyai, Mostafa Rahimi Azghadi(参考訳) はじめに。 本研究では,少数の被験者を含むデータセット上に構築されたモデルの一般化能力について検討した。 次に,これらのデータセットを1つの大きなデータセットに組み合わせた手法を提案し,評価する。 最後に,新たな未知のデータに対する予測パワーを測定するために,勾配押し上げと人工ニューラルネットワークを組み合わせたアンサンブル手法を提案する。 メソッド。 本研究では,6つの公開データセットのセンサバイオマーカーデータを利用した。 モデルの一般化をテストするために,1つのデータセット(swell)でトレーニングされた勾配ブースティングモデルを開発し,他の研究で使用されていた2つのデータセット(wesad,neuro)でその予測能力をテストした。 次に、4つの小さなデータセット(SWELL, NEURO, WESAD, UBFC-Phys)を統合し、合計99の被験者を提供した。 さらに、ランダムサンプリングと他のデータセット(EXAM)を組み合わせて、200の合成対象からなるより大きなトレーニングデータセットを構築した。 最後に,勾配ブースティングモデルとニューラルネットワークを組み合わせたアンサンブルモデルを開発し,公開されていない2つのストレスデータセット(wesadとtoadstool)でテストした。 結果だ 提案手法は,新しい未確認検証データに対して85%の予測精度を達成し,小さなデータセットでトレーニングした単一モデルに対して25%の性能向上を実現する。 結論だ 小さな単一の研究プロトコルデータセットで訓練されたモデルは、新しい、目に見えないデータでの使用に適せず、統計力に欠ける。 多様な研究対象を含むデータセットに基づいてトレーニングされたマシーン学習モデルは、生理的差異をよりよく捉え、より堅牢なストレス検出をもたらす。

Introduction. We investigate the generalization ability of models built on datasets containing a small number of subjects, recorded in single study protocols. Next, we propose and evaluate methods combining these datasets into a single, large dataset. Finally, we propose and evaluate the use of ensemble techniques by combining gradient boosting with an artificial neural network to measure predictive power on new, unseen data. Methods. Sensor biomarker data from six public datasets were utilized in this study. To test model generalization, we developed a gradient boosting model trained on one dataset (SWELL), and tested its predictive power on two datasets previously used in other studies (WESAD, NEURO). Next, we merged four small datasets, i.e. (SWELL, NEURO, WESAD, UBFC-Phys), to provide a combined total of 99 subjects,. In addition, we utilized random sampling combined with another dataset (EXAM) to build a larger training dataset consisting of 200 synthesized subjects,. Finally, we developed an ensemble model that combines our gradient boosting model with an artificial neural network, and tested it on two additional, unseen publicly available stress datasets (WESAD and Toadstool). Results. Our method delivers a robust stress measurement system capable of achieving 85% predictive accuracy on new, unseen validation data, achieving a 25% performance improvement over single models trained on small datasets. Conclusion. Models trained on small, single study protocol datasets do not generalize well for use on new, unseen data and lack statistical power. Ma-chine learning models trained on a dataset containing a larger number of varied study subjects capture physiological variance better, resulting in more robust stress detection.
翻訳日:2023-12-06 02:02:06 公開日:2023-12-03
# platypusってどんな感じ? ゼロショット画像分類のためのカスタマイズプロンプトの生成

What does a platypus look like? Generating customized prompts for zero-shot image classification ( http://arxiv.org/abs/2209.03320v3 )

ライセンス: Link先を確認
Sarah Pratt, Ian Covert, Rosanne Liu, Ali Farhadi(参考訳) オープン語彙モデルは画像分類の新しいパラダイムである。 従来の分類モデルとは異なり、オープン語彙モデルは推論中に自然言語で指定された任意のカテゴリの集合を分類する。 この自然言語は "prompts" と呼ばれ、典型的には手書きのテンプレート(例えば "a photo of a {}")で構成されており、それぞれのカテゴリ名で完結している。 本研究は,タスク領域の明示的な知識を必要とせず,手書き文をはるかに少なくして,高精度なプロンプトを生成するための簡易な手法を提案する。 これを実現するために、オープン語彙モデルと大きな言語モデル(LLM)を組み合わせて、言語モデル(CuPL)によるカスタマイズプロンプトを作成する。 特に、llmに含まれる知識を活用して、画像カテゴリの重要な識別特性を含む多くの記述文を生成する。 これにより、予測を行う際に、モデルが画像内のこれらの領域をより重要にすることができる。 この単純で一般的なアプローチは、画像ネットの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を向上させる。 最後に、この単純なベースラインは追加のトレーニングを必要とせず、完全にゼロショットのままである。 コードはhttps://github.com/sarahpratt/cupl。

Open-vocabulary models are a promising new paradigm for image classification. Unlike traditional classification models, open-vocabulary models classify among any arbitrary set of categories specified with natural language during inference. This natural language, called "prompts", typically consists of a set of hand-written templates (e.g., "a photo of a {}") which are completed with each of the category names. This work introduces a simple method to generate higher accuracy prompts, without relying on any explicit knowledge of the task domain and with far fewer hand-constructed sentences. To achieve this, we combine open-vocabulary models with large language models (LLMs) to create Customized Prompts via Language models (CuPL, pronounced "couple"). In particular, we leverage the knowledge contained in LLMs in order to generate many descriptive sentences that contain important discriminating characteristics of the image categories. This allows the model to place a greater importance on these regions in the image when making predictions. We find that this straightforward and general approach improves accuracy on a range of zero-shot image classification benchmarks, including over one percentage point gain on ImageNet. Finally, this simple baseline requires no additional training and remains completely zero-shot. Code available at https://github.com/sarahpratt/CuPL.
翻訳日:2023-12-06 02:01:27 公開日:2023-12-03
# Wigner-Araki-Yanase theorem for continuous and unbounded conservedservables

Wigner-Araki-Yanase theorem for continuous and unbounded conserved observables ( http://arxiv.org/abs/2208.13494v3 )

ライセンス: Link先を確認
Yui Kuramochi and Hiroyasu Tajima(参考訳) Wigner-Araki-Yanase (WAY) の定理は、加法保存法則は、正確に実装可能な射影測度の可換性とシステムの保存可能な可観測性を示唆していると述べている。 この定理の既知の証明は、系の有界あるいは離散スペクトル保存可観測物にのみ制限され、運動量作用素のような非有界かつ連続な可観測物には適用できない。 このレターでは、ヤナゼ条件の下での有界かつ連続な保存可観測物に対するWAY定理を示し、これはプローブ正の作用素値測度がプローブ系の保存可観測物と可換であることが要求される。 この定理の結果、運動量保存下での位置の投影的測定と、線形光学系と光子カウンタを用いた二次振幅の正確な実装は不可能であることが示された。 また、保存法の下でのユニタリチャネルの実装も検討し、保存可能な$L_S$と実装されたユニタリ$U_S$が半有界である場合、$L_S$が半有界であり、$U_S^\dagger L_S U_S$は、$L_S$のスペクトルが上値と下値のアン有界である場合、非ゼロ定数因子にシフトできることを示した。 後者の場合の単純な例で、$L_S$ は運動量作用素である。

The Wigner-Araki-Yanase (WAY) theorem states that additive conservation laws imply the commutativity of exactly implementable projective measurements and the conserved observables of the system. Known proofs of this theorem are only restricted to bounded or discrete-spectrum conserved observables of the system and are not applicable to unbounded and continuous observables like a momentum operator. In this Letter, we present the WAY theorem for possibly unbounded and continuous conserved observables under the Yanase condition, which requires that the probe positive operator-valued measure should commute with the conserved observable of the probe system. As a result of this WAY theorem, we show that exact implementations of the projective measurement of the position under momentum conservation and of the quadrature amplitude using linear optical instruments and photon counters are impossible. We also consider implementations of unitary channels under conservation laws and find that the conserved observable $L_S$ of the system commute with the implemented unitary $U_S$ if $L_S$ is semi-bounded, while $U_S^\dagger L_S U_S$ can shift up to possibly non-zero constant factor if the spectrum of $L_S$ is upper and lower unbounded. We give simple examples of the latter case, where $L_S$ is a momentum operator.
翻訳日:2023-12-06 02:00:26 公開日:2023-12-03
# 強化学習における信号時間論理タスクのためのファンネルに基づく逆整形

Funnel-based Reward Shaping for Signal Temporal Logic Tasks in Reinforcement Learning ( http://arxiv.org/abs/2212.03181v3 )

ライセンス: Link先を確認
Naman Saxena, Gorantla Sandeep, Pushpak Jagtap(参考訳) Signal Temporal Logic (STL) は力学系の複雑な時間的・論理的な振る舞いを記述するための強力なフレームワークである。 多くの研究が強化学習を用いてSTL仕様を強制するコントローラを学習しているが、持続的な状態空間における堅牢な満足とトラクタビリティの維持という課題に効果的に対処することはできなかった。 本稿では, ファンネル関数の概念を活かし, 連続状態空間におけるstl仕様の頑健な満足のための時間依存ポリシーを学習するための拡張学習アルゴリズムを提案する。 異なる環境を用いて複数のSTLタスクにアプローチの有効性を示す。

Signal Temporal Logic (STL) is a powerful framework for describing the complex temporal and logical behaviour of the dynamical system. Numerous studies have attempted to employ reinforcement learning to learn a controller that enforces STL specifications; however, they have been unable to effectively tackle the challenges of ensuring robust satisfaction in continuous state space and maintaining tractability. In this paper, leveraging the concept of funnel functions, we propose a tractable reinforcement learning algorithm to learn a time-dependent policy for robust satisfaction of STL specification in continuous state space. We demonstrate the utility of our approach on several STL tasks using different environments.
翻訳日:2023-12-06 01:52:40 公開日:2023-12-03
# 悪い解決策は稀なので、高過パラメータのニューラルネットワークは一般化するのか?

Do highly over-parameterized neural networks generalize since bad solutions are rare? ( http://arxiv.org/abs/2211.03570v4 )

ライセンス: Link先を確認
Julius Martinetz, Thomas Martinetz(参考訳) 本研究では,経験的リスク最小化(ERM)が学習誤差をゼロにする過パラメータ分類器について検討する。 このような過度なパラメータ設定では、トレーニングエラーがゼロのグローバルなミニマが多数存在する。 ある条件下では、真の誤差が {\epsilon} より大きい「悪い」大域最小値の分数は、訓練データ n の個数で指数関数的にゼロに崩壊することを示す。 境界は、与えられた分類問題に使用される分類子関数の集合上の真の誤差の分布に依存し、必ずしも分類子関数集合のサイズや複雑さ(例えばパラメータの数)に依存するとは限らない。 この洞察は、高度に超パラメータ化されたニューラルネットワークであっても、予期せぬほどよい一般化に関する新しい視点をもたらすかもしれない。 我々は、合成データとMNISTのサブセットに関する実験を通じて、理論的な知見を裏付ける。 さらに,VGG19とResNet18をCaltech101のサブセットで評価した。

We study over-parameterized classifiers where Empirical Risk Minimization (ERM) for learning leads to zero training error. In these over-parameterized settings there are many global minima with zero training error, some of which generalize better than others. We show that under certain conditions the fraction of "bad" global minima with a true error larger than {\epsilon} decays to zero exponentially fast with the number of training data n. The bound depends on the distribution of the true error over the set of classifier functions used for the given classification problem, and does not necessarily depend on the size or complexity (e.g. the number of parameters) of the classifier function set. This insight may provide a novel perspective on the unexpectedly good generalization even of highly over-parameterized neural networks. We substantiate our theoretical findings through experiments on synthetic data and a subset of MNIST. Additionally, we assess our hypothesis using VGG19 and ResNet18 on a subset of Caltech101.
翻訳日:2023-12-06 01:51:23 公開日:2023-12-03
# 実用的理解のgoldilocks: llmsによる乗法解決のための微調整戦略

The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs ( http://arxiv.org/abs/2210.14986v2 )

ライセンス: Link先を確認
Laura Ruis, Akbir Khan, Stella Biderman, Sara Hooker, Tim Rockt\"aschel, Edward Grefenstette(参考訳) LLMを会話エージェントとして広く使用しているにもかかわらず、パフォーマンス評価は、言語を文脈で解釈する、という重要なコミュニケーションの側面を捉えていない。 人間は世界に関する信念と事前知識を使って言語を解釈する。 例えば、"did you leave fingerprints"という質問に対する"i wearing gloves"の反応を直感的に理解しています。 llmsがこのような推論を行う能力があるかどうかを調べるために,我々は単純なタスクを設計し,広く使われている最先端モデルの4つのカテゴリを評価する。 2進推論(yes or no)を必要とする発話のみを評価するにもかかわらず、これらのカテゴリの3つのモデルはランダムに近い性能を示す。 しかし、実例レベルで調整されたLLMでは、性能が大幅に向上した。 これらの結果は、特定の微調整戦略がモデルの実用的理解を誘導するのにはるかに優れていることを示唆している。 本研究は,llmsが文脈における言語をどのように解釈するかを評価するためのさらなる研究の出発点として,より実用的かつ有用な人間の談話のモデルの開発を推進する。

Despite widespread use of LLMs as conversational agents, evaluations of performance fail to capture a crucial aspect of communication: interpreting language in context -- incorporating its pragmatics. Humans interpret language using beliefs and prior knowledge about the world. For example, we intuitively understand the response "I wore gloves" to the question "Did you leave fingerprints?" as meaning "No". To investigate whether LLMs have the ability to make this type of inference, known as an implicature, we design a simple task and evaluate four categories of widely used state-of-the-art models. We find that, despite only evaluating on utterances that require a binary inference (yes or no), models in three of these categories perform close to random. However, LLMs instruction-tuned at the example-level perform significantly better. These results suggest that certain fine-tuning strategies are far better at inducing pragmatic understanding in models. We present our findings as the starting point for further research into evaluating how LLMs interpret language in context and to drive the development of more pragmatic and useful models of human discourse.
翻訳日:2023-12-06 01:50:39 公開日:2023-12-03
# 物理インフォームド深部拡散MRIの合成データによる再構成:人工知能におけるブレークトレーニングデータ

Physics-informed Deep Diffusion MRI Reconstruction with Synthetic Data: Break Training Data Bottleneck in Artificial Intelligence ( http://arxiv.org/abs/2210.11388v4 )

ライセンス: Link先を確認
Chen Qian, Yuncheng Gao, Mingyang Han, Zi Wang, Dan Ruan, Yu Shen, Yiping Wu, Yirong Zhou, Chengyan Wang, Boyu Jiang, Ran Tao, Zhigang Wu, Jiazheng Wang, Liuhong Zhu, Yi Guo, Taishan Kang, Jianzhong Lin, Tao Gong, Chen Yang, Guoqiang Fei, Meijin Lin, Di Guo, Jianjun Zhou, Meiyun Wang, and Xiaobo Qu(参考訳) 拡散磁気共鳴イメージング(MRI)は、生体内水分子の非侵襲的な移動検出のための唯一の画像モダリティであり、臨床および研究に重要な応用がある。 マルチショット技術によって取得された拡散MRI(DWI)は、高分解能、信号と雑音の比が良く、幾何歪みが単ショットよりも小さいが、ショット間動きによって引き起こされるアーティファクトに悩まされる。 これらのアーティファクトは将来的に除去できないため、アーティファクトフリーのトレーニングラベルがない。 したがって,マルチショットDWI再構成における深層学習の可能性は未解決のままである。 そこで本研究では,物理拡散モデル(マグニチュード合成)とショット間動き誘導位相モデル(モーションフェーズ合成)を利用して,高品質なペアリングトレーニングデータを合成するための物理インフォームドディープDWI再構成法を提案する。 ネットワークは10万の合成サンプルで一度だけ訓練され、複数の現実的な生体内データ再構成の結果が得られた。 従来の方法に対する利点は以下のとおりである。 a) より優れたモーションアーティファクトの抑制と再構築の安定性 b)マルチレゾリューション,マルチb値,マルチアンサンプサンプリング,マルチベンダ,マルチセンタを含む,マルチセナリオ再構築の卓越した一般化 c) 7名の経験者(p<0.001)による検証患者に対する優れた臨床適応性(p<0.001) 結論として、piddはmri物理学の力を活用し、ディープラーニング医療画像におけるデータのボトルネックを破るコスト効率が高く説明可能な方法を提供する、新しいディープラーニングフレームワークを提案する。

Diffusion magnetic resonance imaging (MRI) is the only imaging modality for non-invasive movement detection of in vivo water molecules, with significant clinical and research applications. Diffusion MRI (DWI) acquired by multi-shot techniques can achieve higher resolution, better signal-to-noise ratio, and lower geometric distortion than single-shot, but suffers from inter-shot motion-induced artifacts. These artifacts cannot be removed prospectively, leading to the absence of artifact-free training labels. Thus, the potential of deep learning in multi-shot DWI reconstruction remains largely untapped. To break the training data bottleneck, here, we propose a Physics-Informed Deep DWI reconstruction method (PIDD) to synthesize high-quality paired training data by leveraging the physical diffusion model (magnitude synthesis) and inter-shot motion-induced phase model (motion phase synthesis). The network is trained only once with 100,000 synthetic samples, achieving encouraging results on multiple realistic in vivo data reconstructions. Advantages over conventional methods include: (a) Better motion artifact suppression and reconstruction stability; (b) Outstanding generalization to multi-scenario reconstructions, including multi-resolution, multi-b-value, multi-undersampling, multi-vendor, and multi-center; (c) Excellent clinical adaptability to patients with verifications by seven experienced doctors (p<0.001). In conclusion, PIDD presents a novel deep learning framework by exploiting the power of MRI physics, providing a cost-effective and explainable way to break the data bottleneck in deep learning medical imaging.
翻訳日:2023-12-06 01:48:17 公開日:2023-12-03
# テキスト誘導型タンパク質設計フレームワーク

A Text-guided Protein Design Framework ( http://arxiv.org/abs/2302.04611v2 )

ライセンス: Link先を確認
Shengchao Liu, Yanjing Li, Zhuoxinran Li, Anthony Gitter, Yutao Zhu, Jiarui Lu, Zhao Xu, Weili Nie, Arvind Ramanathan, Chaowei Xiao, Jian Tang, Hongyu Guo, Anima Anandkumar(参考訳) 現在のAI支援タンパク質の設計は、主にタンパク質シーケンシャルおよび構造情報を利用する。 一方、タンパク質の高レベルの機能を記述するテキスト形式には、人間による膨大な知識が存在する。 しかし、このようなテキストデータの組み入れがタンパク質設計のタスクに役立つかどうかはまだ検討されていない。 このギャップを埋めるために,タンパク質設計にテキスト記述を利用するマルチモーダルフレームワークであるproteindtを提案する。 タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。 ProteinDTをトレーニングするために,441Kテキストとタンパク質ペアを備えた大規模なデータセットSwissProtCLAPを構築した。 1) テキスト誘導タンパク質生成における90%以上の精度, (2) ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率, 3) タンパク質特性予測ベンチマーク6点中4点の優れた性能,の3つの課題に対して,proteindtの有効性を定量的に検証した。

Current AI-assisted protein design mainly utilizes protein sequential and structural information. Meanwhile, there exists tremendous knowledge curated by humans in the text format describing proteins' high-level functionalities. Yet, whether the incorporation of such text data can help protein design tasks has not been explored. To bridge this gap, we propose ProteinDT, a multi-modal framework that leverages textual descriptions for protein design. ProteinDT consists of three subsequent steps: ProteinCLAP which aligns the representation of two modalities, a facilitator that generates the protein representation from the text modality, and a decoder that creates the protein sequences from the representation. To train ProteinDT, we construct a large dataset, SwissProtCLAP, with 441K text and protein pairs. We quantitatively verify the effectiveness of ProteinDT on three challenging tasks: (1) over 90\% accuracy for text-guided protein generation; (2) best hit ratio on 10 zero-shot text-guided protein editing tasks; (3) superior performance on four out of six protein property prediction benchmarks.
翻訳日:2023-12-06 01:40:53 公開日:2023-12-03
# 特徴様スコア:サンプルを用いた生成モデルの一般化の評価

Feature Likelihood Score: Evaluating the Generalization of Generative Models Using Samples ( http://arxiv.org/abs/2302.04440v3 )

ライセンス: Link先を確認
Marco Jiralerspong, Avishek Joey Bose, Ian Gemp, Chongli Qin, Yoram Bachrach, Gauthier Gidel(参考訳) ここ数年、高次元、複雑、フォトリアリスティックなデータを生成できる深層生成モデルの開発が目覚ましい進歩を遂げてきた。 しかし、これらのモデルを評価する現在の方法は不完全である: 標準的確率ベースメトリクスは必ずしも適用されておらず、知覚的忠実度とほとんど相関しないが、fidのようなサンプルベースメトリクスは過剰フィッティング、すなわちトレーニングセットを超えて一般化できないことに敏感である。 これらの限界に対処するために,密度推定を用いたパラメトリック・サンプルベーススコアであるfeature likelihood score(fls)という新しい指標を提案し,新しさ(すなわち,トレーニングサンプルとは異なる),忠実度,生成サンプルの多様性を考慮した包括的トライコトミック評価を提供する。 我々は,以前提案していたメトリクスが失敗した場合に,特定のオーバーフィッティング問題をflsが特定できることを実証的に実証する。 また,様々な画像データセットとモデルクラスのflsを広範囲に評価し,fidのような過去の指標の直観とマッチする能力を示し,生成モデルのより包括的評価を提供する。 コードはhttps://github.com/marcojira/flsで入手できる。

The past few years have seen impressive progress in the development of deep generative models capable of producing high-dimensional, complex, and photo-realistic data. However, current methods for evaluating such models remain incomplete: standard likelihood-based metrics do not always apply and rarely correlate with perceptual fidelity, while sample-based metrics, such as FID, are insensitive to overfitting, i.e., inability to generalize beyond the training set. To address these limitations, we propose a new metric called the Feature Likelihood Score (FLS), a parametric sample-based score that uses density estimation to provide a comprehensive trichotomic evaluation accounting for novelty (i.e., different from the training samples), fidelity, and diversity of generated samples. We empirically demonstrate the ability of FLS to identify specific overfitting problem cases, where previously proposed metrics fail. We also extensively evaluate FLS on various image datasets and model classes, demonstrating its ability to match intuitions of previous metrics like FID while offering a more comprehensive evaluation of generative models. Code is available at https://github.com/marcojira/fls.
翻訳日:2023-12-06 01:40:30 公開日:2023-12-03
# 顔分析CNNにおけるカーネルサイズと一般化バイアスのリンク

Linking convolutional kernel size to generalization bias in face analysis CNNs ( http://arxiv.org/abs/2302.03750v2 )

ライセンス: Link先を確認
Hao Liang, Josue Ortega Caro, Vikram Maheshri, Ankit B. Patel, Guha Balakrishnan(参考訳) トレーニングデータセットバイアスは、ニューラルネットワークのアルゴリズムバイアスを説明する際に最も精査された要因である。 対照的に、ニューラルネットワークアーキテクチャに関連するハイパーパラメータは、異なるネットワークパラメータ化が学習した特徴に対して異なる暗黙バイアスを引き起こすことが知られているにもかかわらず、ほとんど無視されている。 例えば、畳み込みカーネルのサイズはcnnで学習された特徴の頻度に影響することが知られている。 本稿では,アーキテクチャハイパーパラメータと分散アルゴリズムバイアスをリンクする因果的フレームワークを提案する。 私たちのフレームワークは実験的であり、特定のハイパーパラメーターに介入したネットワークのいくつかのバージョンをトレーニングし、特定の分散イメージ摂動が適用された場合のパフォーマンスバイアスに対するこの選択の因果効果を測定する。 実験では, コンボリューショナルカーネルサイズと, 異なるサブポピュレーション(レース/ジェンダー)にまたがる顔の分類バイアスの因果関係を, 高周波画像の詳細に関して測定することに着目した。 CNNの1層であっても、カーネルサイズを変更することで、データサブグループ間で学習機能の周波数内容が大幅に変化し、バランスの取れたデータセットが存在する場合でも、偏りのある一般化性能が得られることを示す。

Training dataset biases are by far the most scrutinized factors when explaining algorithmic biases of neural networks. In contrast, hyperparameters related to the neural network architecture have largely been ignored even though different network parameterizations are known to induce different implicit biases over learned features. For example, convolutional kernel size is known to affect the frequency content of features learned in CNNs. In this work, we present a causal framework for linking an architectural hyperparameter to out-of-distribution algorithmic bias. Our framework is experimental, in that we train several versions of a network with an intervention to a specific hyperparameter, and measure the resulting causal effect of this choice on performance bias when a particular out-of-distribution image perturbation is applied. In our experiments, we focused on measuring the causal relationship between convolutional kernel size and face analysis classification bias across different subpopulations (race/gender), with respect to high-frequency image details. We show that modifying kernel size, even in one layer of a CNN, changes the frequency content of learned features significantly across data subgroups leading to biased generalization performance even in the presence of a balanced dataset.
翻訳日:2023-12-06 01:40:10 公開日:2023-12-03
# odosフィルタと深層学習ネットワークを用いた医用画像の線形オブジェクトセグメンテーション

Curvilinear object segmentation in medical images based on ODoS filter and deep learning network ( http://arxiv.org/abs/2301.07475v3 )

ライセンス: Link先を確認
Yuanyuan Peng, Lin Pan, Pengpeng Luan, Hongbin Tu, Xiong Li(参考訳) 医用画像における線状物体の自動分割は、人体疾患の診断・評価において重要な役割を果たすが、様々な画像の出現、線状物体とその周辺背景のコントラストの低さ、細く不均一な線状構造、不適切な背景照明条件など、様々な問題により、複雑な分節作業において不確実である。 これらの課題を克服するために,スティック(ODoS)フィルタの指向微分に基づく独自のカービリニア構造セグメンテーションフレームワークと,医用画像におけるカービリニアオブジェクトセグメンテーションのためのディープラーニングネットワークを提案する。 現在、多くのディープラーニングモデルは、深いアーキテクチャの開発を強調し、カービリニアオブジェクトの構造的特徴のキャプチャーを無視し、満足のいく結果をもたらす可能性がある。 その結果、深層学習ネットワークの一部としてODoSフィルタを組み込んだ新しい手法が提案され、曲線オブジェクトの空間的注意度が向上する。 具体的には、入力画像をODoSフィルタで構築した4チャンネル画像に転送する。 原画像は、様々な画像の外観や複雑な背景照明条件を記述する主部分とされ、カービリニアオブジェクトとその周辺背景とのコントラストを高めるための多段階戦略を用いて、細いカービリニア構造と不均一なカービリニア構造を識別するためにベクトル場を適用する。 その後、深層学習の枠組みを用いて、医用画像のクルビリニアオブジェクトセグメンテーションのための様々な構造的特徴を抽出する。 計算モデルの性能は、公開されているDRIVE、STARE、CHASEDB1データセットで実施された実験で検証される。 実験結果から,提案モデルでは,いくつかの最先端手法と比較して,驚くべき結果が得られた。

Automatic segmentation of curvilinear objects in medical images plays an important role in the diagnosis and evaluation of human diseases, yet it is a challenging uncertainty in the complex segmentation tasks due to different issues such as various image appearances, low contrast between curvilinear objects and their surrounding backgrounds, thin and uneven curvilinear structures, and improper background illumination conditions. To overcome these challenges, we present a unique curvilinear structure segmentation framework based on an oriented derivative of stick (ODoS) filter and a deep learning network for curvilinear object segmentation in medical images. Currently, a large number of deep learning models emphasize developing deep architectures and ignore capturing the structural features of curvilinear objects, which may lead to unsatisfactory results. Consequently, a new approach that incorporates an ODoS filter as part of a deep learning network is presented to improve the spatial attention of curvilinear objects. Specifically, the input image is transfered into four-channel image constructed by the ODoS filter. In which, the original image is considered the principal part to describe various image appearance and complex background illumination conditions, a multi-step strategy is used to enhance the contrast between curvilinear objects and their surrounding backgrounds, and a vector field is applied to discriminate thin and uneven curvilinear structures. Subsequently, a deep learning framework is employed to extract various structural features for curvilinear object segmentation in medical images. The performance of the computational model is validated in experiments conducted on the publicly available DRIVE, STARE and CHASEDB1 datasets. The experimental results indicate that the presented model yields surprising results compared with those of some state-of-the-art methods.
翻訳日:2023-12-06 01:38:32 公開日:2023-12-03
# テキスト検索と編集のためのマルチモーダル分子構造テキストモデル

Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing ( http://arxiv.org/abs/2212.10789v2 )

ライセンス: Link先を確認
Shengchao Liu, Weili Nie, Chengpeng Wang, Jiarui Lu, Zhuoran Qiao, Ling Liu, Jian Tang, Chaowei Xiao, Anima Anandkumar(参考訳) 薬物発見における人工知能の採用が増加している。 しかし、既存の研究では機械学習を用いて分子の化学構造を主に利用しているが、化学で得られる膨大な知識を無視している。 テキスト知識を取り入れることで,新しい薬物設計目標の実現,テキストに基づく指示の適応,複雑な生物活動の予測が可能になる。 本稿では,分子の化学構造とテキスト記述を対照的な学習戦略により共同で学習することで,マルチモーダルな分子構造テキストモデル,MoleculeSTMを提案する。 MoleculeSTMをトレーニングするために,280,000以上の化学構造テキストペアを持つPubChemSTMという,大規模なマルチモーダルデータセットを構築した。 MoleculeSTMの有効性と有用性を示すために、構造テキスト検索や分子編集を含むテキスト命令に基づく2つの難易度ゼロショットタスクを設計する。 MoleculeSTMには、オープン語彙と自然言語による構成性という2つの主要な性質がある。 実験において、分子STMは様々なベンチマークで新しい生化学的概念を創出する最先端の一般化能力を得る。

There is increasing adoption of artificial intelligence in drug discovery. However, existing studies use machine learning to mainly utilize the chemical structures of molecules but ignore the vast textual knowledge available in chemistry. Incorporating textual knowledge enables us to realize new drug design objectives, adapt to text-based instructions and predict complex biological activities. Here we present a multi-modal molecule structure-text model, MoleculeSTM, by jointly learning molecules' chemical structures and textual descriptions via a contrastive learning strategy. To train MoleculeSTM, we construct a large multi-modal dataset, namely, PubChemSTM, with over 280,000 chemical structure-text pairs. To demonstrate the effectiveness and utility of MoleculeSTM, we design two challenging zero-shot tasks based on text instructions, including structure-text retrieval and molecule editing. MoleculeSTM has two main properties: open vocabulary and compositionality via natural language. In experiments, MoleculeSTM obtains the state-of-the-art generalization ability to novel biochemical concepts across various benchmarks.
翻訳日:2023-12-06 01:36:33 公開日:2023-12-03
# DiffMesh:ビデオから人間のメッシュを回収するモーション対応拡散型フレームワーク

DiffMesh: A Motion-aware Diffusion-like Framework for Human Mesh Recovery from Videos ( http://arxiv.org/abs/2303.13397v3 )

ライセンス: Link先を確認
Ce Zheng, Xianpeng Liu, Mengyuan Liu, Tianfu Wu, Guo-Jun Qi, Chen Chen(参考訳) human mesh recovery(hmr)は、現実世界のさまざまなアプリケーションに対して、豊富な人体情報を提供する。 画像に基づくHMR法は目覚ましい結果を得たが、動的シナリオにおいて人間の回復に苦慮することが多く、時間的不整合や人間の動きの欠如による非滑らかな3次元運動予測につながる。 対照的に、ビデオベースのアプローチはこの問題を緩和するために時間的情報を活用する。 本稿では,ビデオベースhmrのための革新的な動き認識拡散ライクなフレームワークdiffmeshを提案する。 DiffMeshは、拡散モデルと人間の動きの間の橋渡しを確立し、人間の動きを前方プロセスに組み込んで正確な出力メッシュシーケンスを効率よく生成し、拡散モデルに逆処理を組み込む。 Human3.6M \cite{h36m_pami} と 3DPW \cite{pw3d2018} は、我々のDiffMeshの有効性と効率を示す。 実世界のシナリオにおけるビジュアル比較は、実用アプリケーションに対するDiffMeshの適合性をさらに強調する。

Human mesh recovery (HMR) provides rich human body information for various real-world applications. While image-based HMR methods have achieved impressive results, they often struggle to recover humans in dynamic scenarios, leading to temporal inconsistencies and non-smooth 3D motion predictions due to the absence of human motion. In contrast, video-based approaches leverage temporal information to mitigate this issue. In this paper, we present DiffMesh, an innovative motion-aware Diffusion-like framework for video-based HMR. DiffMesh establishes a bridge between diffusion models and human motion, efficiently generating accurate and smooth output mesh sequences by incorporating human motion within the forward process and reverse process in the diffusion model. Extensive experiments are conducted on the widely used datasets (Human3.6M \cite{h36m_pami} and 3DPW \cite{pw3d2018}), which demonstrate the effectiveness and efficiency of our DiffMesh. Visual comparisons in real-world scenarios further highlight DiffMesh's suitability for practical applications.
翻訳日:2023-12-06 01:28:57 公開日:2023-12-03
# 拡散型逆境浄化のロバスト評価

Robust Evaluation of Diffusion-Based Adversarial Purification ( http://arxiv.org/abs/2303.09051v3 )

ライセンス: Link先を確認
Minjong Lee, Dongwoo Kim(参考訳) 拡散型浄化法における現状の評価実践に疑問を呈する。 拡散法に基づく浄化法は,テスト時に入力データポイントから逆効果を取り除くことを目的としている。 このアプローチは、トレーニングとテストの切り離しによる敵のトレーニングに代わるものとして、注目を集める。 良く知られたホワイトボックス攻撃は、浄化の堅牢性を測定するためにしばしば用いられる。 しかし,これらの攻撃が拡散による浄化に最も有効であるかどうかは不明である。 本稿は,現在の実践を分析し,敵の攻撃に対する浄化法のロバスト性を評価するための新しいガイドラインを提供する。 そこで本研究では, 従来の拡散法に比べてロバスト性を向上させる新しい浄化法を提案する。

We question the current evaluation practice on diffusion-based purification methods. Diffusion-based purification methods aim to remove adversarial effects from an input data point at test time. The approach gains increasing attention as an alternative to adversarial training due to the disentangling between training and testing. Well-known white-box attacks are often employed to measure the robustness of the purification. However, it is unknown whether these attacks are the most effective for the diffusion-based purification since the attacks are often tailored for adversarial training. We analyze the current practices and provide a new guideline for measuring the robustness of purification methods against adversarial attacks. Based on our analysis, we further propose a new purification strategy improving robustness compared to the current diffusion-based purification methods.
翻訳日:2023-12-06 01:28:18 公開日:2023-12-03
# 点クラウドのためのパラメトリック表面制約アップサンプラーネットワーク

Parametric Surface Constrained Upsampler Network for Point Cloud ( http://arxiv.org/abs/2303.08240v3 )

ライセンス: Link先を確認
Pingping Cai and Zhenyao Wu and Xinyi Wu and Song Wang(参考訳) スパースポイント表現を与えられたクリーンで高密度なポイントクラウドを生成することを目的としたポイントクラウドアップサンプラーの設計は、コンピュータビジョンにおける根本的な挑戦的な問題である。 一連の試みは、ディープニューラルネットワークを介してポイントツーポイントマッピング関数を確立することによって、この目標を達成する。 しかし、これらのアプローチは表面レベルの明示的な制約が欠如しているため、異常点を生じやすい。 この問題を解決するために,ニューラルネットワークにバイコビック関数と回転関数で表されるパラメトリック曲面を学習させ,そこで新たに生成された点を基底面に拘束することにより,新しいサーフェス正規化器をアップサンプラーネットワークに導入する。 これらの設計は、2つの異なるネットワークに統合され、レイヤポイントクラウドのアップサンプリングとポイントクラウドのコンプリートによる評価の利点を活かす。 両課題の最先端実験結果から,提案手法の有効性が示された。 コードはhttps://github.com/corecai163/pscuで入手できる。

Designing a point cloud upsampler, which aims to generate a clean and dense point cloud given a sparse point representation, is a fundamental and challenging problem in computer vision. A line of attempts achieves this goal by establishing a point-to-point mapping function via deep neural networks. However, these approaches are prone to produce outlier points due to the lack of explicit surface-level constraints. To solve this problem, we introduce a novel surface regularizer into the upsampler network by forcing the neural network to learn the underlying parametric surface represented by bicubic functions and rotation functions, where the new generated points are then constrained on the underlying surface. These designs are integrated into two different networks for two tasks that take advantages of upsampling layers - point cloud upsampling and point cloud completion for evaluation. The state-of-the-art experimental results on both tasks demonstrate the effectiveness of the proposed method. The code is available at https://github.com/corecai163/PSCU.
翻訳日:2023-12-06 01:28:09 公開日:2023-12-03
# 分子からの質量スペクトル予測のためのプリフィックストレーデコーディング

Prefix-Tree Decoding for Predicting Mass Spectra from Molecules ( http://arxiv.org/abs/2303.06470v3 )

ライセンス: Link先を確認
Samuel Goldman, John Bradshaw, Jiayi Xin, and Connor W. Coley(参考訳) 分子からの質量スペクトルの計算学的予測により、臨床的に関連する代謝物の発見が可能となった。 しかし、これらの予測ツールはまだ2つの極端の1つを占めるため、運用に制限がある。 (a)分子を断片的に断片化し、潜在的な再配列や時間的複雑さに過度に厳格な制約を課すこと (b)損失および非物理的離散スペクトルベクトルの復号による。 本研究では、質量スペクトルを原子の多重集合である分子公式の集合として扱うことにより、分子からの質量スペクトルを予測するための新しい中間戦略を用いる。 まず、入力された分子グラフを符号化した後、分子サブフォーミュラの集合をデコードし、それぞれが質量スペクトルの予測ピークを指定し、その強度を第2のモデルで予測する。 我々の重要な洞察は、プレフィックスツリー構造であるatom-type by atom-typeを用いて式集合をデコードすることにより、分子サブフォルムの組合せ可能性の克服である。 質量スペクトル予測タスクにおける有望な実験結果を示す。

Computational predictions of mass spectra from molecules have enabled the discovery of clinically relevant metabolites. However, such predictive tools are still limited as they occupy one of two extremes, either operating (a) by fragmenting molecules combinatorially with overly rigid constraints on potential rearrangements and poor time complexity or (b) by decoding lossy and nonphysical discretized spectra vectors. In this work, we use a new intermediate strategy for predicting mass spectra from molecules by treating mass spectra as sets of molecular formulae, which are themselves multisets of atoms. After first encoding an input molecular graph, we decode a set of molecular subformulae, each of which specify a predicted peak in the mass spectrum, the intensities of which are predicted by a second model. Our key insight is to overcome the combinatorial possibilities for molecular subformulae by decoding the formula set using a prefix tree structure, atom-type by atom-type, representing a general method for ordered multiset decoding. We show promising empirical results on mass spectra prediction tasks.
翻訳日:2023-12-06 01:27:05 公開日:2023-12-03
# 量子確率熱力学:位相空間における半古典理論

Quantum stochastic thermodynamics: A semiclassical theory in phase space ( http://arxiv.org/abs/2303.05935v5 )

ライセンス: Link先を確認
Zhaoyu Fei(参考訳) 量子多体系の定式化は相空間における半古典的処理によって提案され、量子統計学を取り入れた確率的熱力学を確立できる。 具体的には, 確率的フォッカー・プランク方程式をメゾスコピックレベルでのダイナミクスとして用いる。 ここで、フラックス密度の変動を特徴付ける雑音項は、系と貯水池の間のランダム衝突の有限$N$効果を説明する。 したがって、定常解は標準系における準平衡状態である。 位相空間分布の軌跡に基づいて確率的熱力学量を定義する。 したがって、エネルギーの保存則、$H$定理、およびゆらぎ定理が得られる。 我々の研究は、2点測定スキームに依存しない量子確率熱力学の代替形式を定めている。 多数の量子系の射影測定は、将来実験的な検証を期待する相空間分布のサンプリングによって置き換えられる。

A formalism for quantum many-body systems is proposed through a semiclassical treatment in phase space, allowing us to establish a stochastic thermodynamics incorporating quantum statistics. Specifically, we utilize a stochastic Fokker-Planck equation as the dynamics at the mesoscopic level. Here, the noise term characterizing the fluctuation of the flux density accounts for the finite-$N$ effects of random collisions between the system and the reservoir. Accordingly, the stationary solution is a quasi-equilibrium state in a canonical system. We define stochastic thermodynamic quantities based on the trajectories of the phase-space distribution. The conservation law of energy, $H$ theorem and fluctuation theorems are therefore obtained. Our work sets an alternative formalism of quantum stochastic thermodynamics that is independent of the two-point measurement scheme. The numerous projective measurements of quantum systems are replaced by the sampling of the phase-space distribution, offering hope for experimental verifications in the future.
翻訳日:2023-12-06 01:26:45 公開日:2023-12-03
# 最大マニフォールド容量表現による自然画像の効率的な符号化

Learning Efficient Coding of Natural Images with Maximum Manifold Capacity Representations ( http://arxiv.org/abs/2303.03307v2 )

ライセンス: Link先を確認
Thomas Yerxa, Yilun Kuang, Eero Simoncelli, SueYeon Chung(参考訳) 効率的な符号化仮説は、感覚系の応答特性を、生物的な制約を受ける環境に関する最大情報を取り込むように入力の統計に適応させるものであることを示唆する。 エレガントではあるものの、情報理論特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。 この困難さは、仮説をテストするために設計された計算モデルが近似や下界から再構成誤差のようなプロキシ測度まで、いくつかの異なる情報メトリクスを使用する必要がある。 近年の理論的進歩は、線形分離可能な方法で表現できる対象圏の個数である多様体容量という、新しく生態学的に関係のある効率指標を特徴付けている。 しかし、多様体のキャパシティの計算は計算集約的な反復手順であり、これまでは目的としての使用を妨げてきた。 ここでは、多様体の容量を直接最適化できる単純化された仮定を概説し、最大多様体容量表現(MMCR)を得る。 本手法は,自己教師付き学習(SSL)の分野での進歩と密接に結びついており,標準SSLベンチマークの成果とMMCRが競合することを示す。 経験的分析により、MMCRと他のSSLフレームワークで学んだ表現の違いが明らかとなり、多様体圧縮がクラス分離性をもたらすメカニズムが示唆された。 最後に,神経予測ベンチマークを用いたssl法の評価を行い,mmcrは腹側流のモデルとして極めて競争力があることを示す。

The efficient coding hypothesis proposes that the response properties of sensory systems are adapted to the statistics of their inputs such that they capture maximal information about the environment, subject to biological constraints. While elegant, information theoretic properties are notoriously difficult to measure in practical settings or to employ as objective functions in optimization. This difficulty has necessitated that computational models designed to test the hypothesis employ several different information metrics ranging from approximations and lower bounds to proxy measures like reconstruction error. Recent theoretical advances have characterized a novel and ecologically relevant efficiency metric, the manifold capacity, which is the number of object categories that may be represented in a linearly separable fashion. However, calculating manifold capacity is a computationally intensive iterative procedure that until now has precluded its use as an objective. Here we outline the simplifying assumptions that allow manifold capacity to be optimized directly, yielding Maximum Manifold Capacity Representations (MMCR). The resulting method is closely related to and inspired by advances in the field of self supervised learning (SSL), and we demonstrate that MMCRs are competitive with state of the art results on standard SSL benchmarks. Empirical analyses reveal differences between MMCRs and representations learned by other SSL frameworks, and suggest a mechanism by which manifold compression gives rise to class separability. Finally we evaluate a set of SSL methods on a suite of neural predictivity benchmarks, and find MMCRs are higly competitive as models of the ventral stream.
翻訳日:2023-12-06 01:25:18 公開日:2023-12-03
# デバイアス条件付き確率最適化

Debiasing Conditional Stochastic Optimization ( http://arxiv.org/abs/2304.10613v3 )

ライセンス: Link先を確認
Lie He and Shiva Prasad Kasiviswanathan(参考訳) 本稿では,ポートフォリオ選択や強化学習,頑健な学習,因果推論など,さまざまな応用をカバーする条件付き確率最適化(CSO)問題について検討する。 csoの目的のサンプル平均勾配はネスト構造のために偏りがあるため、収束には高いサンプル複雑性を必要とする。 バイアスを効果的に低減する一般的な確率的外挿手法を提案する。 非凸な滑らかな目的に対して、この補間と分散低減技術を組み合わせることで、既存の境界よりもはるかに優れたサンプル複雑性が得られることを示す。 さらに,CSO問題の有限サム変量に対する新しいアルゴリズムを開発し,既存の結果を大幅に改善する。 最後に、我々のデバイアス技術は、他の確率的最適化問題における同様の課題に対処するための有用なツールとなる可能性があると信じている。

In this paper, we study the conditional stochastic optimization (CSO) problem which covers a variety of applications including portfolio selection, reinforcement learning, robust learning, causal inference, etc. The sample-averaged gradient of the CSO objective is biased due to its nested structure, and therefore requires a high sample complexity for convergence. We introduce a general stochastic extrapolation technique that effectively reduces the bias. We show that for nonconvex smooth objectives, combining this extrapolation with variance reduction techniques can achieve a significantly better sample complexity than the existing bounds. Additionally, we develop new algorithms for the finite-sum variant of the CSO problem that also significantly improve upon existing results. Finally, we believe that our debiasing technique has the potential to be a useful tool for addressing similar challenges in other stochastic optimization problems.
翻訳日:2023-12-06 01:17:29 公開日:2023-12-03
# なぜChatGPTは真に答えるに足りないのか?

Why Does ChatGPT Fall Short in Providing Truthful Answers? ( http://arxiv.org/abs/2304.10513v3 )

ライセンス: Link先を確認
Shen Zheng, Jie Huang, Kevin Chen-Chuan Chang(参考訳) ChatGPTのような大規模言語モデルの最近の進歩は、人間の生活の様々な側面に影響を与える大きな可能性を示している。 しかし、ChatGPTはユーザーの質問に対して信頼性と正確な回答を提供するという課題に直面している。 真理の答えを提供する際のモデルの特定の弱点をよりよく理解するために、我々はオープンドメインの質問応答を詳細に調査する。 具体的には,ChatGPTの失敗を,理解,事実性,特異性,推測の3つに分類した。 我々はさらに、事実を最も寄与する失敗として指摘し、事実と関連する2つの重要な能力、すなわち知識記憶と知識記憶を識別する。 事実性に着目した実験を通じて,いくつかの潜在的拡張戦略を提案する。 本研究は,外部知識の粒度と知識リコールの手がかりによるモデルの強化が,質問への回答におけるモデルの事実性を高めることを示唆する。

Recent advancements in large language models, such as ChatGPT, have demonstrated significant potential to impact various aspects of human life. However, ChatGPT still faces challenges in providing reliable and accurate answers to user questions. To better understand the model's particular weaknesses in providing truthful answers, we embark an in-depth exploration of open-domain question answering. Specifically, we undertake a detailed examination of ChatGPT's failures, categorized into: comprehension, factuality, specificity, and inference. We further pinpoint factuality as the most contributing failure and identify two critical abilities associated with factuality: knowledge memorization and knowledge recall. Through experiments focusing on factuality, we propose several potential enhancement strategies. Our findings suggest that augmenting the model with granular external knowledge and cues for knowledge recall can enhance the model's factuality in answering questions.
翻訳日:2023-12-06 01:17:17 公開日:2023-12-03
# 強退化量子制御系に対する高次トラップ

Higher order traps for some strongly degenerate quantum control systems ( http://arxiv.org/abs/2304.03355v2 )

ライセンス: Link先を確認
Boris Volkov, Alexander Pechen(参考訳) 量子制御は、量子システムを最適に操作できるため、様々な現代の量子技術に必要である。 量子制御における重要な問題は、制御対象関数がトラップ動作を持つかどうか、すなわち、トラップがないかどうかを、局所的な探索最適化手法によって回避することが難しいコントロールを確立することである。 a. n. pechen, d. j. tannor, "are there traps in quantum control landscapes?", phys. rev. lett., 106 (2011), 120402] では、3次トラップが発見された。 本稿では、ハミルトニアンの特殊対称性を持つ制御可能な量子系に対して任意の高次トラップが存在することを示す。

Quantum control is necessary for a variety of modern quantum technologies as it allows to optimally manipulate quantum systems. An important problem in quantum control is to establish whether the control objective functional has trapping behaviour or no, namely if it has or no traps -- controls from which it is difficult to escape by local search optimization methods. Higher order traps were previously introduced in [A. N. Pechen, D. J. Tannor, "Are there traps in quantum control landscapes?", Phys. Rev. Lett., 106 (2011), 120402], where 3-rd order traps were found. In this note we show that traps of arbitrarily high order exist for controllable quantum systems with special symmetry in the Hamiltonian.
翻訳日:2023-12-06 01:15:46 公開日:2023-12-03
# ランダム射影計測における自由フェルミオンの理論

Theory of free fermions under random projective measurements ( http://arxiv.org/abs/2304.03138v3 )

ライセンス: Link先を確認
Igor Poboiko, Paul P\"opperl, Igor V. Gornyi, and Alexander D. Mirlin(参考訳) ケルディッシュ経路積分形式とレプリカ・トリックに基づいて,局所的占有数のランダムな投影的測定を行う一次元自由フェルミオンの解析的手法を開発した。 希少な測定値の極限では、$\gamma / j \ll 1$(ここで$\gamma$はサイトごとの測定レートであり、$j$はタイト結合モデルにおいて定数である)、非線形シグマモデル(nlsm)を問題の有効場理論として導出する。 レプリカ対称セクターは、微分挙動を持つ$U(2) / U(1) \times U(1) \simeq S_2$ sigmaモデルで記述され、レプリカ非対称セクターは、レプリカ極限$R \to 1$ を持つ$SU(R)$多様体上で定義される二次元NLSMである。 ガウスレベルでは、極限 $\gamma / j \to 0$ において有効であり、このモデルは、サブシステム内の粒子の数と絡み合うエントロピーの第二累積の対数挙動を予測する。 しかし、一ループ再正規化群解析により、この対数成長が、領域法相に対応する稀な測定であっても、有限値$\sim (J / \gamma)^2$で飽和することを示した。 これは、自由フェルミオンに対する測定誘起エンタングルメント相転移が存在しないことを意味する。 しかし、対数成長と飽和の間の交差は指数関数的に大きなスケール、$\ln l_\text{corr} \sim j / \gamma$ で起こる。 これにより、このクロスオーバーは測定周波数 $\gamma / j$ の関数として非常に鋭く、有限サイズの数値計算において対数から領域法への遷移と容易に混同することができる。 我々は,解析予測を支援する注意深い数値解析を行った。

We develop an analytical approach to the study of one-dimensional free fermions subject to random projective measurements of local site occupation numbers, based on the Keldysh path-integral formalism and replica trick. In the limit of rare measurements, $\gamma / J \ll 1$ (where $\gamma$ is measurement rate per site and $J$ is hopping constant in the tight-binding model), we derive a non-linear sigma model (NLSM) as an effective field theory of the problem. Its replica-symmetric sector is described by a $U(2) / U(1) \times U(1) \simeq S_2$ sigma model with diffusive behavior, and the replica-asymmetric sector is a two-dimensional NLSM defined on $SU(R)$ manifold with the replica limit $R \to 1$. On the Gaussian level, valid in the limit $\gamma / J \to 0$, this model predicts a logarithmic behavior for the second cumulant of number of particles in a subsystem and for the entanglement entropy. However, the one-loop renormalization group analysis allows us to demonstrate that this logarithmic growth saturates at a finite value $\sim (J / \gamma)^2$ even for rare measurements, which corresponds to the area-law phase. This implies the absence of a measurement-induced entanglement phase transition for free fermions. The crossover between logarithmic growth and saturation, however, happens at exponentially large scale, $\ln l_\text{corr} \sim J / \gamma$. This makes this crossover very sharp as a function of the measurement frequency $\gamma / J$, which can be easily confused with a transition from the logarithmic to area law in finite-size numerical calculations. We have performed a careful numerical analysis, which supports our analytical predictions.
翻訳日:2023-12-06 01:15:31 公開日:2023-12-03
# HuggingGPT: ChatGPTとその友人たちによるAIタスクの解決

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face ( http://arxiv.org/abs/2303.17580v4 )

ライセンス: Link先を確認
Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang(参考訳) 異なるドメインとモダリティで複雑なAIタスクを解決することは、人工知能にとって重要なステップだ。 さまざまなドメインやモダリティに対して利用可能なAIモデルが数多く存在するが、複雑なAIタスクを自律的に処理することはできない。 大きな言語モデル(LLM)は言語理解、生成、相互作用、推論において例外的な能力を示しており、私たちはLLMが複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能し、言語がこれを強化する汎用インターフェースとして機能することを提唱している。 この哲学に基づき、LLMを利用したエージェントであるHuggingGPTを紹介し、LLM(例えばChatGPT)を利用して機械学習コミュニティ(例えばHugging Face)のさまざまなAIモデルを接続してAIタスクを解決する。 具体的には、ChatGPTを使用して、ユーザリクエストの受信時にタスク計画を実行し、Hugging Faceで利用可能な機能記述に従ってモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じて応答を要約する。 Hugging FaceにおけるChatGPTの強力な言語能力と豊富なAIモデルを活用することで、HuggingGPTはさまざまなモダリティやドメインにまたがる幅広い高度なAIタスクに対処し、言語、ビジョン、スピーチ、その他の困難なタスクにおける印象的な結果を達成することができる。

Solving complicated AI tasks with different domains and modalities is a key step toward artificial general intelligence. While there are numerous AI models available for various domains and modalities, they cannot handle complicated AI tasks autonomously. Considering large language models (LLMs) have exhibited exceptional abilities in language understanding, generation, interaction, and reasoning, we advocate that LLMs could act as a controller to manage existing AI models to solve complicated AI tasks, with language serving as a generic interface to empower this. Based on this philosophy, we present HuggingGPT, an LLM-powered agent that leverages LLMs (e.g., ChatGPT) to connect various AI models in machine learning communities (e.g., Hugging Face) to solve AI tasks. Specifically, we use ChatGPT to conduct task planning when receiving a user request, select models according to their function descriptions available in Hugging Face, execute each subtask with the selected AI model, and summarize the response according to the execution results. By leveraging the strong language capability of ChatGPT and abundant AI models in Hugging Face, HuggingGPT can tackle a wide range of sophisticated AI tasks spanning different modalities and domains and achieve impressive results in language, vision, speech, and other challenging tasks, which paves a new way towards the realization of artificial general intelligence.
翻訳日:2023-12-06 01:13:54 公開日:2023-12-03
# 経験の強いリプレイによる連続学習

Continual Learning with Strong Experience Replay ( http://arxiv.org/abs/2305.13622v2 )

ライセンス: Link先を確認
Tao Zhuo, Zhiyong Cheng, Zan Gao, Hehe Fan, Mohan Kankanhalli(参考訳) 継続学習(CL)は、古いタスクから得た知識を忘れずに、新しいタスクを段階的に学習することを目的としている。 Experience Replay(ER)は、現在のトレーニングデータとメモリバッファに格納された古いサンプルのサブセットでモデルを最適化する、シンプルで効果的なリハーサルベースの戦略である。 忘れることをさらに軽減するため、最近のアプローチでは、モデル正規化やメモリサンプリングといった様々な手法でERを拡張している。 しかし、現在のトレーニングデータにおける新しいモデルと古いモデルとの予測一貫性は、ほとんど探求されておらず、以前のサンプルがほとんど入手できない場合の知識の保存は少ない。 この問題に対処するために,メモリバッファから過去の経験を抽出することに加えて,現在のトレーニングデータに模倣された将来の経験を活かしたSER(Strong Experience Replay)を用いたCL手法を提案する。 本手法では, 得られた知識を効果的に保存できるような近似出力を元のモデルとして生成する。 複数の画像分類データセットによる実験結果から,SER法が最先端の手法をはるかに上回ることがわかった。

Continual Learning (CL) aims at incrementally learning new tasks without forgetting the knowledge acquired from old ones. Experience Replay (ER) is a simple and effective rehearsal-based strategy, which optimizes the model with current training data and a subset of old samples stored in a memory buffer. To further reduce forgetting, recent approaches extend ER with various techniques, such as model regularization and memory sampling. However, the prediction consistency between the new model and the old one on current training data has been seldom explored, resulting in less knowledge preserved when few previous samples are available. To address this issue, we propose a CL method with Strong Experience Replay (SER), which additionally utilizes future experiences mimicked on the current training data, besides distilling past experience from the memory buffer. In our method, the updated model will produce approximate outputs as its original ones, which can effectively preserve the acquired knowledge. Experimental results on multiple image classification datasets show that our SER method surpasses the state-of-the-art methods by a noticeable margin.
翻訳日:2023-12-05 23:32:09 公開日:2023-12-03
# オフライン強化学習におけるミニマックス最適サンプル複雑さの達成:DROに基づくアプローチ

Achieving the Minimax Optimal Sample Complexity of Offline Reinforcement Learning: A DRO-Based Approach ( http://arxiv.org/abs/2305.13289v3 )

ライセンス: Link先を確認
Yue Wang, Jinjun Xiong, Shaofeng Zou(参考訳) オフライン強化学習は、アクティブな探索なしに事前に収集されたデータセットから学ぶことを目的としている。 この問題は、データ可用性や分散シフトの制限など、重大な課題に直面している。 既存のアプローチでは、不確実性に対する悲観的なスタンスを採用し、探索されていない状態-作用対の報酬を、保守的に値関数を推定する。 本稿では,分散ロバスト最適化(DRO)に基づく手法により,これらの課題にも対処できることを示す。 具体的には、遷移核における不確かさを直接モデル化し、統計的に妥当な遷移核の不確実性集合を構成する。 そして、この不確実性セットに対して最悪のパフォーマンスを最適化するポリシーを見つけます。 まず、高い確率で真の遷移カーネルがこの集合に含まれるような計量ベースのHoeffding型不確実性集合を設計する。 サンプル複雑性を$\mathcal{O}(S^2C^{\pi^*}\epsilon^{-2}(1-\gamma)^{-4})$とすると、$\gamma$は割引係数であり、$S$は状態数であり、$C^{\pi^*}$は分布シフトを定量化する単極クリッピング集中係数である。 最適なサンプル複雑性を達成するため、より保守的なベルンシュタイン型不確実性集合も提案するが、必ずしも真の遷移核を含まない。 オフライン強化学習における最小値の最小値と一致する$\mathcal{O}(SC^{\pi^*}\epsilon^{-2}(1-\gamma)^{-3})$の改善されたサンプル複雑性が得られた。

Offline reinforcement learning aims to learn from pre-collected datasets without active exploration. This problem faces significant challenges, including limited data availability and distributional shifts. Existing approaches adopt a pessimistic stance towards uncertainty by penalizing rewards of under-explored state-action pairs to estimate value functions conservatively. In this paper, we show that the distributionally robust optimization (DRO) based approach can also address these challenges and is minimax optimal. Specifically, we directly model the uncertainty in the transition kernel and construct an uncertainty set of statistically plausible transition kernels. We then find the policy that optimizes the worst-case performance over this uncertainty set. We first design a metric-based Hoeffding-style uncertainty set such that with high probability the true transition kernel is in this set. We prove that to achieve a sub-optimality gap of $\epsilon$, the sample complexity is $\mathcal{O}(S^2C^{\pi^*}\epsilon^{-2}(1-\gamma)^{-4})$, where $\gamma$ is the discount factor, $S$ is the number of states, and $C^{\pi^*}$ is the single-policy clipped concentrability coefficient which quantifies the distribution shift. To achieve the optimal sample complexity, we further propose a less conservative Bernstein-style uncertainty set, which, however, does not necessarily include the true transition kernel. We show that an improved sample complexity of $\mathcal{O}(SC^{\pi^*}\epsilon^{-2}(1-\gamma)^{-3})$ can be obtained, which matches with the minimax lower bound for offline reinforcement learning, and thus is minimax optimal.
翻訳日:2023-12-05 23:31:48 公開日:2023-12-03
# tree of thoughts: 大規模言語モデルによる意図的な問題解決

Tree of Thoughts: Deliberate Problem Solving with Large Language Models ( http://arxiv.org/abs/2305.10601v2 )

ライセンス: Link先を確認
Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan(参考訳) 言語モデルは、幅広いタスクにわたる一般的な問題解決のためにますますデプロイされていますが、推論の間、トークンレベル、左右の意思決定プロセスに限られています。 これはつまり,探索や戦略的検討,あるいは初期決定が重要な役割を担うタスクに不足する可能性がある,ということだ。 これらの課題を克服するために、言語モデル推論のための新しいフレームワークであるTree of Thoughts (ToT)を導入し、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化し、問題解決の中間段階となる一貫性のあるテキスト単位(思想)を探索する。 ToTは、複数の異なる推論経路と、次の行動経路を決定するための自己評価選択を考慮し、グローバルな選択が必要なときに前向きや後向きの追跡を行うことで、故意の意思決定を可能にする。 実験の結果,totは,非自明な計画や探索を必要とする3つの新しいタスク(ゲームオブ24,クリエイティビティライティング,ミニクロスワード)において,言語モデルの問題解決能力を大幅に向上させることがわかった。 例えば、24のGame of 24では、チェーン・オブ・シントを持つGPT-4がタスクの4%しか解決しないのに対して、我々の手法は74%の成功率を達成した。 https://github.com/princeton-nlp/tree-of-thought-llm。

Language models are increasingly being deployed for general problem solving across a wide range of tasks, but are still confined to token-level, left-to-right decision-making processes during inference. This means they can fall short in tasks that require exploration, strategic lookahead, or where initial decisions play a pivotal role. To surmount these challenges, we introduce a new framework for language model inference, Tree of Thoughts (ToT), which generalizes over the popular Chain of Thought approach to prompting language models, and enables exploration over coherent units of text (thoughts) that serve as intermediate steps toward problem solving. ToT allows LMs to perform deliberate decision making by considering multiple different reasoning paths and self-evaluating choices to decide the next course of action, as well as looking ahead or backtracking when necessary to make global choices. Our experiments show that ToT significantly enhances language models' problem-solving abilities on three novel tasks requiring non-trivial planning or search: Game of 24, Creative Writing, and Mini Crosswords. For instance, in Game of 24, while GPT-4 with chain-of-thought prompting only solved 4% of tasks, our method achieved a success rate of 74%. Code repo with all prompts: https://github.com/princeton-nlp/tree-of-thought-llm.
翻訳日:2023-12-05 23:29:48 公開日:2023-12-03
# HistAlign: 履歴の調整による言語生成におけるコンテキスト依存性の改善

HistAlign: Improving Context Dependency in Language Generation by Aligning with History ( http://arxiv.org/abs/2305.04782v2 )

ライセンス: Link先を確認
David Wan, Shiyue Zhang, Mohit Bansal(参考訳) 言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。 近年のメモリでLMを増強するCache-LMは、コンテキスト依存性を高め、多様な言語生成タスクで顕著なパフォーマンスを示した。 しかし,トレーニング中であっても,現在のキャッシュ-LMのキャッシュ成分から生じる性能向上は,現在の隠蔽状態とメモリに格納されているメモリとのミスアライメントにより,最適以下であることが判明した。 本研究では,モデルが履歴から有用な信号を受信するように,キャッシュアライメントの整合性を確保するための新しいトレーニング手法HistAlignを提案する。 我々はまず、メモリが正しい予測に不可欠である単純で総合的なタスクの概念を証明し、HistAlignのキャッシュコンポーネントがより整合し、全体的なパフォーマンスを改善することを示す。 次に, 高速継続, 抽象要約, データ・ツー・テキストなど, 多様な下流言語生成タスクにおけるヒスタリグを評価する。 HistAlignは、オープンエンドおよび条件付き生成設定におけるテキストコヒーレンスと忠実性をそれぞれ改善することを示した。 HistAlignはさまざまなモデルファミリにまたがって一般化可能であり、多様なシナリオにおけるLMのコンテキスト依存性を改善する上での強みを示している。 私たちのコードはhttps://github.com/meetdavidwan/histalignで公開されています。

Language models (LMs) can generate hallucinations and incoherent outputs, which highlights their weak context dependency. Cache-LMs, which augment LMs with a memory of recent history, can increase context dependency and have shown remarkable performance in diverse language generation tasks. However, we find that even with training, the performance gain stemming from the cache component of current cache-LMs is suboptimal due to the misalignment between the current hidden states and those stored in the memory. In this work, we present HistAlign, a new training approach to ensure good cache alignment such that the model receives useful signals from the history. We first prove our concept on a simple and synthetic task where the memory is essential for correct predictions, and we show that the cache component of HistAlign is better aligned and improves overall performance. Next, we evaluate HistAlign on diverse downstream language generation tasks, including prompt continuation, abstractive summarization, and data-to-text. We demonstrate that HistAlign improves text coherence and faithfulness in open-ended and conditional generation settings respectively. HistAlign is also generalizable across different model families, showcasing its strength in improving context dependency of LMs in diverse scenarios. Our code is publicly available at https://github.com/meetdavidwan/histalign
翻訳日:2023-12-05 23:29:22 公開日:2023-12-03
# 計算資源を考慮した機械学習の理論的展望

A Theoretical Perspective of Machine Learning with Computational Resource Concerns ( http://arxiv.org/abs/2305.02217v3 )

ライセンス: Link先を確認
Zhi-Hua Zhou(参考訳) 従来の理論的機械学習研究は、一般に、十分に、あるいは無限に供給された計算資源が存在することを明示的または暗黙的に仮定する。 しかし実際には、計算資源は通常限られており、機械学習のパフォーマンスは、受信されたデータ数だけでなく、利用可能な計算リソースで処理できるデータ数にも依存する。 現在の`intelligent supercomputing''施設は、学習性能要求や学習プロセス状態といった重要な要素を考慮した適応スケジューリング戦略を必要とせず、一定の量のリソースを機械学習タスクに割り当てる専用オペレーティングシステムのように動作する。 本稿では,機械学習のスループットの概念を導入し,計算資源効率学習(CoRE-Learning)を定義し,学習理論における計算資源の影響を考慮した理論的枠組みを提案する。 このフレームワークは、入ってくるデータストリームが圧倒的なサイズで無限に終止符を打つことができるようなストリーム学習に自然に適用することができ、受信したすべてのデータを時間内に処理できると仮定するのは現実的ではない。 また、インテリジェントなスーパーコンピュータオペレーティングシステムの設計に理論的視点を与えることもできる。

Conventional theoretical machine learning studies generally assume explicitly or implicitly that there are enough or even infinitely supplied computational resources. In real practice, however, computational resources are usually limited, and the performance of machine learning depends not only on how many data have been received, but also on how many data can be handled with the computational resources available. Note that most current ``intelligent supercomputing'' facilities work like exclusive operating systems, where a fixed amount of resources are allocated to a machine learning task without adaptive scheduling strategies considering important factors such as learning performance demands and learning process status. In this article, we introduce the notion of machine learning throughput, define Computational Resource Efficient Learning (CoRE-Learning) and present a theoretical framework that takes into account the influence of computational resources in learning theory. This framework can be naturally applied to stream learning where the incoming data streams can be potentially endless with overwhelming size and it is impractical to assume that all received data can be handled in time. It may also provide a theoretical perspective for the design of intelligent supercomputing operating systems.
翻訳日:2023-12-05 23:28:24 公開日:2023-12-03
# 融合型グラフ状態生成のグラフ理論的最適化

Graph-theoretical optimization of fusion-based graph state generation ( http://arxiv.org/abs/2304.11988v3 )

ライセンス: Link先を確認
Seok-Hyung Lee and Hyunseok Jeong(参考訳) グラフ状態は、測定ベースの量子コンピューティングや量子リピータなど、様々な量子情報処理タスクのための汎用的なリソースである。 タイプII融合ゲートは、小さなグラフ状態を組み合わせることで全光学的なグラフ状態の生成を可能にするが、その非決定論的性質は大きなグラフ状態の効率的な生成を妨げる。 本稿では,Python パッケージ OptGraphState とともに,任意のグラフ状態の融合ベースの生成を効果的に最適化するグラフ理論戦略を提案する。 我々の戦略は、対象のグラフ状態を単純化し、融合ネットワークを構築し、融合の順序を決定する3つの段階からなる。 提案手法を用いることで,ランダムグラフとよく知られたグラフの資源オーバーヘッドを評価する。 さらに,利用可能な資源数に制限されたグラフ状態生成の成功確率についても検討する。 われわれの戦略とソフトウェアは、フォトニックグラフ状態を用いた実験可能なスキームの開発と評価を支援することを期待している。

Graph states are versatile resources for various quantum information processing tasks, including measurement-based quantum computing and quantum repeaters. Although the type-II fusion gate enables all-optical generation of graph states by combining small graph states, its non-deterministic nature hinders the efficient generation of large graph states. In this work, we present a graph-theoretical strategy to effectively optimize fusion-based generation of any given graph state, along with a Python package OptGraphState. Our strategy comprises three stages: simplifying the target graph state, building a fusion network, and determining the order of fusions. Utilizing this proposed method, we evaluate the resource overheads of random graphs and various well-known graphs. Additionally, we investigate the success probability of graph state generation given a restricted number of available resource states. We expect that our strategy and software will assist researchers in developing and assessing experimentally viable schemes that use photonic graph states.
翻訳日:2023-12-05 23:27:27 公開日:2023-12-03
# 明示的な神経表面:変形場を用いた連続幾何学の学習

Explicit Neural Surfaces: Learning Continuous Geometry With Deformation Fields ( http://arxiv.org/abs/2306.02956v2 )

ライセンス: Link先を確認
Thomas Walker, Octave Mariotti, Amir Vaxman, Hakan Bilen(参考訳) 複数のビューから明確に定義された連続表面を学習する効率的な表面再構成法であるExplicit Neural Surfaces (ENS)を導入する。 連続入力面を目標形状に漸進的に変換するために,一連の神経変形場を用いる。 メッシュを離散曲面プロキシとしてサンプリングすることにより、効率的な微分ラスタ化により変形場を訓練し、メッシュ非依存かつ滑らかな表面表現を実現する。 laplace-beltrami固有関数を標準の極端フーリエ特徴と並行して本質的な位置符号化として用いることで,詳細な表面詳細を捉えることができる。 ENSは1桁から2桁の速度で走行し、暗黙の表現よりも高い品質のメッシュを抽出できる一方で、競合する表面再構成性能とリアルタイム能力を維持している。 最後に, 物体の集合を1つのモデルで学習し, 異なる形状, 表面の細部, テクスチャ間の乱れを補間する手法を提案する。

We introduce Explicit Neural Surfaces (ENS), an efficient surface reconstruction method that learns an explicitly defined continuous surface from multiple views. We use a series of neural deformation fields to progressively transform a continuous input surface to a target shape. By sampling meshes as discrete surface proxies, we train the deformation fields through efficient differentiable rasterization, and attain a mesh-independent and smooth surface representation. By using Laplace-Beltrami eigenfunctions as an intrinsic positional encoding alongside standard extrinsic Fourier features, our approach can capture fine surface details. ENS trains 1 to 2 orders of magnitude faster and can extract meshes of higher quality compared to implicit representations, whilst maintaining competitive surface reconstruction performance and real-time capabilities. Finally, we apply our approach to learn a collection of objects in a single model, and achieve disentangled interpolations between different shapes, their surface details, and textures.
翻訳日:2023-12-05 23:20:50 公開日:2023-12-03
# rs5m: リモートセンシング視覚言語基礎モデルのための大規模視覚言語データセット

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model ( http://arxiv.org/abs/2306.11300v3 )

ライセンス: Link先を確認
Zilun Zhang, Tiancheng Zhao, Yulong Guo, Jianwei Yin(参考訳) 画像テキストペアリングデータを用いた事前学習型視覚言語モデル (VLM) は、様々な下流タスクにおいて顕著な結果をもたらす前例のない画像テキスト関連性を実証している。 重要な課題は、共通オブジェクト上でトレーニングされた既存の大規模事前学習vlmを使用して、ドメイン関連のダウンストリームタスクを達成するためにドメイン固有の転送を実行する方法だ。 重要な課題は、共通オブジェクト上でトレーニングされた既存の大規模事前学習vlmを使用して、ドメイン関連のダウンストリームタスクを達成するためにドメイン固有の転送を実行する方法だ。 本稿では、DVLM(Domain Pre-trained Vision-Language Model)とGVLM(General Vision-Language Model)のギャップを埋める新しいフレームワークを提案する。 さらに,500万のrs画像と英語記述を持つ,リモートセンシング(rs)分野のrs5mにおいて,画像テキスト対のデータセットを提案する。 データセットは、公開されている画像テキストペアデータセットをフィルタリングし、ラベルのみのRSデータセットを予めトレーニングされたVLMでキャプションすることで得られる。 これらは、最初の大規模RS画像テキストペアデータセットである。 さらに,クリップモデルを微調整し,rs5mのパラメータ効率の良い微調整法をいくつか試してdvlmを実装した。 実験の結果,提案するデータセットは様々なタスクに非常に有効であり,モデルgeorsclipは,ゼロショット分類 (zsc) におけるベースラインあるいは前回の最先端モデルにより,3\%\sim20\%$,リモートセンシングにおける3\%\sim6\$,意味的ローカライゼーション (selo) タスクにおいて4\%\sim5\%$向上することがわかった。 データセットとモデルがリリースされた。 \url{https://github.com/om-ai-lab/RS5M}。

Pre-trained Vision-Language Models (VLMs) utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain pre-trained Vision-Language Model (DVLM), bridging the gap between the General Vision-Language Model (GVLM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we fine-tuned the CLIP model and tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DVLM. Experimental results show that our proposed dataset is highly effective for various tasks, and our model GeoRSCLIP improves upon the baseline or previous state-of-the-art model by $3\%\sim20\%$ in Zero-shot Classification (ZSC), $3\%\sim6\%$ in Remote Sensing Cross-Modal Text-Image Retrieval (RSCTIR) and $4\%\sim5\%$ in Semantic Localization (SeLo) tasks. Dataset and models have been released in: \url{https://github.com/om-ai-lab/RS5M}.
翻訳日:2023-12-05 23:09:26 公開日:2023-12-03
# サブ線形ハイパーボリュームレグレットの最適スカラー化

Optimal Scalarizations for Sublinear Hypervolume Regret ( http://arxiv.org/abs/2307.03288v2 )

ライセンス: Link先を確認
Qiuyi Zhang (Richard)(参考訳) スケーラビリティは、例えば最近のRLHFでは、人間の好みを調整する報酬モデルをトレーニングするなど、複数の目的をひとつに減らすために、任意の多目的設定にデプロイできる一般的なテクニックである。 しかし、線形スカラー化がパレート辺境の凹部を見逃していることが知られているため、この古典的アプローチを否定する者もいる。 そのために我々は,パレート・フロンティアにおけるk$目標の多種多様な集合を探索することのできる,単純な非線形スカラー化を見つけることを目指している。 均一にランダムな重みを持つ超体積スカラー化は、任意のアルゴリズムが漸近的により良い処理を行なわないように、最適なサブ線形後悔境界を$O(T^{-1/k})$で達成し、超体積後悔を確実に最小化するのに驚くほど最適であることを示す。 理論的なケーススタディとして、多目的確率的線形バンディッツ問題を検討し、超体積スカラー化のsublinear regret boundsを利用すると、$\tilde{o}(d t^{-1/2} + t^{-1/k})$ の高体積後悔境界を生成する新しい非ユークリッド解析が得られることを示す。 EHVIのようなベイズ最適化における標準的な多目的アルゴリズムと同様に、線形スカラー化とチェビシェフスカラー化の両方を一貫して上回る単純な超体積スカラー化を用いることで、我々の理論を強い経験的性能で支持する。

Scalarization is a general technique that can be deployed in any multiobjective setting to reduce multiple objectives into one, such as recently in RLHF for training reward models that align human preferences. Yet some have dismissed this classical approach because linear scalarizations are known to miss concave regions of the Pareto frontier. To that end, we aim to find simple non-linear scalarizations that can explore a diverse set of $k$ objectives on the Pareto frontier, as measured by the dominated hypervolume. We show that hypervolume scalarizations with uniformly random weights are surprisingly optimal for provably minimizing the hypervolume regret, achieving an optimal sublinear regret bound of $O(T^{-1/k})$, with matching lower bounds that preclude any algorithm from doing better asymptotically. As a theoretical case study, we consider the multiobjective stochastic linear bandits problem and demonstrate that by exploiting the sublinear regret bounds of the hypervolume scalarizations, we can derive a novel non-Euclidean analysis that produces improved hypervolume regret bounds of $\tilde{O}( d T^{-1/2} + T^{-1/k})$. We support our theory with strong empirical performance of using simple hypervolume scalarizations that consistently outperforms both the linear and Chebyshev scalarizations, as well as standard multiobjective algorithms in bayesian optimization, such as EHVI.
翻訳日:2023-12-05 22:56:37 公開日:2023-12-03
# 大規模言語モデルによるコネクテッドインテリジェンスのための自律エッジAI

Large Language Models Empowered Autonomous Edge AI for Connected Intelligence ( http://arxiv.org/abs/2307.02779v2 )

ライセンス: Link先を確認
Yifei Shen, Jiawei Shao, Xinjie Zhang, Zehong Lin, Hao Pan, Dongsheng Li, Jun Zhang, Khaled B. Letaief(参考訳) ワイヤレスネットワークの進化は、超接続されたサイバー物理世界における人間、物体、および知性のシームレスな相互接続を想定した、コネクテッド・インテリジェンス(connected intelligence)へと向かっている。 エッジ人工知能(Edge AI)は、ネットワークエッジで高品質で低レイテンシ、プライバシ保護のAIサービスを提供することで、コネクテッドインテリジェンスを実現するための有望なソリューションである。 本稿では,大規模言語モデル(LLM)のパワー,すなわち生成事前学習型トランスフォーマー(GPT)を活用することによって,ユーザのさまざまな要件を自動で整理,適応,最適化する自律エッジAIシステムのビジョンを示す。 言語理解,計画,コード生成におけるGPTの強力な能力を活用するとともに,タスク指向コミュニケーションやエッジフェデレーション学習といった古典的な知恵を取り入れることで,エッジAIモデルを効率よくコーディネートし,ユーザの個人的要求に応えるとともに,プライバシ保護の方法で新たなモデルをトレーニングするためのコードの自動生成を行う,汎用的なフレームワークを提案する。 実験結果は、ユーザの要求を正確に理解し、最小限のコストでaiモデルを効率的に実行し、エッジサーバで高性能なaiモデルを効果的に作成するシステムの驚くべき能力を示している。

The evolution of wireless networks gravitates towards connected intelligence, a concept that envisions seamless interconnectivity among humans, objects, and intelligence in a hyper-connected cyber-physical world. Edge artificial intelligence (Edge AI) is a promising solution to achieve connected intelligence by delivering high-quality, low-latency, and privacy-preserving AI services at the network edge. This article presents a vision of autonomous edge AI systems that automatically organize, adapt, and optimize themselves to meet users' diverse requirements, leveraging the power of large language models (LLMs), i.e., Generative Pretrained Transformer (GPT). By exploiting the powerful abilities of GPT in language understanding, planning, and code generation, as well as incorporating classic wisdom such as task-oriented communication and edge federated learning, we present a versatile framework that efficiently coordinates edge AI models to cater to users' personal demands while automatically generating code to train new models in a privacy-preserving manner. Experimental results demonstrate the system's remarkable ability to accurately comprehend user demands, efficiently execute AI models with minimal cost, and effectively create high-performance AI models at edge servers.
翻訳日:2023-12-05 22:55:20 公開日:2023-12-03
# リスク感応強化学習のための分布モデル等価性

Distributional Model Equivalence for Risk-Sensitive Reinforcement Learning ( http://arxiv.org/abs/2307.01708v2 )

ライセンス: Link先を確認
Tyler Kastner, Murat A. Erdogdu, Amir-massoud Farahmand(参考訳) リスク感応強化学習における学習モデルの問題を考える。 リスクニュートラルな設定で最適に計画できる学習モデルである適切な値等価性は、リスクセンシティブな設定で最適に計画するのに十分でないことを理論的に実証する。 分散強化学習を用いて,モデル等価性という新たな概念を2つ導入した。1つは汎用的であり,任意のリスク対策の計画に使用できるが,難解である。また,どのリスク対策を最適に計画するかを選択できる実用的なバリエーションである。 当社のフレームワークは,モデルフリーなリスクセンシティブアルゴリズムの強化にどのように役立つのかを実証するとともに,その能力を示すために,表式および大規模実験の両方を提供する。

We consider the problem of learning models for risk-sensitive reinforcement learning. We theoretically demonstrate that proper value equivalence, a method of learning models which can be used to plan optimally in the risk-neutral setting, is not sufficient to plan optimally in the risk-sensitive setting. We leverage distributional reinforcement learning to introduce two new notions of model equivalence, one which is general and can be used to plan for any risk measure, but is intractable; and a practical variation which allows one to choose which risk measures they may plan optimally for. We demonstrate how our framework can be used to augment any model-free risk-sensitive algorithm, and provide both tabular and large-scale experiments to demonstrate its ability.
翻訳日:2023-12-05 22:54:32 公開日:2023-12-03
# Segment Anythingがポイントトラッキングに挑戦

Segment Anything Meets Point Tracking ( http://arxiv.org/abs/2307.01197v2 )

ライセンス: Link先を確認
Frano Raji\v{c}, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu(参考訳) Segment Anything Model (SAM)は、効率的なポイント中心アノテーションとプロンプトベースモデルによって実現された強力なゼロショット画像セグメンテーションモデルである。 クリックとブラシの相互作用はインタラクティブな画像セグメンテーションでよく研究されているが、既存のビデオの方法はマスクのアノテーションと伝播に焦点を当てている。 本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新しい手法であるSAM-PTを提案する。 SAM-PTはマスク生成のための頑丈でスパースな点選択と伝播技術を利用する。 従来のオブジェクト中心マスマスマスプロパゲーション戦略と比較して,局所構造情報をオブジェクトのセマンティクスと無関係に活用するためにポイントプロパゲーションを用いる。 ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークの直接評価によるポイントベーストラッキングのメリットを強調した。 DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。 異なるポイントトラッカーとビデオセグメンテーションベンチマークを統合したコードをhttps://github.com/SysCV/sam-pt.comでリリースします。

The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, enabled by efficient point-centric annotation and prompt-based models. While click and brush interactions are both well explored in interactive image segmentation, the existing methods on videos focus on mask annotation and propagation. This paper presents SAM-PT, a novel method for point-centric interactive video segmentation, empowered by SAM and long-term point tracking. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. Our experiments on popular video object segmentation and multi-object segmentation tracking benchmarks, including DAVIS, YouTube-VOS, and BDD100K, suggest that a point-based segmentation tracker yields better zero-shot performance and efficient interactions. We release our code that integrates different point trackers and video segmentation benchmarks at https://github.com/SysCV/sam-pt.
翻訳日:2023-12-05 22:54:05 公開日:2023-12-03
# 三元重み生成言語モデルのためのトークンスケールロジット蒸留

Token-Scaled Logit Distillation for Ternary Weight Generative Language Models ( http://arxiv.org/abs/2308.06744v4 )

ライセンス: Link先を確認
Minsoo Kim, Sihwa Lee, Janghwan Lee, Sukjin Hong, Du-Seong Chang, Wonyong Sung, Jungwook Choi(参考訳) ジェネレーティブ言語モデル(GLM)は、テキスト生成、理解、推論といったタスクにおいて素晴らしいパフォーマンスを示している。 しかし、大きなモデルサイズは実用的なデプロイメントに課題をもたらします。 この問題を解決するため,QAT(Quantization-Aware Training)が普及している。 しかし, 生成モデルに対する現在のQAT法では, 精度が著しく低下している。 本稿では, GLMを対象とした新しい知識蒸留法を提案する。 本手法はトークンスケールドロジット蒸留法と呼ばれ,教師モデルや基礎的真理から優れた学習を提供する。 本研究は,複合度が1.0未満の大規模glmの3次重み量子化・アウェアトレーニングを初めて評価し,常識qaや算術推論,自然言語理解などのタスクにおける精度の向上を実現する。 私たちのコードはhttps://github.com/aiha-lab/tsldで利用可能です。

Generative Language Models (GLMs) have shown impressive performance in tasks such as text generation, understanding, and reasoning. However, the large model size poses challenges for practical deployment. To solve this problem, Quantization-Aware Training (QAT) has become increasingly popular. However, current QAT methods for generative models have resulted in a noticeable loss of accuracy. To counteract this issue, we propose a novel knowledge distillation method specifically designed for GLMs. Our method, called token-scaled logit distillation, prevents overfitting and provides superior learning from the teacher model and ground truth. This research marks the first evaluation of ternary weight quantization-aware training of large-scale GLMs with less than 1.0 degradation in perplexity and achieves enhanced accuracy in tasks like common-sense QA and arithmetic reasoning as well as natural language understanding. Our code is available at https://github.com/aiha-lab/TSLD.
翻訳日:2023-12-05 22:46:37 公開日:2023-12-03
# コンピュータビジョンとロボットインタラクションを活用した流体粘性予測

Fluid Viscosity Prediction Leveraging Computer Vision and Robot Interaction ( http://arxiv.org/abs/2308.02715v2 )

ライセンス: Link先を確認
Jong Hoon Park, Gauri Pramod Dalwankar, Alison Bartsch, Abraham George, Amir Barati Farimani(参考訳) 流体粘度を正確に決定することは、様々な工業的・科学的応用に不可欠である。 従来の粘度測定法は信頼できるが、手動の介入を必要とすることが多く、リアルタイムの監視に容易に適応できない。 機械学習とコンピュータビジョンの進歩により、ビデオデータで捉えた流体振動を解析して流体粘性を予測する可能性を探る。 パイプラインは、自制的に事前訓練された3D畳み込みオートエンコーダを使用して、振動流体のセマンティックセグメンテーションマスクから特徴を抽出し、学習する。 そして、予め訓練されたオートエンコーダから生成された入力データの潜時表現を別個の推論ヘッドで処理し、流体カテゴリ(分類)または流体粘性(回帰)を時間分解的に推定する。 事前訓練されたオートエンコーダによって生成された潜在表現を分類するために使用すると、システムは合計4140のテストデータポイントに対して97.1%の精度を達成する。 同様に、回帰タスクでは、追加の完全接続ネットワークを回帰ヘッドとして使用することで、パイプラインは4,416のテストデータポイントに対して平均0.258の絶対エラーを達成できる。 本研究は,流体のキャラクタリゼーションと進化する人工知能のランドスケープの両方に革新的な貢献を示し,近時間粘性推定を実現するためのディープラーニングの可能性を示し,振動流体力学を捉えた映像データの解析を通じて流体力学の実際的な課題を解決する。

Accurately determining fluid viscosity is crucial for various industrial and scientific applications. Traditional methods of viscosity measurement, though reliable, often require manual intervention and cannot easily adapt to real-time monitoring. With advancements in machine learning and computer vision, this work explores the feasibility of predicting fluid viscosity by analyzing fluid oscillations captured in video data. The pipeline employs a 3D convolutional autoencoder pretrained in a self-supervised manner to extract and learn features from semantic segmentation masks of oscillating fluids. Then, the latent representations of the input data, produced from the pretrained autoencoder, is processed with a distinct inference head to infer either the fluid category (classification) or the fluid viscosity (regression) in a time-resolved manner. When the latent representations generated by the pretrained autoencoder are used for classification, the system achieves a 97.1% accuracy across a total of 4,140 test datapoints. Similarly, for regression tasks, employing an additional fully-connected network as a regression head allows the pipeline to achieve a mean absolute error of 0.258 over 4,416 test datapoints. This study represents an innovative contribution to both fluid characterization and the evolving landscape of Artificial Intelligence, demonstrating the potential of deep learning in achieving near real-time viscosity estimation and addressing practical challenges in fluid dynamics through the analysis of video data capturing oscillating fluid dynamics.
翻訳日:2023-12-05 22:44:45 公開日:2023-12-03
# 縦断・縦断クレーム数データのためのテレマティクス結合アクチュエータニューラルネットワーク

Telematics Combined Actuarial Neural Networks for Cross-Sectional and Longitudinal Claim Count Data ( http://arxiv.org/abs/2308.01729v2 )

ライセンス: Link先を確認
Francis Duval, Jean-Philippe Boucher, Mathieu Pigeon(参考訳) 我々は,Mario W\'uthrich と Michael Merz が提案した,複合アクチュエータニューラルネットワーク (CANN) フレームワークに基づく自動車保険の断面的および縦断的クレーム数モデルを提案する。 CANNのアプローチは、一般化線形モデルのような古典的アクチュエータモデルとニューラルネットワークを組み合わせたものである。 このモデルのブレンドにより、古典的な回帰モデルとニューラルネットワーク部分からなる2成分モデルが得られる。 CANNモデルは両方のコンポーネントの強みを活用し、ニューラルネットワークによって提供される複雑な関係や相互作用を捉える柔軟性と能力を活用しながら、古典的なモデルから確かな基礎と解釈可能性を提供する。 提案モデルでは,古典的回帰部分に対してよく知られた対数線数回帰モデルと,ニューラルネットワーク部分に対して多層パーセプトロン(MLP)を用いる。 MLP部は、各保険ドライバーの運転挙動を特徴付けるベクトルとして与えられるテレマティクス駆動データを処理する。 断面データのポアソン分布と負二項分布に加えて,多変量負二項法(MVNB)仕様を用いてCANNモデルを訓練する手法を提案する。 これにより、同一の保険契約の契約間の依存を考慮に入れた縦断モデルを導入する。 本結果から,CANNモデルは手作業によるテレマティクス機能に依存する対数線形モデルに比べて優れた性能を示した。

We present novel cross-sectional and longitudinal claim count models for vehicle insurance built upon the Combined Actuarial Neural Network (CANN) framework proposed by Mario W\"uthrich and Michael Merz. The CANN approach combines a classical actuarial model, such as a generalized linear model, with a neural network. This blending of models results in a two-component model comprising a classical regression model and a neural network part. The CANN model leverages the strengths of both components, providing a solid foundation and interpretability from the classical model while harnessing the flexibility and capacity to capture intricate relationships and interactions offered by the neural network. In our proposed models, we use well-known log-linear claim count regression models for the classical regression part and a multilayer perceptron (MLP) for the neural network part. The MLP part is used to process telematics car driving data given as a vector characterizing the driving behavior of each insured driver. In addition to the Poisson and negative binomial distributions for cross-sectional data, we propose a procedure for training our CANN model with a multivariate negative binomial (MVNB) specification. By doing so, we introduce a longitudinal model that accounts for the dependence between contracts from the same insured. Our results reveal that the CANN models exhibit superior performance compared to log-linear models that rely on manually engineered telematics features.
翻訳日:2023-12-05 22:43:51 公開日:2023-12-03
# moviechat: 密集したトークンから、長いビデオ理解のためのばらばらなメモリへ

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding ( http://arxiv.org/abs/2307.16449v3 )

ライセンス: Link先を確認
Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Haozhe Chi, Xun Guo, Tian Ye, Yanting Zhang, Yan Lu, Jenq-Neng Hwang, Gaoang Wang(参考訳) 近年,映像理解システムを構築するために,映像基礎モデルと大規模言語モデルを統合することで,特定の視覚課題の限界を克服することができる。 しかし既存のシステムは、フレーム数が少ないビデオしか扱えない。 長いビデオでは、計算の複雑さ、メモリコスト、長期的接続がさらなる課題を課している。 Atkinson-Shiffrinメモリモデルを利用して、トランスフォーマーのトークンを特別なメモリ機構と組み合わせてメモリキャリアとして使用することにより、これらの課題を克服するためのMovieChatを提案する。 MovieChatは1Kの長ビデオと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長ビデオ理解における最先端のパフォーマンスを実現し、本手法の有効性を検証する。

Recently, integrating video foundation models and large language models to build a video understanding system can overcome the limitations of specific pre-defined vision tasks. Yet, existing systems can only handle videos with very few frames. For long videos, the computation complexity, memory cost, and long-term temporal connection impose additional challenges. Taking advantage of the Atkinson-Shiffrin memory model, with tokens in Transformers being employed as the carriers of memory in combination with our specially designed memory mechanism, we propose the MovieChat to overcome these challenges. MovieChat achieves state-of-the-art performance in long video understanding, along with the released MovieChat-1K benchmark with 1K long video and 14K manual annotations for validation of the effectiveness of our method.
翻訳日:2023-12-05 22:43:26 公開日:2023-12-03
# 非コヒーレントな量子ノイズチャネルの存在下での量子位相推定アルゴリズムのシミュレーションと解析

Simulation and analysis of quantum phase estimation algorithm in the presence of incoherent quantum noise channels ( http://arxiv.org/abs/2307.15675v3 )

ライセンス: Link先を確認
Muhammad Faizan and Muhammad Faryad(参考訳) 量子位相推定 (quantum phase estimation, qpe) は、量子フーリエ変換に基づく基本アルゴリズムの一つである。 順序探索、分解、ユニタリ作用素の固有値の探索に応用できる。 QPEや他の量子アルゴリズムを実行する際の大きな課題は、量子コンピュータのノイズである。 本研究では,qpeに対する非一貫性雑音の影響を,トレース保存と完全正の量子チャネルとしてモデル化した。 ノイズの存在下でのQPEの性能を理解するために、脱分極、位相フリップ、ビット相フリップ、ビット相フリップなどの異なるノイズモデルを用いる。 シミュレーションの結果,単位作用素の固有値の標準偏差は個々の量子ビットの誤差確率に強い指数的依存性を持つことが示された。 しかし、標準偏差は、その誤差確率が小さい場合、固定誤差確率の量子ビット数に対して線形にのみ増加する。

The quantum phase estimation (QPE) is one of the fundamental algorithms based on the quantum Fourier transform. It has applications in order-finding, factoring, and finding the eigenvalues of unitary operators. The major challenge in running QPE and other quantum algorithms is the noise in quantum computers. In the present work, we study the impact of incoherent noise on QPE, modeled as trace-preserving and completely positive quantum channels. Different noise models such as depolarizing, phase flip, bit flip, and bit-phase flip are taken to understand the performance of the QPE in the presence of noise. The simulation results indicate that the standard deviation of the eigenvalue of the unitary operator has strong exponential dependence upon the error probability of individual qubits. However, the standard deviation increases only linearly with the number of qubits for fixed error probability when that error probability is small.
翻訳日:2023-12-05 22:43:10 公開日:2023-12-03
# 脳イメージングのためのエッジ対応ハードクラスタリンググラフポーリング

Edge-aware Hard Clustering Graph Pooling for Brain Imaging ( http://arxiv.org/abs/2308.11909v6 )

ライセンス: Link先を確認
Cheng Zhu, Jiayi Zhu, Lijuan Zhang, Xi Wu, Shuqi Yang, Ping Liang, Honghan Chen, Ying Tan(参考訳) グラフ畳み込みネットワーク(GCN)は、異なる脳領域間の非ユークリッド空間依存性を捉えることができる。 GCNの重要な要素であるグラフプーリング演算子は、表現学習能力を高め、異常な脳地図の取得を容易にする。 しかし、既存の研究のほとんどは、元のエッジ機能を無視しながら、ノードの観点からのみグラフプーリング演算子を設計する。 これは、グラフプーリングアプリケーションのシナリオを制限し、重要なサブ構造をキャプチャする能力を低下させる。 本稿では,エッジ認識型ハードクラスタリンググラフプール(ehcpool)を提案する。 EHCPoolは当初、エッジ情報を利用してノードの重要性を評価する'Edge-to-Node'スコア基準を導入した。 その後,グラフの難解なクラスタリング割り当てを適応的に学習するために,エッジスコアを導いた革新的な反復nトップ戦略が開発された。 さらに、N-Eアグリゲーション戦略は、各独立部分グラフのノードとエッジの特徴を集約するように設計されている。 多地点の公開データセットに関する大規模な実験は、提案モデルの優越性と堅牢性を示している。 EHCPoolは、データ駆動の観点から異なるタイプの機能不全脳ネットワークを探索する可能性がある。 メソッドコード:https://github.com/swfen/EHCPool

Graph Convolutional Networks (GCNs) can capture non-Euclidean spatial dependence between different brain regions. The graph pooling operator, a crucial element of GCNs, enhances the representation learning capability and facilitates the acquisition of abnormal brain maps. However, most existing research designs graph pooling operators solely from the perspective of nodes while disregarding the original edge features. This confines graph pooling application scenarios and diminishes its ability to capture critical substructures. In this paper, we propose a novel edge-aware hard clustering graph pool (EHCPool), which is tailored to dominant edge features and redefines the clustering process. EHCPool initially introduced the 'Edge-to-Node' score criterion which utilized edge information to evaluate the significance of nodes. An innovative Iteration n-top strategy was then developed, guided by edge scores, to adaptively learn sparse hard clustering assignments for graphs. Additionally, a N-E Aggregation strategy is designed to aggregate node and edge features in each independent subgraph. Extensive experiments on the multi-site public datasets demonstrate the superiority and robustness of the proposed model. More notably, EHCPool has the potential to probe different types of dysfunctional brain networks from a data-driven perspective. Method code: https://github.com/swfen/EHCPool
翻訳日:2023-12-05 22:32:21 公開日:2023-12-03
# 開量子系のクリロフ複雑性:ハード球体からブラックホールへ

Krylov Complexity of Open Quantum Systems: From Hard Spheres to Black Holes ( http://arxiv.org/abs/2308.10945v2 )

ライセンス: Link先を確認
Vyshnav Mohan(参考訳) 準静的カオス開量子システムの複雑性について検討する。 原型的な例として、ベリー予想を用いてゆっくりと漏れる固球気体のクリロフ複雑性を解析的に計算する。 次に、複素度=ヴォームの提案を用いて、$d+1$-dimensional evaporating black holeのホログラフィック複雑性に接続する。 我々は、入射負エネルギーヌル衝撃波にまたがる静的シュワルツシルトパッチの列を縫合してブラックホール時空をモデル化する。 パラメータの特定により、各準定常平衡における遅延時間複雑性成長速度は、両方の系で同じであることが分かる。

We examine the complexity of quasi-static chaotic open quantum systems. As a prototypical example, we analytically compute the Krylov complexity of a slowly leaking hard-sphere gas using Berry's conjecture. We then connect it to the holographic complexity of a $d+1$-dimensional evaporating black hole using the Complexity=Volume proposal. We model the black hole spacetime by stitching together a sequence of static Schwarzschild patches across incoming negative energy null shock waves. Under certain identification of parameters, we find the late time complexity growth rate during each quasi-static equilibrium to be the same in both systems.
翻訳日:2023-12-05 22:31:25 公開日:2023-12-03
# CARLA:時系列異常検出のための自己教師付きコントラスト表現学習

CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection ( http://arxiv.org/abs/2308.09296v2 )

ライセンス: Link先を確認
Zahra Zamanzadeh Darban, Geoffrey I. Webb, Shirui Pan, Charu C. Aggarwal, Mahsa Salehi(参考訳) 時系列異常検出(TAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。 既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。 通常の境界はしばしば厳密に定義され、わずかな偏差は異常に分類され、結果として偽陽性率が高く、通常のパターンを一般化する能力が制限される。 そこで本研究では,時系列異常検出(CARLA)のための,エンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。 既存のコントラスト学習手法では、拡張時系列ウィンドウは正のサンプルであり、時間的に離れたウィンドウは負のサンプルであると仮定しているが、これらの仮定は、時系列の増大がそれらを負のサンプルに変換し、時間的に離れたウィンドウは正のサンプルを表すことができるため、制限されている。 比較アプローチでは,既存の時系列異常に関する一般的な知識を活用し,様々なタイプの異常を負のサンプルとして注入する。 したがって、CARLAは正常な振る舞いを学ぶだけでなく、異常を示す偏差も学ぶ。 時間的に閉じたウィンドウと異常の異なるウィンドウに類似した表現を生成する。 さらに、最寄り/最寄りの隣人に基づいてウィンドウを分類する自己教師型アプローチにより、表現の隣人に関する情報を活用し、異常検出の性能をさらに向上させる。 CARLAは、7つの主要な実世界の時系列異常検出データセットの広範なテストにおいて、最先端の自己監督的かつ教師なしなTAD法よりも優れた性能を示す。 本研究は,時系列異常検出のためのコントラスト表現学習の可能性を示す。

One main challenge in time series anomaly detection (TAD) is the lack of labelled data in many real-life scenarios. Most of the existing anomaly detection methods focus on learning the normal behaviour of unlabelled time series in an unsupervised manner. The normal boundary is often defined tightly, resulting in slight deviations being classified as anomalies, consequently leading to a high false positive rate and a limited ability to generalise normal patterns. To address this, we introduce a novel end-to-end self-supervised ContrAstive Representation Learning approach for time series Anomaly detection (CARLA). While existing contrastive learning methods assume that augmented time series windows are positive samples and temporally distant windows are negative samples, we argue that these assumptions are limited as augmentation of time series can transform them to negative samples, and a temporally distant window can represent a positive sample. Our contrastive approach leverages existing generic knowledge about time series anomalies and injects various types of anomalies as negative samples. Therefore, CARLA not only learns normal behaviour but also learns deviations indicating anomalies. It creates similar representations for temporally closed windows and distinct ones for anomalies. Additionally, it leverages the information about representations' neighbours through a self-supervised approach to classify windows based on their nearest/furthest neighbours to further enhance the performance of anomaly detection. In extensive tests on seven major real-world time series anomaly detection datasets, CARLA shows superior performance over state-of-the-art self-supervised and unsupervised TAD methods. Our research shows the potential of contrastive representation learning to advance time series anomaly detection.
翻訳日:2023-12-05 22:31:15 公開日:2023-12-03
# 想像の中のAIプランニング:学習した抽象検索空間の高レベルプランニング

AI planning in the imagination: High-level planning on learned abstract search spaces ( http://arxiv.org/abs/2308.08693v2 )

ライセンス: Link先を確認
Carlos Martin, Tuomas Sandholm(参考訳) 探索と計画のアルゴリズムは、この分野の誕生以来、人工知能の基盤となっている。 強化学習エージェントに実行時に計画する能力を与えると、さまざまなドメインのパフォーマンスが大幅に向上する。 しかし、現実世界の環境では、エージェント計画に関するモデルは、複合的な動作や振る舞いを計画できるより抽象的なモデルとは対照的に、実際の環境自体に基礎を置くように制限されている。 我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが実際の環境から完全に切り離されたプランニングを行うことのできる,PiZeroと呼ばれる新しい手法を提案する。 従来の手法とは異なり、エージェントは任意の時間スケールでハイレベルな計画を実行でき、複合的あるいは時間的に拡張されたアクションの観点からは、関連するマクロアクションを実行するために多数のベースレベルのマイクロアクションを必要とする環境において有用である。 さらに,本手法は,連続的動作空間,組合せ的動作空間,部分的可観測性を備えた設定をシームレスに処理するため,従来の手法よりも汎用的である。 本手法は,旅行セールスマン問題,ソコバン,2048年,施設立地問題,パックマンなど,複数のドメインで評価した。 実験的には、実行時に環境シミュレータへのアクセスを仮定することなく、同等の先行メソッドより優れている。

Search and planning algorithms have been a cornerstone of artificial intelligence since the field's inception. Giving reinforcement learning agents the ability to plan during execution time has resulted in significant performance improvements in various domains. However, in real-world environments, the model with respect to which the agent plans has been constrained to be grounded in the real environment itself, as opposed to a more abstract model which allows for planning over compound actions and behaviors. We propose a new method, called PiZero, that gives an agent the ability to plan in an abstract search space that the agent learns during training, which is completely decoupled from the real environment. Unlike prior approaches, this enables the agent to perform high-level planning at arbitrary timescales and reason in terms of compound or temporally-extended actions, which can be useful in environments where large numbers of base-level micro-actions are needed to perform relevant macro-actions. In addition, our method is more general than comparable prior methods because it seamlessly handles settings with continuous action spaces, combinatorial action spaces, and partial observability. We evaluate our method on multiple domains, including the traveling salesman problem, Sokoban, 2048, the facility location problem, and Pacman. Experimentally, it outperforms comparable prior methods without assuming access to an environment simulator at execution time.
翻訳日:2023-12-05 22:30:46 公開日:2023-12-03
# CMOSセンサアレイを用いたマイクロ3次元キャパシタンストモグラフィ

Microscale 3-D Capacitance Tomography with a CMOS Sensor Array ( http://arxiv.org/abs/2309.09039v3 )

ライセンス: Link先を確認
Manar Abdelatty, Joseph Incandela, Kangping Hu, Joseph W. Larkin, Sherief Reda, Jacob K. Rosenstein(参考訳) 電気容量トモグラフィ(ECT)は、体積の内部誘電率のマップを、その境界で容量測定を行い、逆問題を解くことによって推定する非光学的イメージング技術である。 以前のECTデモはしばしばセンチメートルスケールで行われているが、ECTはマクロシステムに限定されていない。 本稿では,cmosマイクロ電極アレイを用いた高分子微粒子および細菌バイオフィルムのctイメージングを行い,空間分解能を10ミクロンとした。 さらに,センサ計測から平面外誘電率マップを再構成するための深層学習アーキテクチャと多目的学習手法を提案する。 実験の結果, 提案手法は微細な3次元構造を解くことができ, マイクロスフィアデータセットでは91.5%, バイオフィルムデータセットでは82.7%, ベースライン計算法では平均4.6%向上した。

Electrical capacitance tomography (ECT) is a nonoptical imaging technique in which a map of the interior permittivity of a volume is estimated by making capacitance measurements at its boundary and solving an inverse problem. While previous ECT demonstrations have often been at centimeter scales, ECT is not limited to macroscopic systems. In this paper, we demonstrate ECT imaging of polymer microspheres and bacterial biofilms using a CMOS microelectrode array, achieving spatial resolution of 10 microns. Additionally, we propose a deep learning architecture and an improved multi-objective training scheme for reconstructing out-of-plane permittivity maps from the sensor measurements. Experimental results show that the proposed approach is able to resolve microscopic 3-D structures, achieving 91.5% prediction accuracy on the microsphere dataset and 82.7% on the biofilm dataset, including an average of 4.6% improvement over baseline computational methods.
翻訳日:2023-12-05 22:22:18 公開日:2023-12-03
# 現代のデジタル法医学とインシデント対応における人工知能と機械学習の役割に関する包括的分析

A Comprehensive Analysis of the Role of Artificial Intelligence and Machine Learning in Modern Digital Forensics and Incident Response ( http://arxiv.org/abs/2309.07064v2 )

ライセンス: Link先を確認
Dipo Dunsin, Mohamed C. Ghanem, Karim Ouazzane, Vassil Vassilev(参考訳) デジタル法医学のダイナミックランドスケープでは、人工知能(AI)と機械学習(ML)の統合は、デジタル法医学の調査の効率と精度を増幅する、変革的な技術である。 しかし、デジタル法医学におけるMLとAIの使用は、まだ初期段階にある。 その結果、本論文は、簡単な調査やレビュー以上の、徹底的で詳細な分析を行っている。 目標は、デジタル法医学とインシデント対応において、AIとMLの技術がどのように使われているか、詳しく調べることである。 本研究では,データ収集とリカバリ,サイバー犯罪タイムラインの複雑な再構築,堅牢なビッグデータ分析,パターン認識,保護チェーンの保護,ハッキング事件に対する対応戦略の編成など,最先端の研究イニシアティブについて検討する。 この取り組みは、AI駆動の方法論がこれらの重要なデジタル法医学の実践を形作っている複雑な方法を明らかにするために、表面のずっと下を掘り下げる。 デジタル法医学におけるaiの約束は明らかであるが、データベースサイズの増加と犯罪戦術の進化から生じる課題は、デジタル法医学の専門分野における継続的な共同研究と洗練を必要とする。 本研究では,既存の研究における貢献,限界,ギャップについて検討し,AIとML技術の可能性と限界に光を当てる。 これらの異なる研究領域を探索することで、デジタル法医学とインシデント対応におけるaiの潜在能力を解き放つための戦略的計画、継続的な研究、開発の必要性を強調する。 この論文は、デジタル法医学におけるaiとmlの統合の重要性を強調し、その利点、欠点、そして現代のサイバー脅威に取り組むための幅広い意味について洞察を提供する。

In the dynamic landscape of digital forensics, the integration of Artificial Intelligence (AI) and Machine Learning (ML) stands as a transformative technology, poised to amplify the efficiency and precision of digital forensics investigations. However, the use of ML and AI in digital forensics is still in its nascent stages. As a result, this paper gives a thorough and in-depth analysis that goes beyond a simple survey and review. The goal is to look closely at how AI and ML techniques are used in digital forensics and incident response. This research explores cutting-edge research initiatives that cross domains such as data collection and recovery, the intricate reconstruction of cybercrime timelines, robust big data analysis, pattern recognition, safeguarding the chain of custody, and orchestrating responsive strategies to hacking incidents. This endeavour digs far beneath the surface to unearth the intricate ways AI-driven methodologies are shaping these crucial facets of digital forensics practice. While the promise of AI in digital forensics is evident, the challenges arising from increasing database sizes and evolving criminal tactics necessitate ongoing collaborative research and refinement within the digital forensics profession. This study examines the contributions, limitations, and gaps in the existing research, shedding light on the potential and limitations of AI and ML techniques. By exploring these different research areas, we highlight the critical need for strategic planning, continual research, and development to unlock AI's full potential in digital forensics and incident response. Ultimately, this paper underscores the significance of AI and ML integration in digital forensics, offering insights into their benefits, drawbacks, and broader implications for tackling modern cyber threats.
翻訳日:2023-12-05 22:21:32 公開日:2023-12-03
# 偏乱ランダム正則グラフ上のアンダーソンモデルにおけるロバスト拡張状態

Robust extended states in Anderson model on partially disordered random regular graphs ( http://arxiv.org/abs/2309.05691v2 )

ライセンス: Link先を確認
Daniil Kochergin, Ivan M. Khaymovich, Olga Valba, Alexander Gorsky(参考訳) 本研究では、ランダム正規グラフ(RRG)のアンサンブルにおけるモビリティエッジの起源を、接続性$d$と障害ノードの分数$\beta$で解析的に説明し、その位置を制御している。 スペクトルの運動量エッジは、無限大の均一分散障害において、ある範囲のパラメータ$(d,\beta)$で生存することが示されている。 拡張状態と局所状態とを分離する臨界曲線は解析的に導出され、数値的に確認される。 スパースと超高密度RRGの局在特性の双対性が発見され、理解されている。 モビリティエッジ物理学は、上記の部分的乱れrrgに対して数値的に解析され、ノードの非相反性パラメータや、rrg上にはほとんど存在しない短いサイクルの数によって摂動している。

In this work we analytically explain the origin of the mobility edge in the ensemble of random regular graphs (RRG), with the connectivity $d$ and the fraction $\beta$ of disordered nodes, the location of which is under control. It is shown that the mobility edge in the spectrum survives in a certain range of parameters $(d,\beta)$ at infinitely large uniformly distributed disorder. The critical curve separating extended and localized states is derived analytically and confirmed numerically. The duality in the localization properties between the sparse and extremely dense RRG has been found and understood. The mobility edge physics has been analyzed numerically for the above partially disordered RRG, perturbed by the non-reciprocity parameter of node as well as by the enhanced number of short cycles, usually almost absent on RRG.
翻訳日:2023-12-05 22:19:47 公開日:2023-12-03
# 2次元反ド・ジッター空間上の量子イジングモデル

Quantum Ising model on two dimensional anti-de Sitter space ( http://arxiv.org/abs/2309.04383v2 )

ライセンス: Link先を確認
Muhammad Asaduzzaman, Simon Catterall, Yannick Meurice and Goksu Can Toga(参考訳) 本稿では,2次元反デジッタ空間の離散化における横イジングモデルについて検討する。 我々は、古典的および量子的アルゴリズムを用いて、リアルタイム進化をシミュレートし、時間外順序相関器(OTOC)を測定する。 後者は、時間進化中の量子情報の熱化とスクランブルをプローブすることができる。 テンソルネットワークに基づく手法とゲート型超伝導量子デバイスのシミュレーションと、rydbergアレイを用いたアナログ量子シミュレーションを比較した。 この系の熱化特性を研究しながら,空間の曲率半径に応じて異なる状態が観察された。 特に、熱化時間が自由度数に対数的にのみ依存するパラメータ空間の領域が見つかる。

This paper investigates the transverse Ising model on a discretization of two-dimensional anti-de Sitter space. We use classical and quantum algorithms to simulate real-time evolution and measure out-of-time-ordered correlators (OTOC). The latter can probe thermalization and scrambling of quantum information under time evolution. We compared tensor network-based methods both with simulation on gated-based superconducting quantum devices and analog quantum simulation using Rydberg arrays. While studying this system's thermalization properties, we observed different regimes depending on the radius of curvature of the space. In particular, we find a region of parameter space where the thermalization time depends only logarithmically on the number of degrees of freedom.
翻訳日:2023-12-05 22:19:12 公開日:2023-12-03
# sarデータのラベル要求を低減するための大規模マスキング自動エンコーディング

Large Scale Masked Autoencoding for Reducing Label Requirements on SAR Data ( http://arxiv.org/abs/2310.00826v3 )

ライセンス: Link先を確認
Matt Allen, Francisco Dorr, Joseph A. Gallego-Mejia, Laura Mart\'inez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an(参考訳) 衛星によるリモートセンシングは、人為的な気候変動の影響の監視と緩和に寄与する。 これらのセンサから得られた大規模で高解像度なデータは、介入や政策決定に役立てることができるが、これらの介入のタイムラインと正確性は、夜間には動作できず、悪天候の影響を受ける光学データによって制限される。 SAR(Synthetic Aperture Radar)は、光学データに対して堅牢な代替手段を提供するが、関連する複雑さは、従来のディープラーニングのためのラベル付きデータ生成の範囲を制限する。 本研究では,地球表面積の8.7\%をカバーするSAR振幅データに対して,自己監督型事前学習スキーム,マスク付き自己エンコーディングを適用し,気候変動の監視に不可欠な2つの下流タスク(植生被覆予測と土地被覆分類)に事前トレーニングされた重量を調整した。 このプリトレーニング方式を用いることで、下流タスクのラベリング要件を1桁以上削減でき、プレトレーニングセット外の領域で下流タスクをチューニングした場合のパフォーマンス向上により、地理的に一般化できることを示す。 課題と地域固有のSARモデルの開発を促進することで気候変動の緩和を著しく促進し、地域社会や組織が気候変動効果の迅速かつ正確なモニタリングのために調整されたソリューションを展開できるようにする。

Satellite-based remote sensing is instrumental in the monitoring and mitigation of the effects of anthropogenic climate change. Large scale, high resolution data derived from these sensors can be used to inform intervention and policy decision making, but the timeliness and accuracy of these interventions is limited by use of optical data, which cannot operate at night and is affected by adverse weather conditions. Synthetic Aperture Radar (SAR) offers a robust alternative to optical data, but its associated complexities limit the scope of labelled data generation for traditional deep learning. In this work, we apply a self-supervised pretraining scheme, masked autoencoding, to SAR amplitude data covering 8.7\% of the Earth's land surface area, and tune the pretrained weights on two downstream tasks crucial to monitoring climate change - vegetation cover prediction and land cover classification. We show that the use of this pretraining scheme reduces labelling requirements for the downstream tasks by more than an order of magnitude, and that this pretraining generalises geographically, with the performance gain increasing when tuned downstream on regions outside the pretraining set. Our findings significantly advance climate change mitigation by facilitating the development of task and region-specific SAR models, allowing local communities and organizations to deploy tailored solutions for rapid, accurate monitoring of climate change effects.
翻訳日:2023-12-05 22:13:23 公開日:2023-12-03
# 地球観測タスクのためのグローバルマルチモーダル埋め込みに関するFewshot Learning

Fewshot learning on global multimodal embeddings for earth observation tasks ( http://arxiv.org/abs/2310.00119v2 )

ライセンス: Link先を確認
Matt Allen, Francisco Dorr, Joseph A. Gallego-Mejia, Laura Mart\'inez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an(参考訳) 本研究では,地球全体の陸地質量の約10 %以上を占める5つのAOIの衛星画像,すなわちSentinel 2 RGB光画像,Sentinel 1 SARレーダー振幅と干渉コヒーレンスを用いて,CLIP/ViTベースモデルを事前訓練する。 このモデルは$\sim 250$Mパラメータを使用する。 次に,モダリティ毎に生成された埋め込みを古典的機械学習手法で利用し,植生,表層,耕作地,常水などに関連する地層観測のための異なる下流タスクを試みる。 ラベル付きデータの必要性を99\%削減する方法を一貫して示すことで、200~500のランダムに選択されたラベル付き例(約4k-10k km$^2$)で、すべてのモダリティ、aoisおよびダウンストリームタスクにおいて、完全なラベル付きデータセット(約150kイメージチップまたは3m km$^2$)で達成されたパフォーマンスレベルに到達します。 これにより、このモデルが様々なシナリオで有用な重要な地球の特徴を捉えたと考えることができる。 モデルのユーザビリティを実際に強化するために、そのアーキテクチャは、各モダリティ内のモダリティの欠如やチャネルの欠如を伴うコンテキストにおける推論を可能にします。 さらに,ラベルのない埋め込み空間は,私たちが選択したラベル付きデータセットで表される異なる地球の特徴に合理性があることを視覚的に示す。

In this work we pretrain a CLIP/ViT based model using three different modalities of satellite imagery across five AOIs covering over ~10\% of Earth's total landmass, namely Sentinel 2 RGB optical imagery, Sentinel 1 SAR radar amplitude and interferometric coherence. This model uses $\sim 250$ M parameters. Then, we use the embeddings produced for each modality with a classical machine learning method to attempt different downstream tasks for earth observation related to vegetation, built up surface, croplands and permanent water. We consistently show how we reduce the need for labeled data by 99\%, so that with ~200-500 randomly selected labeled examples (around 4K-10K km$^2$) we reach performance levels analogous to those achieved with the full labeled datasets (about 150K image chips or 3M km$^2$ in each area of interest - AOI) on all modalities, AOIs and downstream tasks. This leads us to think that the model has captured significant earth features useful in a wide variety of scenarios. To enhance our model's usability in practice, its architecture allows inference in contexts with missing modalities and even missing channels within each modality. Additionally, we visually show that this embedding space, obtained with no labels, is sensible to the different earth features represented by the labelled datasets we selected.
翻訳日:2023-12-05 22:12:33 公開日:2023-12-03
# 科学シミュレーションと設計を加速するニューラル演算子

Neural Operators for Accelerating Scientific Simulations and Design ( http://arxiv.org/abs/2309.15325v4 )

ライセンス: Link先を確認
Kamyar Azizzadenesheli, Nikola Kovachki, Zongyi Li, Miguel Liu-Schiaffini, Jean Kossaifi, Anima Anandkumar(参考訳) 科学的発見と工学的設計は、物理実験の時間とコストによって制限されており、主にドメインの深い専門知識を必要とする試行錯誤と直観によって選択されている。 数値シミュレーションは物理実験に代わるものであるが、既存の数値手法の計算要件のため、通常複雑な実世界領域では実現不可能である。 人工知能(AI)は、高速なデータ駆動サロゲートモデルを開発することによって、潜在的なパラダイムシフトを示す。 特に、ニューラル演算子として知られるAIフレームワークは、例えば時空間過程や偏微分方程式(PDE)など、連続領域上で定義された関数間の写像を学習するための原則化されたフレームワークを提供する。 トレーニング中に見つからない新しい場所で、すなわちゼロショット超解像を行うソリューションを外挿し、予測することができる。 ニューラル演算子は、計算流体力学、天気予報、物質モデリングなど、多くのアプリケーションで既存のシミュレータを拡張または置き換えることができるが、4-5桁高速である。 さらに、神経演算子は、より細かい解像度で強制される物理学やその他の領域の制約と統合でき、高忠実性ソリューションと良好な一般化を得ることができる。 ニューラル演算子は微分可能であるため、逆設計や他の逆問題に対するパラメータを直接最適化することができる。 ニューラルオペレーターは、シミュレーションと設計に対する変革的なアプローチを示し、迅速な研究と開発を可能にしていると信じている。

Scientific discovery and engineering design are currently limited by the time and cost of physical experiments, selected mostly through trial-and-error and intuition that require deep domain expertise. Numerical simulations present an alternative to physical experiments but are usually infeasible for complex real-world domains due to the computational requirements of existing numerical methods. Artificial intelligence (AI) presents a potential paradigm shift by developing fast data-driven surrogate models. In particular, an AI framework, known as neural operators, presents a principled framework for learning mappings between functions defined on continuous domains, e.g., spatiotemporal processes and partial differential equations (PDE). They can extrapolate and predict solutions at new locations unseen during training, i.e., perform zero-shot super-resolution. Neural operators can augment or even replace existing simulators in many applications, such as computational fluid dynamics, weather forecasting, and material modeling, while being 4-5 orders of magnitude faster. Further, neural operators can be integrated with physics and other domain constraints enforced at finer resolutions to obtain high-fidelity solutions and good generalization. Since neural operators are differentiable, they can directly optimize parameters for inverse design and other inverse problems. We believe that neural operators present a transformative approach to simulation and design, enabling rapid research and development.
翻訳日:2023-12-05 22:09:16 公開日:2023-12-03
# 時系列予測: 差分データによる長期依存の解放

Time-Series Forecasting: Unleashing Long-Term Dependencies with Fractionally Differenced Data ( http://arxiv.org/abs/2309.13409v4 )

ライセンス: Link先を確認
Sarit Maitra, Vivek Mishra, Srashti Dwivedi, Sukanya Kundu, Goutam Kumar Kundu(参考訳) 本研究では,分数差分(FD)のパワーを利用して時系列データにおける短期的および長期的依存関係を捉える新しい予測手法を提案する。 従来の整数差分法とは異なり、FDはメモリを連続的に保存し、モデリングのために安定化する。 スパイ指標からの金融データにfdを適用し,ニュースレポートからの感情分析を組み込むことで,fdの有効性を目標変数のバイナリ分類と組み合わせて検討する。 教師付き分類アルゴリズムを用いてFDシリーズの性能を検証した。 その結果, 整数差に対するFDの優位性を示し, 受信器動作特性/Area Under the Curve (ROCAUC) とMathews correlation Coefficient (MCC) の評価で確認された。

This study introduces a novel forecasting strategy that leverages the power of fractional differencing (FD) to capture both short- and long-term dependencies in time series data. Unlike traditional integer differencing methods, FD preserves memory in series while stabilizing it for modeling purposes. By applying FD to financial data from the SPY index and incorporating sentiment analysis from news reports, this empirical analysis explores the effectiveness of FD in conjunction with binary classification of target variables. Supervised classification algorithms were employed to validate the performance of FD series. The results demonstrate the superiority of FD over integer differencing, as confirmed by Receiver Operating Characteristic/Area Under the Curve (ROCAUC) and Mathews Correlation Coefficient (MCC) evaluations.
翻訳日:2023-12-05 22:07:51 公開日:2023-12-03
# 機械学習を用いたスパムURLの分類

Classification of Spam URLs Using Machine Learning Approaches ( http://arxiv.org/abs/2310.05953v2 )

ライセンス: Link先を確認
Omar Husni Odeh, Anas Arram, and Murad Njoum(参考訳) インターネットは、高速で無料のコミュニケーションツールとプラットフォームを提供するため、毎日何十億ものユーザーが使っている。 しかし、この使用量の増加により、大量のスパムが毎秒発生し、インターネットリソースを浪費し、さらに重要なのは、ユーザの時間を浪費する。 本研究では,スパムや非スパムとしてurlを分類する機械学習モデルについて検討する。 まず,1つの特徴しか持たないurlから特徴を抽出し,k近傍,袋詰,ランダムフォレスト,ロジスティック回帰など,いくつかのモデルの性能を比較する。 実験の結果、袋詰めが他のモデルよりも優れ、98.64%の精度を達成した。 さらに、バッグングは、インターネット上のスパム関連の課題に対処する効果を強調した現在の最先端アプローチよりも優れていた。 これは、バッジがURLスパム分類にとって有望なアプローチであることを示している。

The Internet is used by billions of users every day because it offers fast and free communication tools and platforms. Nevertheless, with this significant increase in usage, huge amounts of spam are generated every second, which wastes internet resources and, more importantly, users' time. This study investigates the use of machine learning models to classify URLs as spam or nonspam. We first extract the features from the URL as it has only one feature, and then we compare the performance of several models, including k nearest neighbors, bagging, random forest, logistic regression, and others. Experimental results demonstrate that bagging outperformed other models and achieved the highest accuracy of 98.64%. In addition, bagging outperformed the current state-of-the-art approaches which emphasize its effectiveness in addressing spam-related challenges on the Internet. This suggests that bagging is a promising approach for URL spam classification.
翻訳日:2023-12-05 21:58:54 公開日:2023-12-03
# HallE-Switch:大規模視覚言語モデルにおける物体の幻覚制御

HallE-Switch: Controlling Object Hallucination in Large Vision Language Models ( http://arxiv.org/abs/2310.01779v2 )

ライセンス: Link先を確認
Bohan Zhai, Shijia Yang, Chenfeng Xu, Sheng Shen, Kurt Keutzer, Manling Li(参考訳) 現在の大型視覚言語モデル(lvlms)は著しい進歩を遂げているが、視覚の詳細を正確に把握する能力、すなわち詳細なキャプションの実行については、大きな不確実性が残っている。 そこで我々は,詳細な字幕作成に適した GPT-4 支援評価手法である $\textit{CCEval}$ を導入する。 興味深いことに、既存のVQAベンチマークでは、LVLMは最小限のオブジェクト存在幻覚を示すが、提案した評価は、そのような幻覚に対する継続的な感受性を示す。 本稿では,画像解像度,言語デコーダサイズ,命令データ量,品質,粒度など,さまざまな側面からその幻覚を調べる最初の試みを行う。 言語記述が視覚モジュールの接地や検証よりも細かな物体の粒度の詳細を含む場合, 幻覚を誘発する際の不規則な推論の根拠となる。 このような幻覚を制御するために、キャプションの信頼性は文脈的知識(文脈的接地対象のみを含む)とパラメトリック知識(モデルによる推論対象を含む)に比例する。 したがって、オブジェクト $\textbf{Hall}$xistence における $\textbf{Hall}$ucination という用語で制御可能な LVLM である $\textit{HallE-Switch}$ を導入する。 HallE-Switchはキャプションの切り替えを条件にできる (i)接地対象の文脈知識を専ら描くこと、及び (ii)推測対象を想像するためにパラメトリック知識とブレンドすること。 LLaVA$_{7B}$に比べて幻覚は44%減少し,同じ対象範囲を維持している。

Current large vision-language models (LVLMs) achieve remarkable progress, yet there remains significant uncertainty regarding their ability to accurately apprehend visual details, that is, in performing detailed captioning. To address this, we introduce $\textit{CCEval}$, a GPT-4 assisted evaluation method tailored for detailed captioning. Interestingly, while LVLMs demonstrate minimal object existence hallucination in existing VQA benchmarks, our proposed evaluation reveals continued susceptibility to such hallucinations. In this paper, we make the first attempt to investigate such hallucination from different aspects, including image resolution, the language decoder size, and instruction data amount, quality, granularity. Our findings underscore the unwarranted inference when the language description includes details at a finer object granularity than what the vision module can ground or verify, thus inducing hallucination. To control such hallucinations, we further attribute the reliability of captioning to contextual knowledge (involving only contextually grounded objects) and parametric knowledge (containing inferred objects by the model). Thus, we introduce $\textit{HallE-Switch}$, a controllable LVLM in terms of $\textbf{Hall}$ucination in object $\textbf{E}$xistence. HallE-Switch can condition the captioning to shift between (i) exclusively depicting contextual knowledge for grounded objects and (ii) blending it with parametric knowledge to imagine inferred objects. Our method reduces hallucination by 44% compared to LLaVA$_{7B}$ and maintains the same object coverage.
翻訳日:2023-12-05 21:56:37 公開日:2023-12-03
# ImagenHub:条件付き画像生成モデルの標準化

ImagenHub: Standardizing the evaluation of conditional image generation models ( http://arxiv.org/abs/2310.01596v3 )

ライセンス: Link先を確認
Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen(参考訳) 近年,テキスト対画像生成,テキストガイド画像編集,主題駆動画像生成,制御ガイド画像生成など,さまざまな下流タスクを行うための条件付き画像生成・編集モデルが数多く開発されている。 しかし,実験条件では,データセット,推論,評価指標の公正比較が困難である。 本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。 まず,7つのタスクを定義し,高品質な評価データセットをキュレートする。 次に、公正な比較を保証するために、統一的な推論パイプラインを構築しました。 第3に,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。 提案した指標に基づいてモデル出力を評価するために,専門家のレーダを訓練する。 評価の結果,0.4以上の76%モデルにおいて,krippendorff's alphaの高い同僚間合意が得られた。 1) 既存のモデルの性能はテキスト誘導画像生成と主観駆動画像生成を除いて概ね不満足であり, 74% のモデルが 0.5 未満のスコアを達成している。 2) 論文のクレームを検証したところ, 83%が例外を除いて保持していることがわかった。 (3)既存の自動測度のうち,主観駆動画像生成以外のスピアマン相関は0.2以上である。 今後は、新たに公開されたモデルの評価と、条件付き画像生成の進捗状況を追跡するためのリーダーボードの更新を進めていく。

Recently, a myriad of conditional image generation and editing models have been developed to serve different downstream tasks, including text-to-image generation, text-guided image editing, subject-driven image generation, control-guided image generation, etc. However, we observe huge inconsistencies in experimental conditions: datasets, inference, and evaluation metrics - render fair comparisons difficult. This paper proposes ImagenHub, which is a one-stop library to standardize the inference and evaluation of all the conditional image generation models. Firstly, we define seven prominent tasks and curate high-quality evaluation datasets for them. Secondly, we built a unified inference pipeline to ensure fair comparison. Thirdly, we design two human evaluation scores, i.e. Semantic Consistency and Perceptual Quality, along with comprehensive guidelines to evaluate generated images. We train expert raters to evaluate the model outputs based on the proposed metrics. Our human evaluation achieves a high inter-worker agreement of Krippendorff's alpha on 76% models with a value higher than 0.4. We comprehensively evaluated a total of around 30 models and observed three key takeaways: (1) the existing models' performance is generally unsatisfying except for Text-guided Image Generation and Subject-driven Image Generation, with 74% models achieving an overall score lower than 0.5. (2) we examined the claims from published papers and found 83% of them hold with a few exceptions. (3) None of the existing automatic metrics has a Spearman's correlation higher than 0.2 except subject-driven image generation. Moving forward, we will continue our efforts to evaluate newly published models and update our leaderboard to keep track of the progress in conditional image generation.
翻訳日:2023-12-05 21:56:07 公開日:2023-12-03
# 1次元零温度におけるu(1)対称性の自発的破断

Spontaneous breaking of U(1) symmetry at zero temperature in one dimension ( http://arxiv.org/abs/2310.16881v2 )

ライセンス: Link先を確認
Haruki Watanabe, Hosho Katsura, Jong Yeon Lee(参考訳) hohenberg-mermin-wagner の定理は、有限温度での空間次元 $d\leq2$ における連続対称性の自発的破れは存在しないことを述べる。 ゼロ温度では、古典/量子写像はさらに、相対論的量子場理論の文脈でコールマンの定理として知られる1次元における連続対称性の破れの欠如を意味する。 ハイゼンベルク・強磁性体の古典的な例と変種を除いて、定理に対する反例は知られていない。 このレターでは、秩序パラメータはハイゼンベルク強磁性体のようにハミルトニアンと可換ではないが、U(1)対称性の自発的な破壊を零温度で示す新しい例について議論する。 この振る舞いに対するより一般的な条件は、ハミルトニアンがフラストレーションのないことである。

The Hohenberg--Mermin--Wagner theorem states that there is no spontaneous breaking of continuous symmetries in spatial dimensions $d\leq2$ at finite temperature. At zero temperature, the classical/quantum mapping further implies the absence of continuous symmetry breaking in one dimension, which is also known as Coleman's theorem in the context of relativistic quantum field theories. Except for the classic example of the Heisenberg ferromagnet and its variations, there has been no known counterexample to the theorem. In this Letter, we discuss new examples that display spontaneous breaking of a U(1) symmetry at zero temperature, although the order parameter does not commute with the Hamiltonian unlike the Heisenberg ferromagnet. We argue that a more general condition for this behavior is that the Hamiltonian is frustration-free.
翻訳日:2023-12-05 21:49:46 公開日:2023-12-03
# 非公式文書の抽象的コード要約のための深層学習の活用

Leveraging Deep Learning for Abstractive Code Summarization of Unofficial Documentation ( http://arxiv.org/abs/2310.15015v4 )

ライセンス: Link先を確認
AmirHossein Naghshzan, Latifa Guerrouj, Olga Baysal(参考訳) 通常、プログラミング言語には、API、メソッド、クラスで開発者をガイドする公式ドキュメントがある。 しかし研究者たちは、APIを学ぶための障壁として、APIの複雑な構造に関する不十分で不十分なドキュメント例と欠陥を特定した。 その結果、開発者はAPIについて詳しく知るために他のソース(StackOverflow、GitHubなど)を参照することができる。 近年の研究では、非公式な文書がコード要約を生成する貴重な情報源であることが示されている。 そこで我々は,このようなドキュメンテーションと深層学習技術を活用して,非公式なドキュメンテーションで議論されたAPIの高品質な要約を生成する動機付けを行った。 本稿では,StackOverflowで議論されているAPIの要約を生成するために,最先端のトランスフォーマーモデルであるBARTアルゴリズムを用いた自動アプローチを提案する。 我々は,テキスト要約において最も広く利用されている評価指標であるROUGEとBLEUを用いて,そのアプローチを評価するために,人為的な要約のオラクルを構築した。 さらに,前回の作業に対して,品質の観点から経験的に要約を評価した。 以上の結果から,深層学習アルゴリズムを用いることで,要約の質が向上し,精度が平均 %57,リコールが %66,f-measure が %61 となり,動作速度が4.4 倍速くなった。

Usually, programming languages have official documentation to guide developers with APIs, methods, and classes. However, researchers identified insufficient or inadequate documentation examples and flaws with the API's complex structure as barriers to learning an API. As a result, developers may consult other sources (StackOverflow, GitHub, etc.) to learn more about an API. Recent research studies have shown that unofficial documentation is a valuable source of information for generating code summaries. We, therefore, have been motivated to leverage such a type of documentation along with deep learning techniques towards generating high-quality summaries for APIs discussed in informal documentation. This paper proposes an automatic approach using the BART algorithm, a state-of-the-art transformer model, to generate summaries for APIs discussed in StackOverflow. We built an oracle of human-generated summaries to evaluate our approach against it using ROUGE and BLEU metrics which are the most widely used evaluation metrics in text summarization. Furthermore, we evaluated our summaries empirically against a previous work in terms of quality. Our findings demonstrate that using deep learning algorithms can improve summaries' quality and outperform the previous work by an average of %57 for Precision, %66 for Recall, and %61 for F-measure, and it runs 4.4 times faster.
翻訳日:2023-12-05 21:48:27 公開日:2023-12-03
# トランスフォーマーは、無線通信のための効率的なコンテキスト内推定器である

Transformers are Efficient In-Context Estimators for Wireless Communication ( http://arxiv.org/abs/2311.00226v2 )

ライセンス: Link先を確認
Vicram Rajagopalan, Vishnu Teja Kunde, Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Srinivas Shakkottai, Dileep Kalathil, Jean-Francois Chamberland(参考訳) 事前学習されたトランスフォーマーはコンテキスト内学習を行い、明示的なモデル最適化なしに少数のプロンプトのみを使用して新しいタスクに適応する。 この属性に触発されて、受信シンボルから送信シンボルを推定する標準通信問題に対して、インコンテキスト推定と呼ばれる新しい手法を提案する。 通信チャネルは、送信されたシンボルを受信したシンボルにマッピングするノイズの多い関数であり、この関数は、統計が(未知の)潜在文脈に依存する未知のパラメータで表すことができる。 従来のアプローチは通常、潜在コンテキストを持つ階層モデルを完全には活用しない。 代わりに、チャネルパラメータの線形最小平均二乗誤差推定を形成するために、しばしばミスマッチプリアーを使用し、その後、連続した未知の送信シンボルを推定するために使用される。 そこで我々は,トランスフォーマーがいくつかのプロンプトで優れたコンテクストシーケンス完了を示す基本的接続を構築し,パイロットシンボルから潜在コンテキストを暗黙的に決定し,送信されたシンボルのエンドツーエンドのインコンテキスト推定を行う。 さらに、トランスフォーマーは、最高のシンボル推定を達成するために、受信したパイロットを効率的に利用すべきである。 広範囲なシミュレーションを通じて,文脈内推定が標準手法を著しく上回るだけでなく,いくつかの文脈例において潜在文脈の完全な知識を持つ推定者と同じ性能が得られることを示す。 したがって、トランスフォーマーが通信環境において効率的なインコンテクスト推定器であることを示す。

Pre-trained transformers can perform in-context learning, where they adapt to a new task using only a small number of prompts without any explicit model optimization. Inspired by this attribute, we propose a novel approach, called in-context estimation, for the canonical communication problem of estimating transmitted symbols from received symbols. A communication channel is essentially a noisy function that maps transmitted symbols to received symbols, and this function can be represented by an unknown parameter whose statistics depend on an (also unknown) latent context. Conventional approaches typically do not fully exploit hierarchical model with the latent context. Instead, they often use mismatched priors to form a linear minimum mean-squared error estimate of the channel parameter, which is then used to estimate successive, unknown transmitted symbols. We make the basic connection that transformers show excellent contextual sequence completion with a few prompts, and so they should be able to implicitly determine the latent context from pilot symbols to perform end-to-end in-context estimation of transmitted symbols. Furthermore, the transformer should use information efficiently, i.e., it should utilize any pilots received to attain the best possible symbol estimates. Through extensive simulations, we show that in-context estimation not only significantly outperforms standard approaches, but also achieves the same performance as an estimator with perfect knowledge of the latent context within a few context examples. Thus, we make a strong case that transformers are efficient in-context estimators in the communication setting.
翻訳日:2023-12-05 21:36:50 公開日:2023-12-03
# ChipNeMo: チップ設計のためのドメイン適応LDM

ChipNeMo: Domain-Adapted LLMs for Chip Design ( http://arxiv.org/abs/2311.00176v3 )

ライセンス: Link先を確認
Mingjie Liu, Teodor-Dumitru Ene, Robert Kirby, Chris Cheng, Nathaniel Pinckney, Rongjian Liang, Jonah Alben, Himyanshu Anand, Sanmitra Banerjee, Ismet Bayraktaroglu, Bonita Bhaskaran, Bryan Catanzaro, Arjun Chaudhuri, Sharon Clay, Bill Dally, Laura Dang, Parikshit Deshpande, Siddhanth Dhodhi, Sameer Halepete, Eric Hill, Jiashang Hu, Sumit Jain, Brucek Khailany, George Kokai, Kishor Kunal, Xiaowei Li, Charley Lind, Hao Liu, Stuart Oberman, Sujeet Omar, Sreedhar Pratty, Jonathan Raiman, Ambar Sarkar, Zhengjiang Shao, Hanfei Sun, Pratik P Suthar, Varun Tej, Walker Turner, Kaizhe Xu, Haoxing Ren(参考訳) ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の適用を探求することを目的としている。 市販またはオープンソース LLM を直接デプロイする代わりに、カスタムトークン化、ドメイン適応型継続事前トレーニング、ドメイン固有命令による教師付き微調整(SFT)、ドメイン適応型検索モデルといったドメイン適応技術を採用しています。 チップ設計のための3つのLLMアプリケーション(エンジニアリングアシスタントチャットボット、EDAスクリプト生成、バグ要約と解析)でこれらの手法を評価する。 これらのドメイン適応手法により,評価された3つのアプリケーションにおいて,汎用ベースモデルよりも大幅にllm性能が向上し,様々な設計タスクにおいて,最大5倍のモデルサイズ削減が可能となった。 私たちの調査結果は、現在の結果と理想的な結果の間にはまだ改善の余地があることも示しています。 ドメイン適応型LLMアプローチのさらなる研究は、将来このギャップを埋めるのに役立つと信じている。

ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.
翻訳日:2023-12-05 21:36:22 公開日:2023-12-03
# コンテキスト認識による効率的なIoT推論

Efficient IoT Inference via Context-Awareness ( http://arxiv.org/abs/2310.19112v2 )

ライセンス: Link先を確認
Mohammad Mehdi Rastikerdar, Jin Huang, Shiwei Fang, Hui Guan, Deepak Ganesan(参考訳) 低消費電力プラットフォーム上でディープラーニングベースの分類を実行するための既存の戦略は、モデルがあらゆる種類の関心に基づいて訓練されていることを前提としているが、近年の推論クエリのみからなる現在のデプロイメントコンテキストへの分類タスクの絞り込みは、リソース制約のある環境におけるパフォーマンスを大幅に向上させる可能性がある。 そこで我々は,マイクロ分類器が現在のコンテキストに関連する少数のクラスを認識し,コンテキスト変化が発生した場合(例えば,新しいクラスがシーンに現れる)に,すぐに他の適切なマイクロ分類器に切り替える,スケーラブルで効率的なコンテキスト認識分類のための新しいパラダイムであるCACTUSを提案する。 CACTUSには、コンテキスト認識型分類器のトレーニングコストの最適化、オンザフライでコンテキスト認識型分類器間の切り替えを可能にすること、コンテキスト切替コストとパフォーマンス向上のバランスをとることなど、いくつかのイノベーションがある。 我々は、CACTUSが、さまざまなデータセットやIoTプラットフォームにわたる正確性、レイテンシ、計算予算において、大きなメリットを達成していることを示す。

While existing strategies to execute deep learning-based classification on low-power platforms assume the models are trained on all classes of interest, this paper posits that adopting context-awareness i.e. narrowing down a classification task to the current deployment context consisting of only recent inference queries can substantially enhance performance in resource-constrained environments. We propose a new paradigm, CACTUS, for scalable and efficient context-aware classification where a micro-classifier recognizes a small set of classes relevant to the current context and, when context change happens (e.g., a new class comes into the scene), rapidly switches to another suitable micro-classifier. CACTUS features several innovations, including optimizing the training cost of context-aware classifiers, enabling on-the-fly context-aware switching between classifiers, and balancing context switching costs and performance gains via simple yet effective switching policies. We show that CACTUS achieves significant benefits in accuracy, latency, and compute budget across a range of datasets and IoT platforms.
翻訳日:2023-12-05 21:34:51 公開日:2023-12-03
# AnomalyCLIP:ゼロショット異常検出のための物体認識型プロンプト学習

AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2310.18961v3 )

ライセンス: Link先を確認
Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen(参考訳) ゼロショット異常検出(ZSAD)は、ターゲットデータセットのトレーニングサンプルなしで異常を検出するために補助データを使用してトレーニングされた検出モデルを必要とする。 データプライバシなどさまざまな懸念があるため、データのトレーニングがアクセスできない場合、重要なタスクですが、前景オブジェクトや異常領域、さまざまな製品や組織における欠陥や腫瘍などのバックグラウンド特徴の出現が著しく変化するような、さまざまなドメインの異常に一般化する必要があるため、非常に難しいのです。 近年,クリップなどの大規模事前学習型視覚言語モデル(vlms)が,異常検出を含む様々な視覚課題において強いゼロショット認識能力を示している。 しかし、VLMは画像の異常や異常ではなく、前景オブジェクトのクラスセマンティクスをモデル化することに重点を置いているため、ZSAD性能は弱い。 本稿では、AnomalyCLIPと呼ばれる新しいアプローチを導入し、CLIPを異なる領域にわたる正確なZSADに適用する。 AnomalyCLIPの重要な洞察は、オブジェクトに依存しないテキストのプロンプトを学習し、前景のオブジェクトに関係なく画像の一般的な正規性と異常を捉えることである。 これにより、モデルがオブジェクトのセマンティクスよりも異常な画像領域に焦点を合わせ、様々な種類のオブジェクトに対する一般化された正規性と異常認識を可能にします。 17の現実世界の異常検出データセットに関する大規模実験では、様々な欠陥検査や医療画像領域からの多種多様なクラスセマンティクスのデータセットにおいて、異常を検出および分割する優れたゼロショット性能が得られた。 コードはhttps://github.com/zqhang/AnomalyCLIPで公開される。

Zero-shot anomaly detection (ZSAD) requires detection models trained using auxiliary data to detect anomalies without any training sample in a target dataset. It is a crucial task when training data is not accessible due to various concerns, \eg, data privacy, yet it is challenging since the models need to generalize to anomalies across different domains where the appearance of foreground objects, abnormal regions, and background features, such as defects/tumors on different products/organs, can vary significantly. Recently large pre-trained vision-language models (VLMs), such as CLIP, have demonstrated strong zero-shot recognition ability in various vision tasks, including anomaly detection. However, their ZSAD performance is weak since the VLMs focus more on modeling the class semantics of the foreground objects rather than the abnormality/normality in the images. In this paper we introduce a novel approach, namely AnomalyCLIP, to adapt CLIP for accurate ZSAD across different domains. The key insight of AnomalyCLIP is to learn object-agnostic text prompts that capture generic normality and abnormality in an image regardless of its foreground objects. This allows our model to focus on the abnormal image regions rather than the object semantics, enabling generalized normality and abnormality recognition on diverse types of objects. Large-scale experiments on 17 real-world anomaly detection datasets show that AnomalyCLIP achieves superior zero-shot performance of detecting and segmenting anomalies in datasets of highly diverse class semantics from various defect inspection and medical imaging domains. Code will be made available at https://github.com/zqhang/AnomalyCLIP.
翻訳日:2023-12-05 21:34:32 公開日:2023-12-03
# ソーシャルコントラクトAI: 不正なグループノルムによるAIアシスタントの調整

Social Contract AI: Aligning AI Assistants with Implicit Group Norms ( http://arxiv.org/abs/2310.17769v2 )

ライセンス: Link先を確認
Jan-Philipp Fr\"anken, Sam Kwok, Peixuan Ye, Kanishk Gandhi, Dilip Arumugam, Jared Moore, Alex Tamkin, Tobias Gerstenberg, Noah D. Goodman(参考訳) 我々は、観察したインタラクションからユーザの(未知の)好みのモデルを反転させることで、aiアシスタントを連携させるアイデアを探求する。 提案手法を検証するために,我々は,シミュレーションされたプレイヤーの行動を導くポリシーとして,ユーザの好みを定式化する,概念実証シミュレーションを行う。 AIアシスタントは、経済文献(例えば、利己的、利他的)の標準方針と一致するように、その振る舞いを正確に整合させる。 しかし、助手の学習方針は堅牢性に欠けており、助手の訓練分布に含まれない通貨(例えば、薬のグラム)と対立した場合、分配外設定において限定的な一般化を示す。 さらに、言語使用と未知の政策(例えば、無作為な言語と組み合わせた利他主義的な政策)の関係に矛盾がある場合、その政策に対するアシスタントの学習は遅くなる。 全体としては,aiアシスタントが多様なユーザの好みを推測する必要があるシミュレーションフレームワークの開発が,実践的アライメント問題の研究に有用なアプローチとなることを示唆する。

We explore the idea of aligning an AI assistant by inverting a model of users' (unknown) preferences from observed interactions. To validate our proposal, we run proof-of-concept simulations in the economic ultimatum game, formalizing user preferences as policies that guide the actions of simulated players. We find that the AI assistant accurately aligns its behavior to match standard policies from the economic literature (e.g., selfish, altruistic). However, the assistant's learned policies lack robustness and exhibit limited generalization in an out-of-distribution setting when confronted with a currency (e.g., grams of medicine) that was not included in the assistant's training distribution. Additionally, we find that when there is inconsistency in the relationship between language use and an unknown policy (e.g., an altruistic policy combined with rude language), the assistant's learning of the policy is slowed. Overall, our preliminary results suggest that developing simulation frameworks in which AI assistants need to infer preferences from diverse users can provide a valuable approach for studying practical alignment questions.
翻訳日:2023-12-05 21:32:50 公開日:2023-12-03
# アスペクトベース感覚分析(ABSA)の体系的レビュー : 領域,方法,動向

A Systematic Review of Aspect-based Sentiment Analysis (ABSA): Domains, Methods, and Trends ( http://arxiv.org/abs/2311.10777v3 )

ライセンス: Link先を確認
Yan Cathy Hua, Paul Denny, Katerina Taskova, J\"org Wicker(参考訳) アスペクトベース感情分析(Aspect-based Sentiment Analysis、ABSA)は、特定のテキストからアスペクトと関連する意見を識別する、きめ細かい感情分析(SA)の一種である。 デジタル時代に入ると、ABSAは洞察と支援決定を得るために世論的なテキストデータのマイニングに人気を博し、応用した。 ABSAの研究は言語、統計、機械学習のアプローチを採用し、ラベル付きデータセット、アスペクト、感情のレキシコン、オントロジーなどのリソースを利用する。 本質的にABSAはドメインに依存しており、リソースとアプリケーションドメイン間のミスアライメントの影響に敏感である。 しかし、我々の知る限り、この話題は既存のABSA文献レビューでは検討されていない。 本稿では,研究アプリケーションドメイン,データセットドメイン,研究手法に着目したabsa研究の体系的文献レビュー(slr)を行い,それらの関係を調べ,経時的傾向を同定する。 本研究は,特定の研究アプリケーションドメインを持たない研究の大部分において,‘製品/サービスレビュー’データセットドメインの優位性や,教師付き機械学習などのデータセット・レジリエントな手法の普及など,ABSA研究文献における潜在的なシステム的問題について示唆する。 このレビューはABSAの研究分野に多くのユニークな貢献をしている。 1) 本知識は, 研究領域, データセット領域, 研究方法を体系的な視点で関連付けた最初のslrである。 2)ABSAにおける最大範囲のSLRの1つであり、時間制約のない4191の検索結果から519の適格な研究をフィルタリングする。 3) 評価手法は, スクリーニング品質と信頼性を高めるpdfマイニングに基づく革新的な自動フィルタリング手法を採用した。 提案とレビューの制限についても論じた。

Aspect-based Sentiment Analysis (ABSA) is a type of fine-grained sentiment analysis (SA) that identifies aspects and the associated opinions from a given text. In the digital era, ABSA gained increasing popularity and applications in mining opinionated text data to obtain insights and support decisions. ABSA research employs linguistic, statistical, and machine-learning approaches and utilises resources such as labelled datasets, aspect and sentiment lexicons and ontology. By its nature, ABSA is domain-dependent and can be sensitive to the impact of misalignment between the resource and application domains. However, to our knowledge, this topic has not been explored by the existing ABSA literature reviews. In this paper, we present a Systematic Literature Review (SLR) of ABSA studies with a focus on the research application domain, dataset domain, and the research methods to examine their relationships and identify trends over time. Our results suggest a number of potential systemic issues in the ABSA research literature, including the predominance of the ``product/service review'' dataset domain among the majority of studies that did not have a specific research application domain, coupled with the prevalence of dataset-reliant methods such as supervised machine learning. This review makes a number of unique contributions to the ABSA research field: 1) To our knowledge, it is the first SLR that links the research domain, dataset domain, and research method through a systematic perspective; 2) it is one of the largest scoped SLR on ABSA, with 519 eligible studies filtered from 4191 search results without time constraint; and 3) our review methodology adopted an innovative automatic filtering process based on PDF-mining, which enhanced screening quality and reliability. Suggestions and our review limitations are also discussed.
翻訳日:2023-12-05 21:25:54 公開日:2023-12-03
# 野生の言語モデルエージェントを安全にテストする

Testing Language Model Agents Safely in the Wild ( http://arxiv.org/abs/2311.10538v3 )

ライセンス: Link先を確認
Silen Naihin, David Atkinson, Marc Green, Merwane Hamadi, Craig Swift, Douglas Schonholtz, Adam Tauman Kalai, David Bau(参考訳) 安全な自己完結のための前提条件は、安全な自己完結テストです。 しかし、現実の自律テストは、テスト中に危害をもたらす可能性があることや、現実世界や潜在的に悪意のあるアクターとの相互作用を通じて、新しい安全でないエージェントの振る舞いに遭遇するリスクなど、いくつかのユニークな安全上の課題に直面している。 我々は,オープンインターネット上で安全な自律エージェントテストを実施するための枠組みを提案する。エージェントアクションは,安全でないテストを止めるために厳密な安全境界を強制するコンテキスト依存モニタによって監査される。 我々は,既存のllmエージェントを監視するのに十分な柔軟性を有する基本安全監視装置(agentmonitor)を設計し,敵のシミュレーションエージェントを用いて安全でない状況を識別・停止する能力を測定する。 そして、エージェントモニターをautogptの実世界のテストのバッテリに適用し、自律エージェントの能力が高まるにつれて、安全な車内テストの作成に直面するいくつかの制限と課題を特定します。

A prerequisite for safe autonomy-in-the-wild is safe testing-in-the-wild. Yet real-world autonomous tests face several unique safety challenges, both due to the possibility of causing harm during a test, as well as the risk of encountering new unsafe agent behavior through interactions with real-world and potentially malicious actors. We propose a framework for conducting safe autonomous agent tests on the open internet: agent actions are audited by a context-sensitive monitor that enforces a stringent safety boundary to stop an unsafe test, with suspect behavior ranked and logged to be examined by humans. We design a basic safety monitor (AgentMonitor) that is flexible enough to monitor existing LLM agents, and, using an adversarial simulated agent, we measure its ability to identify and stop unsafe situations. Then we apply the AgentMonitor on a battery of real-world tests of AutoGPT, and we identify several limitations and challenges that will face the creation of safe in-the-wild tests as autonomous agents grow more capable.
翻訳日:2023-12-05 21:25:24 公開日:2023-12-03
# カジュアルライトステージを用いたパーソナライズされたビデオリライト

Personalized Video Relighting Using Casual Light Stage ( http://arxiv.org/abs/2311.08843v2 )

ライセンス: Link先を確認
Jun Myeong Choi, Max Christman, Roni Sengupta(参考訳) 本稿では,リアルタイムなポーズ,表現,照明条件下で高品質かつ時間的に一貫した映像を生成するパーソナライズされたビデオリライティングアルゴリズムを開発する。 既存のリライトアルゴリズムは一般的に、公開可能な合成データに頼っているため、低照度結果が得られるか、アクセス不能で公開されていないライトステージデータに頼っている。 モニタでYouTubeビデオを見ているユーザのビデオをカジュアルにキャプチャすることで、任意の条件下で高品質なリライティングを生成できるパーソナライズされたアルゴリズムをトレーニングできることを示す。 我々の重要な貢献は、固有の外観特徴、幾何学、反射性を効果的に分離し、ターゲットの照明と組み合わせて、信頼された画像を生成する、新しい神経リライティングアーキテクチャである。 このニューラルアーキテクチャは、時間的に安定したビデオリライトにつながる固有の外観特徴の滑らか化を可能にする。 定性的かつ定量的な評価から,我々のリライトアーキテクチャは,机(lsyd)データのカジュアルにキャプチャされた光ステージと,一度に1つの光をキャプチャした光ステージの両方において,最先端のアプローチよりも,ポートレート画像のリライト品質と時間的一貫性を改善していることが示された。

In this paper, we develop a personalized video relighting algorithm that produces high-quality and temporally consistent relit video under any pose, expression, and lighting conditions in real-time. Existing relighting algorithms typically rely either on publicly available synthetic data, which yields poor relighting results, or instead on Light Stage data which is inaccessible and is not publicly available. We show that by casually capturing video of a user watching YouTube videos on a monitor we can train a personalized algorithm capable of producing high-quality relighting under any condition. Our key contribution is a novel neural relighting architecture that effectively separates the intrinsic appearance features, geometry and reflectance, from the source lighting and then combines it with the target lighting to generate a relit image. This neural architecture enables smoothing of intrinsic appearance features leading to temporally stable video relighting. Both qualitative and quantitative evaluations show that our relighting architecture improves portrait image relighting quality and temporal consistency over state-of-the-art approaches on both casually captured Light Stage at Your Desk (LSYD) data and Light Stage captured One Light At a Time (OLAT) datasets.
翻訳日:2023-12-05 21:24:21 公開日:2023-12-03
# 第1回生成AIと法に関するワークショップ報告

Report of the 1st Workshop on Generative AI and Law ( http://arxiv.org/abs/2311.06477v3 )

ライセンス: Link先を確認
A. Feder Cooper, Katherine Lee, James Grimmelmann, Daphne Ippolito, Christopher Callison-Burch, Christopher A. Choquette-Choo, Niloofar Mireshghallah, Miles Brundage, David Mimno, Madiha Zahrah Choksi, Jack M. Balkin, Nicholas Carlini, Christopher De Sa, Jonathan Frankle, Deep Ganguli, Bryant Gipson, Andres Guadamuz, Swee Leng Harris, Abigail Z. Jacobs, Elizabeth Joh, Gautam Kamath, Mark Lemley, Cass Matthews, Christine McLeavey, Corynne McSherry, Milad Nasr, Paul Ohm, Adam Roberts, Tom Rubin, Pamela Samuelson, Ludwig Schubert, Kristen Vaccaro, Luis Villa, Felix Wu, Elana Zeide(参考訳) 本報告では,2023年7月に開催された第1回生成AI法ワークショップ(GenLaw)について述べる。 コンピュータ科学と法学の実践者と学者の学際的なグループが集まり、生成aiに関する法律と法のための生成aiによって提示される技術的、教義的、そして政策上の課題について議論し、特にアメリカ法を強調した。 我々は、なぜジェネレーティブAIが法律にとって非常に重要で、非常に難しいのか、という高いレベルの声明でレポートを開始する。 これらの課題を満たすために、我々は、必要不可欠なニーズがあると結論づける。 1) 専門分野にまたがる専門家に共通の概念言語を提供する共有知識ベース 2)他のコンピュータ及びAIシステムと比較して,生成型AIシステムの特有な技術的能力の明確化 3) これらの制度が提起する法的問題に関する論理的分類,及び 4) 創発的AIと法律の交差する新興問題における協力と知識共有を促進するための具体的な研究課題。 本報告では,これらのニーズに対処し始めるgenlawワークショップの要点をまとめる。 リストされた著者の全員がこのレポートをベースとしたワークショップに貢献したが、彼らとその組織は必ずしもこのレポートのすべての特定の主張を支持していない。

This report presents the takeaways of the inaugural Workshop on Generative AI and Law (GenLaw), held in July 2023. A cross-disciplinary group of practitioners and scholars from computer science and law convened to discuss the technical, doctrinal, and policy challenges presented by law for Generative AI, and by Generative AI for law, with an emphasis on U.S. law in particular. We begin the report with a high-level statement about why Generative AI is both immensely significant and immensely challenging for law. To meet these challenges, we conclude that there is an essential need for 1) a shared knowledge base that provides a common conceptual language for experts across disciplines; 2) clarification of the distinctive technical capabilities of generative-AI systems, as compared and contrasted to other computer and AI systems; 3) a logical taxonomy of the legal issues these systems raise; and, 4) a concrete research agenda to promote collaboration and knowledge-sharing on emerging issues at the intersection of Generative AI and law. In this report, we synthesize the key takeaways from the GenLaw workshop that begin to address these needs. All of the listed authors contributed to the workshop upon which this report is based, but they and their organizations do not necessarily endorse all of the specific claims in this report.
翻訳日:2023-12-05 21:22:21 公開日:2023-12-03
# 音声バイオマーカーと高度な機械学習アルゴリズムによるパーキンソン病の検出

Parkinson's Disease Detection through Vocal Biomarkers and Advanced Machine Learning Algorithms ( http://arxiv.org/abs/2311.05435v2 )

ライセンス: Link先を確認
Md Abu Sayed, Maliha Tayaba, MD Tanvir Islam, Md Eyasin Ul Islam Pavel, Md Tuhin Mia, Eftekhar Hossain Ayon, Nur Nob and Bishnu Padh Ghosh(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、運動ニューロンへの影響で知られる神経変性疾患であり、震動、硬度、歩行困難などの症状を引き起こす。 本研究は早期疾患予測の手段として, PD患者の声質変化の可能性を検討する。 本研究はパーキンソン病の発症を予測することを目的とする。 xgboost, lightgbm, bagging, adaboost, support vector machineなど,さまざまな高度な機械学習アルゴリズムを活用して,精度,曲線下領域,感度,特異性などの指標を用いて,これらのモデルの予測性能を評価する。 この包括的分析の結果は、LightGBMが最も効果的なモデルであることを示し、96%の精度で、一致するAUCは96%である。 LightGBMは100%の感度と94.43%の特異性を示し、他の機械学習アルゴリズムの精度とAUCスコアを上回った。 パーキンソン病の複雑さと早期診断の課題を踏まえ, 高度な機械学習技術と声帯バイオマーカーを併用し, 正確かつタイムリーなPD検出の意義を浮き彫りにした。

Parkinson's disease (PD) is a prevalent neurodegenerative disorder known for its impact on motor neurons, causing symptoms like tremors, stiffness, and gait difficulties. This study explores the potential of vocal feature alterations in PD patients as a means of early disease prediction. This research aims to predict the onset of Parkinson's disease. Utilizing a variety of advanced machine-learning algorithms, including XGBoost, LightGBM, Bagging, AdaBoost, and Support Vector Machine, among others, the study evaluates the predictive performance of these models using metrics such as accuracy, area under the curve (AUC), sensitivity, and specificity. The findings of this comprehensive analysis highlight LightGBM as the most effective model, achieving an impressive accuracy rate of 96% alongside a matching AUC of 96%. LightGBM exhibited a remarkable sensitivity of 100% and specificity of 94.43%, surpassing other machine learning algorithms in accuracy and AUC scores. Given the complexities of Parkinson's disease and its challenges in early diagnosis, this study underscores the significance of leveraging vocal biomarkers coupled with advanced machine-learning techniques for precise and timely PD detection.
翻訳日:2023-12-05 21:21:56 公開日:2023-12-03
# autonomous advanced aerial mobility - uavとbeyondのためのエンドツーエンドの自律性フレームワーク

Autonomous Advanced Aerial Mobility -- An End-to-end Autonomy Framework for UAVs and Beyond ( http://arxiv.org/abs/2311.04472v2 )

ライセンス: Link先を確認
Sakshi Mishra and Praveen Palanisamy(参考訳) 乗客や商品の完全自律飛行というように、人間が介入することなく、安全に飛行し、割り当てられた任務を遂行できる航空ロボットの開発は、航空自動運転分野の研究、設計、開発を導く大きなビジョンである。 しかし、空域を自律的に共有している全ての種類の航空車両を同時に運用することは極めて困難である。 航空輸送部門の完全な自律性には、車両を駆動する技術の設計、マルチエージェント艦隊の運用、航空部門の厳格な安全要件を満たす認証プロセスなど、いくつかの側面がある。 そのため、自律的高度航空移動はいまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。 そこで本稿では,無人航空機 (uavs) と電動垂直離着陸機 (evtol) を都市空輸, パッケージ配送, 監視など様々な用途に利用することを含む, 自律型高度空中移動の新たな分野に関する総合的な展望を紹介する。 この記事では、センシング、知覚、計画、制御という4つの主要なブロックで構成される、スケーラブルで拡張可能な自律性フレームワークを提案する。 さらに、本論文は、自律飛行システムのテスト、検証、認証の側面と同様に、マルチエージェント艦隊の運用および管理における課題と機会について論じる。 最後に、この記事は航空自律性のためのモノリシックモデルの可能性を調査し、その利点と限界を分析します。 この視点は、自律進行空力場とその今後の方向性の全体像を提供することを目的としている。

Developing aerial robots that can both safely navigate and execute assigned mission without any human intervention - i.e., fully autonomous aerial mobility of passengers and goods - is the larger vision that guides the research, design, and development efforts in the aerial autonomy space. However, it is highly challenging to concurrently operationalize all types of aerial vehicles that are operating fully autonomously sharing the airspace. Full autonomy of the aerial transportation sector includes several aspects, such as design of the technology that powers the vehicles, operations of multi-agent fleets, and process of certification that meets stringent safety requirements of aviation sector. Thereby, Autonomous Advanced Aerial Mobility is still a vague term and its consequences for researchers and professionals are ambiguous. To address this gap, we present a comprehensive perspective on the emerging field of autonomous advanced aerial mobility, which involves the use of unmanned aerial vehicles (UAVs) and electric vertical takeoff and landing (eVTOL) aircraft for various applications, such as urban air mobility, package delivery, and surveillance. The article proposes a scalable and extensible autonomy framework consisting of four main blocks: sensing, perception, planning, and controls. Furthermore, the article discusses the challenges and opportunities in multi-agent fleet operations and management, as well as the testing, validation, and certification aspects of autonomous aerial systems. Finally, the article explores the potential of monolithic models for aerial autonomy and analyzes their advantages and limitations. The perspective aims to provide a holistic picture of the autonomous advanced aerial mobility field and its future directions.
翻訳日:2023-12-05 21:21:30 公開日:2023-12-03
# 校正された言語モデルには幻覚が必要だ

Calibrated Language Models Must Hallucinate ( http://arxiv.org/abs/2311.14648v2 )

ライセンス: Link先を確認
Adam Tauman Kalai, Santosh S. Vempala(参考訳) 最近の言語モデルでは、驚くべき頻度で偽の、もっともらしい音のテキストを生成する。 このような“幻覚”は、言語ベースのaiシステムのユーザビリティに対する障害であり、アウトプットに依存する人々を傷つける可能性がある。 この研究は、事前訓練された言語モデルがある種の事実を幻覚させ、トランスフォーマーLMアーキテクチャやデータ品質とは無関係な速度で統計的に低いバウンドが存在することを示している。 学習データから真性が判断できない「確率的」事実に対しては、生成言語モデルに適した統計的校正条件を満たす言語モデルに対して、幻覚が一定の割合で生じなければならないことを示す。 具体的には、任意の事象の最大確率が有界であれば、幻覚を発生させる確率はトレーニングデータ(「Good-Turing」推定)で正確に1回発生する事象のごく一部に近く、たとえエラーのない理想的なトレーニングデータと仮定してもよい。 1つの結論は、十分に優れた予測子(すなわち校正された)として事前訓練されたモデルは、訓練セットに一度現れる傾向にある任意の事実のタイプに対する幻覚を緩和するために後トレーニングを必要とする可能性があるということである。 しかし,本研究では,事前学習がトレーニングデータに1回以上現れる傾向にある事実(特に顕著で問題のある記事や書籍などの出版物への参照など)や,体系的な事実(算術計算など)に幻覚をもたらすという統計的理由も示していない。 したがって、異なるアーキテクチャと学習アルゴリズムは、これらの後者の幻覚を緩和する可能性がある。

Recent language models generate false but plausible-sounding text with surprising frequency. Such "hallucinations" are an obstacle to the usability of language-based AI systems and can harm people who rely upon their outputs. This work shows shows that there is an inherent statistical lower-bound on the rate that pretrained language models hallucinate certain types of facts, having nothing to do with the transformer LM architecture or data quality. For "arbitrary" facts whose veracity cannot be determined from the training data, we show that hallucinations must occur at a certain rate for language models that satisfy a statistical calibration condition appropriate for generative language models. Specifically, if the maximum probability of any fact is bounded, we show that the probability of generating a hallucination is close to the fraction of facts that occur exactly once in the training data (a "Good-Turing" estimate), even assuming ideal training data without errors. One conclusion is that models pretrained to be sufficiently good predictors (i.e., calibrated) may require post-training to mitigate hallucinations on the type of arbitrary facts that tend to appear once in the training set. However, our analysis also suggests that there is no statistical reason that pretraining will lead to hallucination on facts that tend to appear more than once in the training data (like references to publications such as articles and books, whose hallucinations have been particularly notable and problematic) or on systematic facts (like arithmetic calculations). Therefore, different architectures and learning algorithms may mitigate these latter types of hallucinations.
翻訳日:2023-12-05 21:15:01 公開日:2023-12-03
# エントロピー規則化による線形二次制御の高速化

Fast Policy Learning for Linear Quadratic Control with Entropy Regularization ( http://arxiv.org/abs/2311.14168v2 )

ライセンス: Link先を確認
Xin Guo, Xinyu Li and Renyuan Xu(参考訳) 本稿では,エントロピー正規化を伴う無限時間軸上のディスカウント線形量子制御(lqc)問題に対して,正則化ポリシ勾配(rpg)と反復ポリシー最適化(ipo)という2つの新しいポリシー学習法を提案し,解析する。 正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形収束することが証明される。 さらに、最適政策の周辺地域に入ると、IPO方式は超直線収束率を達成することができる。 最後に、未知環境のRL問題に対する最適ポリシーを初期ポリシーとして、未知環境のRL問題に適切に移行した場合、この2つの環境が十分に近い場合には、IPO方式により超線形収束率を実現する。 これらのアルゴリズムの性能は数値例によって支持されている。

This paper proposes and analyzes two new policy learning methods: regularized policy gradient (RPG) and iterative policy optimization (IPO), for a class of discounted linear-quadratic control (LQC) problems over an infinite time horizon with entropy regularization. Assuming access to the exact policy evaluation, both proposed approaches are proven to converge linearly in finding optimal policies of the regularized LQC. Moreover, the IPO method can achieve a super-linear convergence rate once it enters a local region around the optimal policy. Finally, when the optimal policy for an RL problem with a known environment is appropriately transferred as the initial policy to an RL problem with an unknown environment, the IPO method is shown to enable a super-linear convergence rate if the two environments are sufficiently close. Performances of these proposed algorithms are supported by numerical examples.
翻訳日:2023-12-05 21:14:13 公開日:2023-12-03
# FinMem: レイヤメモリとキャラクタ設計を備えた高性能LLMトレーディングエージェント

FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design ( http://arxiv.org/abs/2311.13743v2 )

ライセンス: Link先を確認
Yangyang Yu, Haohang Li, Zhi Chen, Yuechen Jiang, Yang Li, Denghui Zhang, Rong Liu, Jordan W. Suchow, Khaldoun Khashanah(参考訳) 近年のLarge Language Models (LLMs) の進歩は、様々な領域にわたる質問応答(QA)タスクにおいて顕著な効果を示した。 彼らの広範なウェブ知識の統合への取り組みは、LLMベースの自律エージェントの開発への関心を喚起した。 LLMは、人間の指示を復号し、歴史的入力を水平に処理することで解を導出するのに効率的であるが、目的駆動エージェントへの移行には、多元的情報処理、推論連鎖の確立、重要なタスクの優先順位付けなどの補助的合理的なアーキテクチャが必要である。 これに対応するために,金融意思決定のために考案された新しい LLM ベースのエージェントフレームワークである \textsc{FinMem} を紹介する。 エージェントの特性をカスタマイズするプロファイリング、階層的な金融データの同化を支援するレイヤ化されたメッセージ処理を備えたメモリ、記憶から得られた洞察を投資判断に変換する意思決定の3つのコアモジュールを含んでいる。 特に、 \textsc{FinMem} のメモリモジュールは人間のトレーダーの認知構造と密接に一致し、堅牢な解釈可能性とリアルタイムチューニングを提供する。 その調整可能な認知スパンにより、人間の知覚限界を超えた重要な情報の保持が可能になり、取引結果が向上する。 このフレームワークにより、エージェントは自身の専門知識を自発的に活用し、新たな投資のヒントにアジャイルに反応し、不安定な金融環境におけるトレーディング決定を継続的に洗練することができる。 まず、さまざまなアルゴリズムエージェントをスケーラブルな現実世界の財務データセットで比較し、株価における主要なトレーディングパフォーマンスを裏付ける。 その後,エージェントの知覚的スパンと文字設定を微調整し,取引性能を大幅に向上させた。 集合的に、 \textsc{FinMem} は自動取引のための最先端の LLM エージェントフレームワークを提示し、累積投資リターンを加速する。

Recent advancements in Large Language Models (LLMs) have exhibited notable efficacy in question-answering (QA) tasks across diverse domains. Their prowess in integrating extensive web knowledge has fueled interest in developing LLM-based autonomous agents. While LLMs are efficient in decoding human instructions and deriving solutions by holistically processing historical inputs, transitioning to purpose-driven agents requires a supplementary rational architecture to process multi-source information, establish reasoning chains, and prioritize critical tasks. Addressing this, we introduce \textsc{FinMem}, a novel LLM-based agent framework devised for financial decision-making. It encompasses three core modules: Profiling, to customize the agent's characteristics; Memory, with layered message processing, to aid the agent in assimilating hierarchical financial data; and Decision-making, to convert insights gained from memories into investment decisions. Notably, \textsc{FinMem}'s memory module aligns closely with the cognitive structure of human traders, offering robust interpretability and real-time tuning. Its adjustable cognitive span allows for the retention of critical information beyond human perceptual limits, thereby enhancing trading outcomes. This framework enables the agent to self-evolve its professional knowledge, react agilely to new investment cues, and continuously refine trading decisions in the volatile financial environment. We first compare \textsc{FinMem} with various algorithmic agents on a scalable real-world financial dataset, underscoring its leading trading performance in stocks. We then fine-tuned the agent's perceptual span and character setting to achieve a significantly enhanced trading performance. Collectively, \textsc{FinMem} presents a cutting-edge LLM agent framework for automated trading, boosting cumulative investment returns.
翻訳日:2023-12-05 21:13:55 公開日:2023-12-03
# MadQCI: 製造設備に展開された異種でスケーラブルなSDN QKDネットワーク

MadQCI: a heterogeneous and scalable SDN QKD network deployed in production facilities ( http://arxiv.org/abs/2311.12791v2 )

ライセンス: Link先を確認
V. Martin, J.P. Brito, L. Ortiz, R.B. Mendez, J.S. Buruaga, R.J. Vicente, A. Sebasti\'an-Lombra\~na, D. Rincon, F. Perez, C. Sanchez, M. Peev, H. H. Brunner, F. Fung, A. Poppe, F. Fr\"owis, A.J. Shields, R.I. Woodward, H. Griesser, S. Roehrich, F. De La Iglesia, C. Abellan, M. Hentschel, J.M. Rivas-Moscoso, A. Pastor, J. Folgueira and D. R. Lopez(参考訳) 現在の量子鍵分布(QKD)ネットワークは、可能な限り高いレートで秘密鍵を転送することに集中している。 その結果、量子チャネルへのペナルティを回避するために設計された、ほぼ固定、アドホック、論理的、物理的に孤立したインフラストラクチャとして構築される。 このアーキテクチャはスケーラブルでもなく、費用効率も高くない。 ここで提示されるmadqci qkdネットワークの構造は、分散したコンポーネントと、特に柔軟性、アップグレード性、セキュリティおよび通信ネットワークエコシステムにおけるqkdの統合を促進するために設計されたモダンなパラダイムに基づいている。 これらの根底にあるアイデアは、実世界のマルチテナント通信ネットワークに複数のメーカーから多くのQKDシステムをデプロイし、生産施設に設置し、インフラを商用トラフィックと共有することで検証されている。 様々な技術が様々なリンクに使われ、実際のネットワークで発生する様々な状況やニーズに対処し、幅広い可能性を探っている。 最後に、ネットワークの有効性と性能を示すために、一連の現実的なユースケースが実装されている。 テストは3年近くにわたって行われ、ほとんどのノードが継続的に動作していた。

Current quantum key distribution (QKD) networks focus almost exclusively on transporting secret keys with the highest possible rate. Consequently, they are built as mostly fixed, ad hoc, logically, and physically isolated infrastructures designed to avoid any penalty to the quantum channel. This architecture is neither scalable nor cost-effective and future, real-world deployments will differ considerably. The structure of the MadQCI QKD network presented here is based on disaggregated components and modern paradigms especially designed for flexibility, upgradability, and facilitating the integration of QKD in the security and telecommunications-networks ecosystem. These underlying ideas have been tested by deploying many QKD systems from several manufacturers in a real-world, multi-tenant telecommunications network, installed in production facilities and sharing the infrastructure with commercial traffic. Different technologies have been used in different links to address the variety of situations and needs that arise in real networks, exploring a wide range of possibilities. Finally, a set of realistic use cases have been implemented to demonstrate the validity and performance of the network. The testing took place during a period close to three years, where most of the nodes were continuously active.
翻訳日:2023-12-05 21:12:16 公開日:2023-12-03
# HandyPriors: 利き手と利き手との相互作用の物理的に一貫性のある知覚

HandyPriors: Physically Consistent Perception of Hand-Object Interactions with Differentiable Priors ( http://arxiv.org/abs/2311.16552v2 )

ライセンス: Link先を確認
Shutong Zhang, Yi-Ling Qiao, Guanglei Zhu, Eric Heiden, Dylan Turpin, Jingzhou Liu, Ming Lin, Miles Macklin, Animesh Garg(参考訳) ハンドオブジェクトの相互作用をモデル化するための様々なヒューリスティックな目的が過去の研究で提案されている。 しかしながら、結束的な枠組みが欠如しているため、これらの目的はしばしば適用範囲が狭く、その効率や精度によって制限される。 本稿では,近年の微分物理学とレンダリングの進歩を活用して,人間と物体の相互作用シーンにおけるポーズ推定のための統一的で汎用的なパイプラインであるHandyPriorsを提案する。 提案手法では,入力画像やセグメンテーションマスクとレンダリングプリエントと物理プリエントを併用することで,フレーム間の透過性や相対スライディングを緩和する。 さらに,手と物体のポーズ推定のための2つの代替案を提案する。 最適化に基づくポーズ推定は精度が向上する一方、微分可能前処理をダイナミクスモデルやオブザーバモデルとして利用するフィルタリングベーストラッキングはより高速に実行される。 我々は,HandyPriorsがポーズ推定タスクにおいて同等あるいは優れた結果が得られることを実証し,識別可能な物理モジュールがポーズ修正のための接触情報を予測できることを実証した。 また,本手法はロボットハンド操作や野生の人間-対象ポーズ推定を含む知覚タスクに一般化することを示した。

Various heuristic objectives for modeling hand-object interaction have been proposed in past work. However, due to the lack of a cohesive framework, these objectives often possess a narrow scope of applicability and are limited by their efficiency or accuracy. In this paper, we propose HandyPriors, a unified and general pipeline for pose estimation in human-object interaction scenes by leveraging recent advances in differentiable physics and rendering. Our approach employs rendering priors to align with input images and segmentation masks along with physics priors to mitigate penetration and relative-sliding across frames. Furthermore, we present two alternatives for hand and object pose estimation. The optimization-based pose estimation achieves higher accuracy, while the filtering-based tracking, which utilizes the differentiable priors as dynamics and observation models, executes faster. We demonstrate that HandyPriors attains comparable or superior results in the pose estimation task, and that the differentiable physics module can predict contact information for pose refinement. We also show that our approach generalizes to perception tasks, including robotic hand manipulation and human-object pose estimation in the wild.
翻訳日:2023-12-05 21:02:44 公開日:2023-12-03
# 仮想環境における具体化エージェント

See and Think: Embodied Agent in Virtual Environment ( http://arxiv.org/abs/2311.15209v2 )

ライセンス: Link先を確認
Zhonghan Zhao, Wenhao Chai, Xuan Wang, Li Boyi, Shengyu Hao, Shidong Cao, Tian Ye, Jenq-Neng Hwang, Gaoang Wang(参考訳) 大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて驚くべき進歩を遂げた。 近年, LLM を用いたエンボディエージェントの構築がホットスポットとなっている。 本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。 STEVEは視覚知覚、言語命令、コードアクションの3つの重要なコンポーネントから構成される。 視覚知覚は、環境内の視覚情報の解釈を伴い、エージェントの状態とタスク命令と共にllmsコンポーネントに統合される。 言語指導は、反復的な推論と複雑なタスクを管理可能なガイドラインに分解する責任がある。 コードアクションはスキルデータベースの検索に基づいて実行可能なスキルアクションを生成し、エージェントがminecraft環境内で効果的に対話できるようにする。 また、600ドル+ビジョン環境ペア、20K知識質問応答ペア、200ドル+スキルコードペアを含むSTEVE-21Kデータセットも収集しています。 我々は,連続的ブロック探索,知識質問と回答,技術木熟達を行い,その性能を評価する。 大規模な実験によると、STEVEは、キーテクツリーのアンロックを高速化する$1.5と、これまでの最先端のメソッドに比べて、ブロック検索タスクを高速化する$2.5だ。

Large language models (LLMs) have achieved impressive progress on several open-world tasks. Recently, using LLMs to build embodied agents has been a hotspot. In this paper, we propose STEVE, a comprehensive and visionary embodied agent in the Minecraft virtual environment. STEVE consists of three key components: vision perception, language instruction, and code action. Vision perception involves the interpretation of visual information in the environment, which is then integrated into the LLMs component with agent state and task instruction. Language instruction is responsible for iterative reasoning and decomposing complex tasks into manageable guidelines. Code action generates executable skill actions based on retrieval in skill database, enabling the agent to interact effectively within the Minecraft environment. We also collect STEVE-21K dataset, which includes 600$+$ vision-environment pairs, 20K knowledge question-answering pairs, and 200$+$ skill-code pairs. We conduct continuous block search, knowledge question and answering, and tech tree mastery to evaluate the performance. Extensive experiments show that STEVE achieves at most $1.5 \times$ faster unlocking key tech trees and $2.5 \times$ quicker in block search tasks compared to previous state-of-the-art methods.
翻訳日:2023-12-05 20:59:57 公開日:2023-12-03
# ALSTER:オンライン3Dセマンティック再構築の専門家

ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction ( http://arxiv.org/abs/2311.18068v2 )

ライセンス: Link先を確認
Silvan Weder, Francis Engelmann, Johannes L. Sch\"onberger, Akihito Seki, Marc Pollefeys, Martin R. Oswald(参考訳) rgb-dフレームのストリームから3dセマンティックマップを漸進的に再構築するオンライン3dセマンティックセグメンテーション手法を提案する。 オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイム制約のあるシナリオに直接適用できます。 オンライン手法の本質的な課題を克服するために、主な貢献は2つある。 まず、入力されたRGB-Dビデオストリームから情報を効果的に抽出するために、3次元のフレームごとの幾何とセマンティックラベルを共同で推定する。 このアプローチの重要な焦点は、2d入力とローカル3dドメインの両方で意味的エンティティを推論し、空間的コンテキストとネットワークアーキテクチャの違いを活用することである。 本手法は市販セグメンテーションネットワークを用いて2次元特徴量を予測する。 抽出された2d特徴を軽量な3dネットワークにより洗練し、局所的な3d構造についての推論を可能にする。 第2に、入力されたRGB-Dフレームの無限ストリームを効率的に処理するために、2D、3D、過去の情報を学習方法で活用することにより、インクリメンタルなシーン更新を予測する時間的専門家として機能する。 これらの更新はグローバルなシーン表現に統合される。 これらの主な貢献により,実時間制約のあるシナリオを可能にし,新たな測定で定義された局所領域でのみシーンを処理し,更新することにより任意のシーンサイズにスケールすることができる。 実験では, ローカルで純粋に運用されている既存のオンライン手法と比較して, 結果が向上し, 補完的な情報ソースが性能を向上させることを示す。 我々は、異なるアーキテクチャの利点とアルゴリズム設計決定に関する徹底的なアブレーション研究を提供する。 提案手法は,ScanNetベンチマークとSceneNNデータセットの競合結果を得る。

We propose an online 3D semantic segmentation method that incrementally reconstructs a 3D semantic map from a stream of RGB-D frames. Unlike offline methods, ours is directly applicable to scenarios with real-time constraints, such as robotics or mixed reality. To overcome the inherent challenges of online methods, we make two main contributions. First, to effectively extract information from the input RGB-D video stream, we jointly estimate geometry and semantic labels per frame in 3D. A key focus of our approach is to reason about semantic entities both in the 2D input and the local 3D domain to leverage differences in spatial context and network architectures. Our method predicts 2D features using an off-the-shelf segmentation network. The extracted 2D features are refined by a lightweight 3D network to enable reasoning about the local 3D structure. Second, to efficiently deal with an infinite stream of input RGB-D frames, a subsequent network serves as a temporal expert predicting the incremental scene updates by leveraging 2D, 3D, and past information in a learned manner. These updates are then integrated into a global scene representation. Using these main contributions, our method can enable scenarios with real-time constraints and can scale to arbitrary scene sizes by processing and updating the scene only in a local region defined by the new measurement. Our experiments demonstrate improved results compared to existing online methods that purely operate in local regions and show that complementary sources of information can boost the performance. We provide a thorough ablation study on the benefits of different architectural as well as algorithmic design decisions. Our method yields competitive results on the popular ScanNet benchmark and SceneNN dataset.
翻訳日:2023-12-05 20:52:08 公開日:2023-12-03
# TransNAS-TSAD:時系列異常検出における多目的ニューラルネットワーク探索のためのハーネス変換器

TransNAS-TSAD: Harnessing Transformers for Multi-Objective Neural Architecture Search in Time Series Anomaly Detection ( http://arxiv.org/abs/2311.18061v2 )

ライセンス: Link先を確認
Ijaz Ul Haq, Byung Suk Lee(参考訳) 様々な産業におけるリアルタイムデータ収集の急増は、単変量および多変量時系列データの両方において高度な異常検出の必要性を浮き彫りにした。 従来の手法は包括的ではあるが、そのようなデータの複雑な相互依存を捉えるのに苦労することが多い。 本稿では,ニューラルアーキテクチャサーチ(NAS)とトランスフォーマーアーキテクチャを相乗化する新しいフレームワークであるTransNAS-TSADを紹介し,NSGA-IIアルゴリズムの最適化によって拡張した。 この革新的なアプローチは、不変量時系列と多変量時系列の両方の複雑さを効果的に取り組み、計算効率と検出精度のバランスをとる。 評価の結果,TransNAS-TSADは従来の異常検出モデルを超え,多様なデータシナリオにおいて顕著な改善が見られた。 また,効率・精度・複雑度スコア(eacs)をモデルの性能評価のための新しい指標として提案し,精度と計算資源の重要バランスを強調する。 TransNAS-TSADは時系列異常検出の新しいベンチマークを設定し、複雑な現実世界のアプリケーションに汎用的で効率的なソリューションを提供する。 この研究は、この分野の将来の発展への道を開き、幅広い産業応用におけるその可能性を強調している。

The surge in real-time data collection across various industries has underscored the need for advanced anomaly detection in both univariate and multivariate time series data. Traditional methods, while comprehensive, often struggle to capture the complex interdependencies in such data. This paper introduces TransNAS-TSAD, a novel framework that synergizes transformer architecture with neural architecture search (NAS), enhanced through NSGA-II algorithm optimization. This innovative approach effectively tackles the complexities of both univariate and multivariate time series, balancing computational efficiency with detection accuracy. Our evaluation reveals that TransNAS-TSAD surpasses conventional anomaly detection models, demonstrating marked improvements in diverse data scenarios. We also propose the Efficiency-Accuracy-Complexity Score (EACS) as a new metric for assessing model performance, emphasizing the crucial balance between accuracy and computational resources. TransNAS-TSAD sets a new benchmark in time series anomaly detection, offering a versatile, efficient solution for complex real-world applications. This research paves the way for future developments in the field, highlighting its potential in a wide range of industry applications.
翻訳日:2023-12-05 20:51:40 公開日:2023-12-03
# ゼロショットテキスト駆動モーショントランスファーのための時空間拡散特性

Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer ( http://arxiv.org/abs/2311.17009v2 )

ライセンス: Link先を確認
Danah Yatim, Rafail Fridman, Omer Bar-Tal, Yoni Kasten, Tali Dekel(参考訳) 本稿では,入力映像の動作とシーンレイアウトを維持しつつ,対象オブジェクトとシーンを記述する入力テキストプロンプトに対応する映像を合成する,テキスト駆動モーション転送の新しい手法を提案する。 従来の方法は、同一または近縁な対象カテゴリ内の2つの被験者間での移動に限られており、限られた領域(例えば人間)に適用される。 本研究では, 対象物と対象物とが, 形状や微粒な運動特性(例えば, 跳躍犬をイルカに翻訳するなど)で大きく異なる, 極めて困難な状況について考察する。 この目的のために,事前学習および固定されたテキストからビデオへの拡散モデルを活用して,生成と動きの優先順位付けを行う。 本手法の柱は, モデルから直接引き起こされた新しい時空間特徴損失である。 この損失は、入力映像の全体動作を、形状及び微粒な動き特性の点において、対象物に適合しつつ、生成過程を導出する。

We present a new method for text-driven motion transfer - synthesizing a video that complies with an input text prompt describing the target objects and scene while maintaining an input video's motion and scene layout. Prior methods are confined to transferring motion across two subjects within the same or closely related object categories and are applicable for limited domains (e.g., humans). In this work, we consider a significantly more challenging setting in which the target and source objects differ drastically in shape and fine-grained motion characteristics (e.g., translating a jumping dog into a dolphin). To this end, we leverage a pre-trained and fixed text-to-video diffusion model, which provides us with generative and motion priors. The pillar of our method is a new space-time feature loss derived directly from the model. This loss guides the generation process to preserve the overall motion of the input video while complying with the target object in terms of shape and fine-grained motion traits.
翻訳日:2023-12-05 20:47:34 公開日:2023-12-03
# MVBench: 総合的なマルチモーダルビデオ理解ベンチマーク

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark ( http://arxiv.org/abs/2311.17005v2 )

ライセンス: Link先を確認
Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, Limin Wang, Yu Qiao(参考訳) マルチモーダル大規模言語モデル(mllms)の急速な発展に伴い、これらのモデルの理解能力を評価するための多くの診断ベンチマークが最近登場している。 しかし、ほとんどのベンチマークは静的画像タスクの空間的理解を主に評価し、動的ビデオタスクの時間的理解を無視している。 この問題を軽減するために,一フレームで効果的に解決できない20の課題のビデオタスクをカバーする,総合的なマルチモーダルビデオ理解ベンチマークであるMVBenchを導入する。 具体的には、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。 様々な静的タスクを動的タスクに変換することにより、知覚から認知まで幅広い時間的スキルを必要とする映像タスクを体系的に生成することができる。 そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。 一方、このような異なるパラダイムは、手作業による介入を伴わずに、MVBenchを効率的に構築することができます。 一方,LLMのバイアススコアリングを回避し,ビデオアノテーションによる評価の公平性を保証する。 さらに,多様な命令調整データを用いたプログレッシブマルチモーダルトレーニングにより,より堅牢なビデオMLLMベースラインであるVideoChat2を開発する。 MVBenchの広範な結果から,既存のMLLMは時間的理解では満足できないが,VoiceChat2はMVBenchでは15%以上上回っていることがわかった。 すべてのモデルとデータはhttps://github.com/OpenGVLab/Ask-Anything.comで入手できる。

With the rapid development of Multi-modal Large Language Models (MLLMs), a number of diagnostic benchmarks have recently emerged to evaluate the comprehension capabilities of these models. However, most benchmarks predominantly assess spatial understanding in the static image tasks, while overlooking temporal understanding in the dynamic video tasks. To alleviate this issue, we introduce a comprehensive Multi-modal Video understanding Benchmark, namely MVBench, which covers 20 challenging video tasks that cannot be effectively solved with a single frame. Specifically, we first introduce a novel static-to-dynamic method to define these temporal-related tasks. By transforming various static tasks into dynamic ones, we enable the systematic generation of video tasks that require a broad spectrum of temporal skills, ranging from perception to cognition. Then, guided by the task definition, we automatically convert public video annotations into multiple-choice QA to evaluate each task. On one hand, such a distinct paradigm allows us to build MVBench efficiently, without much manual intervention. On the other hand, it guarantees evaluation fairness with ground-truth video annotations, avoiding the biased scoring of LLMs. Moreover, we further develop a robust video MLLM baseline, i.e., VideoChat2, by progressive multi-modal training with diverse instruction-tuning data. The extensive results on our MVBench reveal that, the existing MLLMs are far from satisfactory in temporal understanding, while our VideoChat2 largely surpasses these leading models by over 15% on MVBench. All models and data are available at https://github.com/OpenGVLab/Ask-Anything.
翻訳日:2023-12-05 20:47:17 公開日:2023-12-03
# 脳がディープネットをデコード

Brain Decodes Deep Nets ( http://arxiv.org/abs/2312.01280v1 )

ライセンス: Link先を確認
Huzheng Yang, James Gee, Jianbo Shi(参考訳) 脳にマッピングすることで、大きな事前学習された視覚モデルを可視化し、分析するツールを開発した。 私たちのイノベーションは、画像に反応して脳のfMRI測定を予測する脳エンコーディングの驚くべき利用から生まれます。 2つの発見を報告する。 まず、空間、層、スケール、チャネルの次元にまたがる脳と深層ネットワークの機能を明確にマッピングすることが重要です。 このマッピング手法、 factortopyはどんなディープネットワークに対してもプラグアンドプレイで、ネットワークの絵を脳(つまり! 第2に、異なるトレーニング手法がいかに重要かの可視化は、階層的な組織とスケーリングの振る舞いに顕著な違いをもたらし、より多くのデータやネットワーク容量で成長させます。 また、小さなデータセットへの適応時に事前トレーニングされたモデルがどのように変化するか、微調整に関する洞察も提供する。 提案手法は,ネットワーク間マッピングを学習するには3K画像だけで十分である。

We developed a tool for visualizing and analyzing large pre-trained vision models by mapping them onto the brain, thus exposing their hidden inside. Our innovation arises from a surprising usage of brain encoding: predicting brain fMRI measurements in response to images. We report two findings. First, explicit mapping between the brain and deep-network features across dimensions of space, layers, scales, and channels is crucial. This mapping method, FactorTopy, is plug-and-play for any deep-network; with it, one can paint a picture of the network onto the brain (literally!). Second, our visualization shows how different training methods matter: they lead to remarkable differences in hierarchical organization and scaling behavior, growing with more data or network capacity. It also provides insight into finetuning: how pre-trained models change when adapting to small datasets. Our method is practical: only 3K images are enough to learn a network-to-brain mapping.
翻訳日:2023-12-05 18:21:42 公開日:2023-12-03
# TextGenSHAP:長いドキュメントによるテキスト生成におけるスケーラブルなポストホック説明

TextGenSHAP: Scalable Post-hoc Explanations in Text Generation with Long Documents ( http://arxiv.org/abs/2312.01279v1 )

ライセンス: Link先を確認
James Enouen, Hootan Nakhost, Sayna Ebrahimi, Sercan O Arik, Yan Liu, Tomas Pfister(参考訳) 大規模言語モデル(LLM)は、より正確な応答と一貫性のある推論能力によって、実用的な応用に大きな関心を集めている。 入力に複雑な推論プロセスを用いたブラックボックスとしての性質を考えると、LLMの生成したコンテンツに対するスケーラブルで忠実な説明の要求が今後も増加し続けることは避けられない。 過去10年間で、ニューラルネットワークモデルの説明可能性に大きな進展があった。 その中でも、ポストホックな説明可能性、特にシェープリー値は、ディープラーニングモデルの解釈に有効であることが証明されている。 しかし、特に数千のトークンと自己回帰的に生成された出力シーケンスを含む長い入力コンテキストを扱う場合、LSMのShapley値のスケールアップには大きな課題がある。 さらに, LLMの性能向上のために生成した説明を効果的に活用する方法は, しばしば不明である。 本稿では,lm特有の手法を組み込んだ効率的なポストホックな説明手法textgenshapを提案する。 その結果,従来のShapley値計算に比べて処理時間を数時間から数分に短縮し,文書レベルの説明を数秒に短縮できることがわかった。 さらに,重要な単語や文の局所化による長文質問応答の理解の向上,選択された文の精度の向上と最終回答の最終的な精度向上による既存の文書検索システムの改善という2つの重要なシナリオにおいて,リアルタイムシャプリー値をどのように活用できるかを実証する。

Large language models (LLMs) have attracted huge interest in practical applications given their increasingly accurate responses and coherent reasoning abilities. Given their nature as black-boxes using complex reasoning processes on their inputs, it is inevitable that the demand for scalable and faithful explanations for LLMs' generated content will continue to grow. There have been major developments in the explainability of neural network models over the past decade. Among them, post-hoc explainability methods, especially Shapley values, have proven effective for interpreting deep learning models. However, there are major challenges in scaling up Shapley values for LLMs, particularly when dealing with long input contexts containing thousands of tokens and autoregressively generated output sequences. Furthermore, it is often unclear how to effectively utilize generated explanations to improve the performance of LLMs. In this paper, we introduce TextGenSHAP, an efficient post-hoc explanation method incorporating LM-specific techniques. We demonstrate that this leads to significant increases in speed compared to conventional Shapley value computations, reducing processing times from hours to minutes for token-level explanations, and to just seconds for document-level explanations. In addition, we demonstrate how real-time Shapley values can be utilized in two important scenarios, providing better understanding of long-document question answering by localizing important words and sentences; and improving existing document retrieval systems through enhancing the accuracy of selected passages and ultimately the final responses.
翻訳日:2023-12-05 18:21:27 公開日:2023-12-03
# 大規模言語モデルにおける認知的評価:doとdon'ts

Running cognitive evaluations on large language models: The do's and the don'ts ( http://arxiv.org/abs/2312.01276v1 )

ライセンス: Link先を確認
Anna A. Ivanova(参考訳) 本稿では,言語に基づく行動評価を用いた大規模言語モデル(LLM)の認知能力評価を目的とした研究の方法論的考察について述べる。 文献から得られた3つのケーススタディ(常識知識ベンチマーク,心的評価理論,統語的合意の検証)に基づき,認知検査をLCMに適用する際に生じる可能性のある共通の落とし穴について述べる。 そして、AIシステムの高品質な認知評価を設計するのに役立つであろう10のDoをリストアップします。 結論は、現在、ドナーとドナーが活発に議論されている4つの領域、即効性、文化的、言語的多様性、研究アシスタントとしてのLLMの使用、オープン対クローズドなLCMの評価についてである。 全体として、論文の目的は、急速に成長するAI心理学分野におけるベストプラクティスの広範な議論に貢献することである。

In this paper, I describe methodological considerations for studies that aim to evaluate the cognitive capacities of large language models (LLMs) using language-based behavioral assessments. Drawing on three case studies from the literature (a commonsense knowledge benchmark, a theory of mind evaluation, and a test of syntactic agreement), I describe common pitfalls that might arise when applying a cognitive test to an LLM. I then list 10 do's and don'ts that should help design high-quality cognitive evaluations for AI systems. I conclude by discussing four areas where the do's and don'ts are currently under active discussion -- prompt sensitivity, cultural and linguistic diversity, using LLMs as research assistants, and running evaluations on open vs. closed LLMs. Overall, the goal of the paper is to contribute to the broader discussion of best practices in the rapidly growing field of AI Psychology.
翻訳日:2023-12-05 18:21:03 公開日:2023-12-03
# ネットワーク生物学におけるリンク予測応用の展望

A Review of Link Prediction Applications in Network Biology ( http://arxiv.org/abs/2312.01275v1 )

ライセンス: Link先を確認
Ahmad F. Al Musawi, Satyaki Roy, Preetam Ghosh(参考訳) ネットワーク生物学の領域では、異種ゲノムと分子の相互作用はネットワークを介して表現される。 リンク予測(LP)手法は、これらの生物学的ネットワーク内での欠落または予見的な関連を推測するのに役立つ。 本稿では,静的および動的生物ネットワークに適用する局所的,中心性,埋め込み型lpアプローチの属性を体系的に分類する。 我々は、疾患、遺伝子、タンパク質、rna、マイクロバイオーム、薬物、ニューロン間の関連を予測するためのlpメトリクスの現在の応用について検討する。 確立された生物学的ネットワークデータセット上で総合的な性能評価を行い,標準LPモデルの実用性を示す。 さらに, モデル間の予測傾向の類似性と, 効果的なリンク予測に寄与する特定のネットワーク属性を比較し, 雑音, バイアス, データのスパース性, 解釈可能性など, 生体システムで一般的な課題に対処する上でのlpの役割を強調する。 今後のLPモデルから期待される本質的な特徴を探求し, 生物学的システムを管理する複雑な相互作用の理解を深めるべく, レビューを締めくくった。

In the domain of network biology, the interactions among heterogeneous genomic and molecular entities are represented through networks. Link prediction (LP) methodologies are instrumental in inferring missing or prospective associations within these biological networks. In this review, we systematically dissect the attributes of local, centrality, and embedding-based LP approaches, applied to static and dynamic biological networks. We undertake an examination of the current applications of LP metrics for predicting links between diseases, genes, proteins, RNA, microbiomes, drugs, and neurons. We carry out comprehensive performance evaluations on established biological network datasets to show the practical applications of standard LP models. Moreover, we compare the similarity in prediction trends among the models and the specific network attributes that contribute to effective link prediction, before underscoring the role of LP in addressing the formidable challenges prevalent in biological systems, ranging from noise, bias, and data sparseness to interpretability. We conclude the review with an exploration of the essential characteristics expected from future LP models, poised to advance our comprehension of the intricate interactions governing biological systems.
翻訳日:2023-12-05 18:20:44 公開日:2023-12-03
# ニューラルパラメータ配置探索のための超重み合成学習

Learning to Compose SuperWeights for Neural Parameter Allocation Search ( http://arxiv.org/abs/2312.01274v1 )

ライセンス: Link先を確認
Piotr Teterwak, Soren Nelson, Nikoli Dryden, Dina Bashkirova, Kate Saenko, Bryan A. Plummer(参考訳) パラメータ割り当て探索(NPAS)は、任意のパラメータ予算が与えられたネットワークの重みを求めることにより、パラメータ共有を自動化する。 以前の作業には、2つの大きな欠点があります。 まず、検索とトレーニングステップの共有パターンが切り離され、検索中に異なるサイズの層に重みが引き起こされ、類似度が測定されるが、トレーニング中には測定されないため、パフォーマンスが低下する。 これを解決するために、トレーニング可能なパラメータのグループを表すSuperWeightsの集合を構成することを学ぶことで層重みを生成する。 これらのスーパーウェイトはネットワーク内の任意の層を表現するのに十分な大きさで作成されるが、計算効率は十分小さい。 2つめの欠点は、共有パラメータ間の類似度を測定する方法です。 先行研究が重み付け自体を比較したのに対して、これは共有重みの衝突の量を考慮していないと論じている。 代わりに、勾配情報を使って、互いにばらつきたいと願う共有重みを持つレイヤを識別します。 我々のSuperWeight NetworksはNPAS設定のImageNetおよびCIFARデータセット上での最先端の性能を継続的に向上することを示した。 さらに,同じ重みの組を用いて,多数のネットワークアーキテクチャのパラメータを生成できることを示した。 これにより、効率的なアンサンブルや任意の時間予測といったタスクをサポートし、17%のパラメータで完全にパラメータ化されたアンサンブルより優れています。

Neural parameter allocation search (NPAS) automates parameter sharing by obtaining weights for a network given an arbitrary, fixed parameter budget. Prior work has two major drawbacks we aim to address. First, there is a disconnect in the sharing pattern between the search and training steps, where weights are warped for layers of different sizes during the search to measure similarity, but not during training, resulting in reduced performance. To address this, we generate layer weights by learning to compose sets of SuperWeights, which represent a group of trainable parameters. These SuperWeights are created to be large enough so they can be used to represent any layer in the network, but small enough that they are computationally efficient. The second drawback we address is the method of measuring similarity between shared parameters. Whereas prior work compared the weights themselves, we argue this does not take into account the amount of conflict between the shared weights. Instead, we use gradient information to identify layers with shared weights that wish to diverge from each other. We demonstrate that our SuperWeight Networks consistently boost performance over the state-of-the-art on the ImageNet and CIFAR datasets in the NPAS setting. We further show that our approach can generate parameters for many network architectures using the same set of weights. This enables us to support tasks like efficient ensembling and anytime prediction, outperforming fully-parameterized ensembles with 17% fewer parameters.
翻訳日:2023-12-05 18:20:24 公開日:2023-12-03
# インタラクタミクスネットワークにおけるマルチスケールトポロジー:トランスクリプトームから抗addiction薬の再利用まで

Multiscale Topology in Interactomic Network: From Transcriptome to Antiaddiction Drug Repurposing ( http://arxiv.org/abs/2312.01272v1 )

ライセンス: Link先を確認
Hongyan Du, Guo-Wei Wei, Tingjun Hou(参考訳) 米国における薬物依存の増大は、革新的な治療戦略の緊急の必要性を浮き彫りにしている。 本研究は,オピオイドおよびコカイン依存症治療候補を検索し,転写学的データ分析と薬物発見のギャップを埋める,革新的で厳格な手法を考案した。 依存症関連転写学的データを用いて遺伝子解析を行い,重要な遺伝子を同定した。 タンパク質間相互作用(PPI)ネットワークから鍵遺伝子を同定するための新しいトポロジカル分化法を提案する。 この手法は永続的なラプラシアンを用いてネットワーク内の重要なノードを正確に分離し、高い信頼性を確保するためにマルチスケールで解析を行う。 mtor, mglur5, nmdarの3つの重要な分子標的を薬物バンクから精製し, 厳密な文献検証, 経路解析, データ利用性検査により同定した。 我々は2つの自然言語処理(nlp)ベースの埋め込みと従来の2d指紋を用いた機械学習モデルを構築し,薬剤バンク化合物の標的に対する結合親和性を測定するための堅牢な予測能力を示した。 さらに,有望な薬物と標的との相互作用を解明し,その薬物類似性を評価した。 本研究は,多面的かつ包括的な分析フレームワークであるバイオインフォマティクス,トポロジカルデータ解析,機械学習を特徴とし,薬物依存症治療において再導入し,その後の実験検証の舞台を定めている。 我々が開発した手法の汎用性は、様々な疾患や転写学データセットにまたがる応用を可能にする。

The escalating drug addiction crisis in the United States underscores the urgent need for innovative therapeutic strategies. This study embarked on an innovative and rigorous strategy to unearth potential drug repurposing candidates for opioid and cocaine addiction treatment, bridging the gap between transcriptomic data analysis and drug discovery. We initiated our approach by conducting differential gene expression analysis on addiction-related transcriptomic data to identify key genes. We propose a novel topological differentiation to identify key genes from a protein-protein interaction (PPI) network derived from DEGs. This method utilizes persistent Laplacians to accurately single out pivotal nodes within the network, conducting this analysis in a multiscale manner to ensure high reliability. Through rigorous literature validation, pathway analysis, and data-availability scrutiny, we identified three pivotal molecular targets, mTOR, mGluR5, and NMDAR, for drug repurposing from DrugBank. We crafted machine learning models employing two natural language processing (NLP)-based embeddings and a traditional 2D fingerprint, which demonstrated robust predictive ability in gauging binding affinities of DrugBank compounds to selected targets. Furthermore, we elucidated the interactions of promising drugs with the targets and evaluated their drug-likeness. This study delineates a multi-faceted and comprehensive analytical framework, amalgamating bioinformatics, topological data analysis and machine learning, for drug repurposing in addiction treatment, setting the stage for subsequent experimental validation. The versatility of the methods we developed allows for applications across a range of diseases and transcriptomic datasets.
翻訳日:2023-12-05 18:20:00 公開日:2023-12-03
# 分子設計のための分散強化学習:アンチオキシダントの場合

Distributed Reinforcement Learning for Molecular Design: Antioxidant case ( http://arxiv.org/abs/2312.01267v1 )

ライセンス: Link先を確認
Huanyi Qin, Denis Akhiyarov, Sophie Loehle, Kenneth Chiu, and Mauricio Araya-Polo(参考訳) 分子ディープqネットワーク(moldqn)アルゴリズムによって示されるように、深層強化学習は分子発見にうまく適用されている。 このようなモデルのトレーニングは、より大きなデータセットへの拡張性という点で制限されており、トレーニングされたモデルは、同じデータセット内の異なる分子に一般化することはできない。 本稿では,DA-MolDQNと呼ばれる抗酸化剤の分散強化学習アルゴリズムを提案する。 最先端結合解離エネルギー(BDE)とイオン化ポテンシャル(IP)予測器は、抗酸化物質を最適化しながら重要な化学的性質であるDA-MolDQNに統合される。 トレーニング時間はアルゴリズムによる分子修飾の改善によって短縮される。 アルゴリズムは分散され、最大512個の分子に対してスケーラブルであり、モデルを様々な分子に一般化する。 提案されたモデルはプロプライエタリな抗酸化物質データセットでトレーニングされる。 結果はプロプライエタリデータセットとパブリックデータセットの両方で再現されている。 提案する分子はdftシミュレーションによって検証され、そのサブセットはパブリックな"アンセエン"データセットで確認されている。 要約すると、DA-MolDQNは従来のアルゴリズムよりも100倍高速で、プロプライエタリおよびパブリックな抗酸化物質から新しい最適化された分子を発見できる。

Deep reinforcement learning has successfully been applied for molecular discovery as shown by the Molecule Deep Q-network (MolDQN) algorithm. This algorithm has challenges when applied to optimizing new molecules: training such a model is limited in terms of scalability to larger datasets and the trained model cannot be generalized to different molecules in the same dataset. In this paper, a distributed reinforcement learning algorithm for antioxidants, called DA-MolDQN is proposed to address these problems. State-of-the-art bond dissociation energy (BDE) and ionization potential (IP) predictors are integrated into DA-MolDQN, which are critical chemical properties while optimizing antioxidants. Training time is reduced by algorithmic improvements for molecular modifications. The algorithm is distributed, scalable for up to 512 molecules, and generalizes the model to a diverse set of molecules. The proposed models are trained with a proprietary antioxidant dataset. The results have been reproduced with both proprietary and public datasets. The proposed molecules have been validated with DFT simulations and a subset of them confirmed in public "unseen" datasets. In summary, DA-MolDQN is up to 100x faster than previous algorithms and can discover new optimized molecules from proprietary and public antioxidants.
翻訳日:2023-12-05 18:19:29 公開日:2023-12-03
# 従来の3dディスクリプタを用いたデータ効率の良い3dシーン解析のレビューとロバストなフレームワーク

A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with Traditional/Learned 3D Descriptors ( http://arxiv.org/abs/2312.01262v1 )

ライセンス: Link先を確認
Kangcheng Liu(参考訳) 既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。 我々の知る限りでは、特にラベルが極端に制限されている場合、セグメンテーションと検出の両方を含む下流高レベル理解タスクを同時に解決する統一的なフレームワークは存在しない。 この作業は、ラベルが制限された場合のポイントクラウド理解に取り組むための汎用的でシンプルなフレームワークを提供する。 第1の貢献は、3Dシーン理解の弱い課題に対して、従来の3D記述子と学習した3D記述子を広範囲に方法論的に比較し、従来のPFHベースの3D記述子が異なる領域にまたがって優れた一般化能力を示すことを検証することである。 第2の貢献は,従来の3次元記述子と学習意味論の両方が提供する親和性に基づく学習ベースの領域統合戦略を提案することである。 マージプロセスは、低レベルの幾何学的特徴と高レベルの意味的特徴の相関を考慮に入れている。 実験の結果,非常に限られた数の点がラベル付けされた場合でも,セマンティクスセグメンテーションやインスタンスセグメンテーション,オブジェクト検出などのタスクを理解する,最も重要な3つの弱教師付きポイントクラウドの中で,フレームワークが最高のパフォーマンスを示している。 提案手法は,ScanNetデータ効率学習オンラインベンチマークや,各種実験環境下での大規模3D理解ベンチマークにおいて,積極的学習などの複雑な学習戦略を伴わずに,様々な3D理解タスクのマージンにおいて,現在の芸術性を上回る性能を有する。

Existing state-of-the-art 3D point cloud understanding methods merely perform well in a fully supervised manner. To the best of our knowledge, there exists no unified framework that simultaneously solves the downstream high-level understanding tasks including both segmentation and detection, especially when labels are extremely limited. This work presents a general and simple framework to tackle point cloud understanding when labels are limited. The first contribution is that we have done extensive methodology comparisons of traditional and learned 3D descriptors for the task of weakly supervised 3D scene understanding, and validated that our adapted traditional PFH-based 3D descriptors show excellent generalization ability across different domains. The second contribution is that we proposed a learning-based region merging strategy based on the affinity provided by both the traditional/learned 3D descriptors and learned semantics. The merging process takes both low-level geometric and high-level semantic feature correlations into consideration. Experimental results demonstrate that our framework has the best performance among the three most important weakly supervised point clouds understanding tasks including semantic segmentation, instance segmentation, and object detection even when very limited number of points are labeled. Our method, termed Region Merging 3D (RM3D), has superior performance on ScanNet data-efficient learning online benchmarks and other four large-scale 3D understanding benchmarks under various experimental settings, outperforming current arts by a margin for various 3D understanding tasks without complicated learning strategies such as active learning.
翻訳日:2023-12-05 18:19:06 公開日:2023-12-03
# TIBET:テキスト・画像生成モデルにおけるバイアスの同定と評価

TIBET: Identifying and Evaluating Biases in Text-to-Image Generative Models ( http://arxiv.org/abs/2312.01261v1 )

ライセンス: Link先を確認
Aditya Chinchure, Pushkar Shukla, Gaurav Bhatt, Kiri Salij, Kartik Hosanagar, Leonid Sigal, Matthew Turk(参考訳) テキスト・ツー・イメージ(TTI)生成モデルは、複雑で高品質な画像を生成する能力において、ここ数年で大きな進歩を見せている。 同時に、これらのモデルは、誇張された社会バイアス(例えば、性別、民族性)や、モデルがより多様なイメージを生成する能力を制限する付随的な相関など、有害なバイアスに苦しむことが示されている。 本稿では,任意のttiモデルと任意のプロンプトに対して,反事実推論を用いて幅広いバイアススペクトルを研究し,定量化する一般的な手法を提案する。 事前定義されたバイアス軸上で生成された画像を評価する他の作品とは異なり、このアプローチは、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。 さらに,本論文では,画像のセマンティック概念の観点から,ポストホックな説明を伴う定量的スコアを拡張した。 提案手法は,任意のプロンプトに対して異なるバイアス間の交叉性だけでなく,意味概念を通じて複雑な多次元バイアスを一意的に説明できることを示す。 提案手法と分析の結果が人間の判断と一致していることを明らかにするため,広範なユーザ調査を行った。

Text-to-Image (TTI) generative models have shown great progress in the past few years in terms of their ability to generate complex and high-quality imagery. At the same time, these models have been shown to suffer from harmful biases, including exaggerated societal biases (e.g., gender, ethnicity), as well as incidental correlations that limit such model's ability to generate more diverse imagery. In this paper, we propose a general approach to study and quantify a broad spectrum of biases, for any TTI model and for any prompt, using counterfactual reasoning. Unlike other works that evaluate generated images on a predefined set of bias axes, our approach automatically identifies potential biases that might be relevant to the given prompt, and measures those biases. In addition, our paper extends quantitative scores with post-hoc explanations in terms of semantic concepts in the images generated. We show that our method is uniquely capable of explaining complex multi-dimensional biases through semantic concepts, as well as the intersectionality between different biases for any given prompt. We perform extensive user studies to illustrate that the results of our method and analysis are consistent with human judgements.
翻訳日:2023-12-05 18:18:34 公開日:2023-12-03
# PGD攻撃を再考する: Sign Functionは必要か?

Rethinking PGD Attack: Is Sign Function Necessary? ( http://arxiv.org/abs/2312.01260v1 )

ライセンス: Link先を確認
Junjie Yang, Tianlong Chen, Xuxi Chen, Zhangyang Wang, Yingbin Liang(参考訳) ニューラルネットワークは様々な領域で成功しているが、その性能は小さな入力摂動によって著しく低下する可能性がある。 その結果、敵攻撃として知られるこのような摂動の構築に大きな注目を集め、その多くはニューラルネットワークに完全にアクセス可能な「ホワイトボックス」シナリオに該当する。 射影勾配降下(pgd)のような既存の攻撃アルゴリズムは、通常、逆入力を更新する前に生の勾配で符号関数を取るため、勾配等級情報を無視する。 本稿では,このような手話に基づく更新アルゴリズムがステップワイズ攻撃性能にどのように影響するかを理論的に解析する。 また,従来の生勾配直接利用の試みが失敗した理由も解釈した。 そこで我々はさらに,手話の使用を無くす新しい生勾配降下(rgd)アルゴリズムを提案する。 具体的には,制約を越え得る非傾斜摂動の新たな隠れ変数を導入することで,制約付き最適化問題を制約付き最適化問題に変換する。 提案したRGDアルゴリズムの有効性は,計算オーバーヘッドを伴わずに,PGDと他の競合よりも高い性能を示す実験で広く実証されている。 コードはhttps://github.com/JunjieYang97/RGDで入手できる。

Neural networks have demonstrated success in various domains, yet their performance can be significantly degraded by even a small input perturbation. Consequently, the construction of such perturbations, known as adversarial attacks, has gained significant attention, many of which fall within "white-box" scenarios where we have full access to the neural network. Existing attack algorithms, such as the projected gradient descent (PGD), commonly take the sign function on the raw gradient before updating adversarial inputs, thereby neglecting gradient magnitude information. In this paper, we present a theoretical analysis of how such sign-based update algorithm influences step-wise attack performance, as well as its caveat. We also interpret why previous attempts of directly using raw gradients failed. Based on that, we further propose a new raw gradient descent (RGD) algorithm that eliminates the use of sign. Specifically, we convert the constrained optimization problem into an unconstrained one, by introducing a new hidden variable of non-clipped perturbation that can move beyond the constraint. The effectiveness of the proposed RGD algorithm has been demonstrated extensively in experiments, outperforming PGD and other competitors in various settings, without incurring any additional computational overhead. The codes is available in https://github.com/JunjieYang97/RGD.
翻訳日:2023-12-05 18:18:14 公開日:2023-12-03
# 調整可能な秩序をもつ相転移における位相的欠陥形成

Topological defect formation in a phase transition with tunable order ( http://arxiv.org/abs/2312.01259v1 )

ライセンス: Link先を確認
Fumika Suzuki and Wojciech H. Zurek(参考訳) キブル・ズレック機構(KZM)は、二階相転移中の系の非平衡ダイナミクスと位相欠陥の形成を記述する。 KZMは宇宙論や凝縮物質物理学などの分野に応用を見出した。 しかし、一般に一階相転移を記述するのには適さない。 超伝導体や荷電超流動などの系の遷移は、2次に分類され、変動の影響を考慮すると弱い1次特性を示すことが示されている。 さらに、位相遷移の順序(すなわち、第2次ではなく第1次になる程度)を調整できる。 このような位相遷移におけるクエンチによるトポロジ的欠陥の形成について検討し、KZMと核生成理論を組み合わせることでその密度を予測できることを示す。

The Kibble-Zurek mechanism (KZM) describes the non-equilibrium dynamics and topological defect formation in systems undergoing second-order phase transitions. KZM has found applications in fields such as cosmology and condensed matter physics. However, it is generally not suitable for describing first-order phase transitions. It has been demonstrated that transitions in systems like superconductors or charged superfluids, typically classified as second-order, can exhibit weakly first-order characteristics when the influence of fluctuations is taken into account. Moreover, the order of the phase transition (i.e., the extent to which it becomes first rather than second order) can be tuned. We explore quench-induced formation of topological defects in such tunable phase transitions and propose that their density can be predicted by combining KZM with nucleation theory.
翻訳日:2023-12-05 18:17:53 公開日:2023-12-03
# 量子東/西ヘテロ接合構造による直交エンタングルメントの拡散

Directing entanglement spreading by means of a quantum East/West heterojunction structure ( http://arxiv.org/abs/2312.01257v1 )

ライセンス: Link先を確認
Guanhua Chen and Yao Yao(参考訳) 変換不変量子東モデルは、東西ヘテロ接合構造を持つ不均質な鎖へと拡張する。 実粒子の量子拡散に類似して、時間発展中にヘテロ接合に拡がる環状の絡み合いエントロピーを観測し、これは量子熱エンジンの連続サイクルと見なすことができる。 量子資源としての絡み合いエントロピーを操作する可能性を明らかにするため、エントロピー成長は初期占有と部位依存性の化学的ポテンシャルによって決定され、前者は有効温度と等価である。 これらのパラメータの微調整により、絡み合いの流れは鎖の2つの源から得られるものと重なり合う。 このモデルと従来の熱機関との間に興味深い関係が確立された。

We extend the translationally invariant quantum East model to an inhomogeneous chain with East/West heterojunction structure. In analogy to the quantum diffusion of substantial particles, we observe a cyclic entanglement entropy spreading in the heterojunction during time evolution, which can be regarded as continuous cycles in a quantum heat engine. In order to figure out the possibility of manipulating the entanglement entropy as a quantum resource, the entropy growth is shown to be determined by the initial occupation and the site-dependent chemical potential, and the former is equivalent to an effective temperature. Through fine adjustment of these parameters, we discover the entanglement flow is simply superposed with those from two sources of the chain. An intriguing relation between our model and the traditional heat engines is subsequently established.
翻訳日:2023-12-05 18:17:38 公開日:2023-12-03
# Meta ControlNet: メタ学習によるタスク適応の強化

Meta ControlNet: Enhancing Task Adaptation via Meta Learning ( http://arxiv.org/abs/2312.01255v1 )

ライセンス: Link先を確認
Junjie Yang, Jinze Zhao, Peihao Wang, Zhangyang Wang, Yingbin Liang(参考訳) 近年,拡散に基づく画像合成が注目されている。 特に、画像ベースのプロンプトを使用するControlNetは、キャニーエッジ検出などのイメージタスクに強力な能力を示し、これらのプロンプトによく適合した画像を生成する。 しかし、バニラコントロールネットは通常、1つのタスクの望ましい制御を達成するために5000ステップ程度の広範なトレーニングを必要とする。 最近のコンテキスト学習アプローチでは、適応性が改善されているが、主にエッジベースのタスクで、ペアの例に依存している。 そのため、2つの重要なオープンな問題がまだ解決されていない。 (i)特定のタスクに対するゼロショット制御及び (ii)非エッジ型タスクの高速適応化。 本稿では,タスクに依存しないメタ学習技術を採用し,新しい層凍結設計を特徴とするMeta ControlNet手法を提案する。 Meta ControlNetは、5000から1000までのコントロール能力を達成するための学習ステップを著しく削減する。 さらに、Meta ControlNetは、エッジベースのタスクにおいて、微調整なしで直接ゼロショット適応性を示し、Human Poseのようなより複雑な非エッジタスクにおいて、100ステップ以内の制御を達成し、既存のメソッドを上回ります。 コードはhttps://github.com/JunjieYang97/Meta-ControlNetで公開されている。

Diffusion-based image synthesis has attracted extensive attention recently. In particular, ControlNet that uses image-based prompts exhibits powerful capability in image tasks such as canny edge detection and generates images well aligned with these prompts. However, vanilla ControlNet generally requires extensive training of around 5000 steps to achieve a desirable control for a single task. Recent context-learning approaches have improved its adaptability, but mainly for edge-based tasks, and rely on paired examples. Thus, two important open issues are yet to be addressed to reach the full potential of ControlNet: (i) zero-shot control for certain tasks and (ii) faster adaptation for non-edge-based tasks. In this paper, we introduce a novel Meta ControlNet method, which adopts the task-agnostic meta learning technique and features a new layer freezing design. Meta ControlNet significantly reduces learning steps to attain control ability from 5000 to 1000. Further, Meta ControlNet exhibits direct zero-shot adaptability in edge-based tasks without any finetuning, and achieves control within only 100 finetuning steps in more complex non-edge tasks such as Human Pose, outperforming all existing methods. The codes is available in https://github.com/JunjieYang97/Meta-ControlNet.
翻訳日:2023-12-05 18:17:25 公開日:2023-12-03
# 自動明示による翻訳における背景知識ギャップの橋渡し

Bridging Background Knowledge Gaps in Translation with Automatic Explicitation ( http://arxiv.org/abs/2312.01308v1 )

ライセンス: Link先を確認
HyoJung Han, Jordan Lee Boyd-Graber, Marine Carpuat(参考訳) 翻訳は、他の言語で書かれたコンテンツを理解するのに役立つ。 しかし、正しいリテラル翻訳でさえ、人々が理解するために必要な背景が欠けている場合には、その目標を達成できない。 プロの翻訳者は、ソースとターゲットのオーディエンス間の文化的差異を考慮し、欠落したコンテキストを説明するために明示を取り入れている。 ユーザを支援する可能性にもかかわらず、適切な評価方法の欠如により、NLPによる明示化の研究は限られている。 WikiExplは、ウィキペディアから収集し、人間の翻訳者と注釈を付けるデータセットである。 結果の明示は、多言語質問応答フレームワークにおいて、より正確に質問に答えるのに役立つ。

Translations help people understand content written in another language. However, even correct literal translations do not fulfill that goal when people lack the necessary background to understand them. Professional translators incorporate explicitations to explain the missing context by considering cultural differences between source and target audiences. Despite its potential to help users, NLP research on explicitation is limited because of the dearth of adequate evaluation methods. This work introduces techniques for automatically generating explicitations, motivated by WikiExpl: a dataset that we collect from Wikipedia and annotate with human translators. The resulting explicitations are useful as they help answer questions more accurately in a multilingual question answering framework.
翻訳日:2023-12-05 18:09:44 公開日:2023-12-03
# SAGE:言語指導下でのGEneralizable Articulated-Object操作のための意味的および行動的部品のブリッジ

SAGE: Bridging Semantic and Actionable Parts for GEneralizable Articulated-Object Manipulation under Language Instructions ( http://arxiv.org/abs/2312.01307v1 )

ライセンス: Link先を確認
Haoran Geng, Songlin Wei, Congyue Deng, Bokui Shen, He Wang, Leonidas Guibas(参考訳) 多くの現実のシナリオにおいて、多種多様なオブジェクト構造、機能、目標を考えると、音声オブジェクトの一般化可能な操作は難しい問題である。 これらのタスクでは、意味的解釈と物理的多義性の両方が、ポリシーが成功するには不可欠である。 そこで本研究では,言語命令下での汎用的な操作を実現するために,意味的および動作可能なオブジェクトの理解を橋渡しする新しいフレームワークであるSAGEを提案する。 自然言語で指定された操作目標が与えられたとき、Large Language Models (LLM) を用いた命令インタプリタは、まずオブジェクトのセマンティック部分のプログラムアクションに変換する。 このプロセスには、視覚入力を理解するシーンコンテキストパーサも含まれている。これは、ジェネラリストビジュアル言語モデル(vlms)とドメイン特化部分知覚モデルの力を結合することにより、リッチな情報と正確なインタラクション関連の事実の両方を含むシーン記述を生成するように設計されている。 さらにアクションプログラムを実行可能なポリシーに変換するために、命令インタプリタによって提案されるオブジェクトの意味部分を、Generalizable Actionable Parts (GAParts) と呼ばれるものにマッピングする。 最後に、インタラクティブなフィードバックモジュールが障害に対応するために組み込まれ、フレームワーク全体の堅牢性を大幅に向上させる。 シミュレーション環境と実ロボットの両方の実験により、我々のフレームワークは多様な言語で指示された目的を持った多種多様な音声オブジェクトを扱えることを示した。 また,現実シナリオにおける言語誘導型言語オブジェクト操作の新しいベンチマークも提供する。

Generalizable manipulation of articulated objects remains a challenging problem in many real-world scenarios, given the diverse object structures, functionalities, and goals. In these tasks, both semantic interpretations and physical plausibilities are crucial for a policy to succeed. To address this problem, we propose SAGE, a novel framework that bridges the understanding of semantic and actionable parts of articulated objects to achieve generalizable manipulation under language instructions. Given a manipulation goal specified by natural language, an instruction interpreter with Large Language Models (LLMs) first translates them into programmatic actions on the object's semantic parts. This process also involves a scene context parser for understanding the visual inputs, which is designed to generate scene descriptions with both rich information and accurate interaction-related facts by joining the forces of generalist Visual-Language Models (VLMs) and domain-specialist part perception models. To further convert the action programs into executable policies, a part grounding module then maps the object semantic parts suggested by the instruction interpreter into so-called Generalizable Actionable Parts (GAParts). Finally, an interactive feedback module is incorporated to respond to failures, which greatly increases the robustness of the overall framework. Experiments both in simulation environments and on real robots show that our framework can handle a large variety of articulated objects with diverse language-instructed goals. We also provide a new benchmark for language-guided articulated-object manipulation in realistic scenarios.
翻訳日:2023-12-05 18:09:34 公開日:2023-12-03
# 低リソース化と効率的な名前付きエンティティ認識のためのサブワードトークン化の意義--マラティにおける事例研究

On Significance of Subword tokenization for Low Resource and Efficient Named Entity Recognition: A case study in Marathi ( http://arxiv.org/abs/2312.01306v1 )

ライセンス: Link先を確認
Harsh Chaudhari, Anuja Patil, Dhanashree Lavekar, Pranav Khairnar, Raviraj Joshi, Sachin Pande(参考訳) 名前付きエンティティ認識(NER)システムは、機械翻訳、要約、質問応答などのNLPアプリケーションにおいて重要な役割を果たす。 これらのシステムは、場所、人、組織といった現実世界の概念を含む名前付きエンティティを識別する。 英語のNERシステムに関する広範な研究にもかかわらず、低資源言語の文脈では十分な注目を集めていない。 本研究では,低リソース言語のためのNERに着目し,インドの言語Marathiの文脈におけるケーススタディを示す。 NLP研究の進展は、NERモデルの開発にBERTのような事前訓練されたトランスフォーマーモデルの利用を中心に展開されている。 しかし,両世界のベストを組み合わせることで,cnnとlstmに基づく浅層モデルの性能向上に注目する。 変圧器の時代には、これらの伝統的なディープラーニングモデルは高い計算効率のため、いまだに関係がある。 BERTベースのサブワードトークン化器をバニラCNN/LSTMモデルに統合することで,効率的なNERのためのハイブリッド手法を提案する。 従来の単語ベースのトークン化器をbert-tokenizerに置き換えるこの単純なアプローチは,bertのような深い事前学習モデルに近いバニラ単層モデルの精度をもたらすことを示す。 我々は,NERにおけるサブワードトークン化の重要性と,効率的なNLPシステム構築に向けた研究について述べる。 The evaluation was performed on L3Cube-MahaNER dataset using tokenizers from MahaBERT, MahaGPT, IndicBERT, mBERT。

Named Entity Recognition (NER) systems play a vital role in NLP applications such as machine translation, summarization, and question-answering. These systems identify named entities, which encompass real-world concepts like locations, persons, and organizations. Despite extensive research on NER systems for the English language, they have not received adequate attention in the context of low resource languages. In this work, we focus on NER for low-resource language and present our case study in the context of the Indian language Marathi. The advancement of NLP research revolves around the utilization of pre-trained transformer models such as BERT for the development of NER models. However, we focus on improving the performance of shallow models based on CNN, and LSTM by combining the best of both worlds. In the era of transformers, these traditional deep learning models are still relevant because of their high computational efficiency. We propose a hybrid approach for efficient NER by integrating a BERT-based subword tokenizer into vanilla CNN/LSTM models. We show that this simple approach of replacing a traditional word-based tokenizer with a BERT-tokenizer brings the accuracy of vanilla single-layer models closer to that of deep pre-trained models like BERT. We show the importance of using sub-word tokenization for NER and present our study toward building efficient NLP systems. The evaluation is performed on L3Cube-MahaNER dataset using tokenizers from MahaBERT, MahaGPT, IndicBERT, and mBERT.
翻訳日:2023-12-05 18:09:06 公開日:2023-12-03
# ViVid-1-to-3:ビデオ拡散モデルによる新しいビュー合成

ViVid-1-to-3: Novel View Synthesis with Video Diffusion Models ( http://arxiv.org/abs/2312.01305v1 )

ライセンス: Link先を確認
Jeong-gi Kwak, Erqun Dong, Yuhe Jin, Hanseok Ko, Shweta Mahajan, Kwang Moo Yi(参考訳) 一つの画像からオブジェクトの新しいビューを生成するのは難しい作業です。 画像からオブジェクトの3D構造を理解し、高品質で空間的に一貫した新しいビューを描画する必要がある。 近年の拡散に基づくビュー合成手法は大きな進歩を遂げているものの、様々なビュー推定の一貫性の実現と、所望のカメラポーズによるアブレーションは、まだ解決されていない重要な課題である。 本研究では,この問題を解決するために,事前学習したビデオ拡散モデルを用いる,驚くほど単純な手法を示す。 私たちの重要なアイデアは、新しいビューの合成は、興味のあるオブジェクト(スキャンビデオ)を回るカメラのビデオの合成として再構成され、ビデオ拡散モデルが学習するであろう強力な優先事項を活用できる、というものだ。 そこで,新たな視点合成を行うために,映像拡散モデルと映像拡散モデルの両方を用いて,目標視点へのスムーズなカメラ軌跡を作成し,ノイズを解消する。 これにより、高度に一貫した新しいビュー合成が得られ、芸術の状態を上回ります。

Generating novel views of an object from a single image is a challenging task. It requires an understanding of the underlying 3D structure of the object from an image and rendering high-quality, spatially consistent new views. While recent methods for view synthesis based on diffusion have shown great progress, achieving consistency among various view estimates and at the same time abiding by the desired camera pose remains a critical problem yet to be solved. In this work, we demonstrate a strikingly simple method, where we utilize a pre-trained video diffusion model to solve this problem. Our key idea is that synthesizing a novel view could be reformulated as synthesizing a video of a camera going around the object of interest -- a scanning video -- which then allows us to leverage the powerful priors that a video diffusion model would have learned. Thus, to perform novel-view synthesis, we create a smooth camera trajectory to the target view that we wish to render, and denoise using both a view-conditioned diffusion model and a video diffusion model. By doing so, we obtain a highly consistent novel view synthesis, outperforming the state of the art.
翻訳日:2023-12-05 18:08:43 公開日:2023-12-03
# 高齢者と妊婦のスマートセーフティウォッチ

Smart safety watch for elderly people and pregnant women ( http://arxiv.org/abs/2312.01302v1 )

ライセンス: Link先を確認
Balachandra D S, Maithreyee M S, Saipavan B M, Shashank S, Dr. P Devaki, Ms. Ashwini M(参考訳) 滝は高齢者にとって最も有害な出来事の1つである。 高齢化が進むにつれて、転倒検知システムの進歩を求める声が高まっている。 センサネットワークとIoT(Internet of Things)の急速な進歩により、センサフュージョンによる人間とコンピュータのインタラクションは、フォール検出の問題に対処するための、認識され強力なアプローチとなった。 IoT対応システムでさえ、毎日の環境の中で妊婦に合わせた経済的な健康モニタリングソリューションを提供できる。 近年の研究では、これらの遠隔健康モニタリング装置は妊娠および産後段階を通じて母親と幼児の幸福感を高める可能性があることが示唆されている。 もう1つの進歩は「パニックボタン」の統合であり、安全性の強調により人気が高まっている。 これらのボタンは、ユーザのリアルタイム位置情報をアクティベートされた緊急連絡先に即座に送信する。 私たちのソリューションは、我々が毎日目にする3つの課題に焦点を当てています。 高齢者の転倒検知は、転倒して誰も助けを求めていない場合に高齢者を助ける。 睡眠パターンセンシングは,SPO2センサーをデバイスに統合した妊婦に有用である。 心拍数モニターも付属している。 第3の解決策は、パニック状態に焦点を当てています。決定されたボタンを押すと、指定された緊急連絡先にパニックアラートが送信されます。 このデバイスにはflutterを使って開発されたモバイルアプリも付属している。

Falls represent one of the most detrimental occurrences for the elderly. Given the continually increasing ageing demographic, there is a pressing demand for advancing fall detection systems. The swift progress in sensor networks and the Internet of Things (IoT) has made human-computer interaction through sensor fusion an acknowledged and potent approach for tackling the issue of fall detection. Even IoT-enabled systems can deliver economical health monitoring solutions tailored to pregnant women within their daily environments. Recent research indicates that these remote health monitoring setups have the potential to enhance the well-being of both the mother and the infant throughout the pregnancy and postpartum phases. One more emerging advancement is the integration of 'panic buttons,' which are gaining popularity due to the escalating emphasis on safety. These buttons instantly transmit the user's real-time location to pre-designated emergency contacts when activated. Our solution focuses on the above three challenges we see every day. Fall detection for the elderly helps the elderly in case they fall and have nobody around for help. Sleep pattern sensing is helpful for pregnant women based on the SPO2 sensors integrated within our device. It is also bundled with heart rate monitoring. Our third solution focuses on a panic situation; upon pressing the determined buttons, a panic alert would be sent to the emergency contacts listed. The device also comes with a mobile app developed using Flutter that takes care of all the heavy processing rather than the device itself.
翻訳日:2023-12-05 18:08:24 公開日:2023-12-03
# マルチモーダル融合学習によるチャーン予測:顧客の金融リテラシー、音声、行動データの統合

Churn Prediction via Multimodal Fusion Learning:Integrating Customer Financial Literacy, Voice, and Behavioral Data ( http://arxiv.org/abs/2312.01301v1 )

ライセンス: Link先を確認
David Hason Rudd, Huan Huo, Md Rafiqul Islam, Guandong Xu(参考訳) 今日の競争環境では、企業は顧客の維持に苦しむ。 チャーン予測モデルは有益ではあるが、単一のデータソースに依存するため精度が低いことが多い。 人間の行動と高次元顧客データの複雑な性質は、これらの努力をさらに複雑にする。 これらの問題に対処するため,金融サービス事業者の顧客リスクレベルを特定するためのマルチモーダル融合学習モデルを提案する。 私たちのマルチモーダルアプローチは、顧客感情金融リテラシー(fl)レベルと金融行動データを統合し、より正確でバイアスのないチャーン予測モデルを可能にします。 提案モデルでは、SMOGN COREG教師付きモデルを用いて顧客FLレベルを財務データから評価する。 ベースラインチャーンモデルは、アンサンブルニューラルネットワークとオーバーサンプリング技術を適用し、高次元金融データのチャーン傾向を予測する。 また,事前学習したCNN-VGG16を用いた音声感情認識モデルを用いて,ピッチ,エネルギ,トーンに基づく顧客感情の認識を行う。 ユニークな洞察を維持しつつ,これらの多様な特徴を統合するために,協調型マルチモーダルコラーニングを補完的に促進する後期・ハイブリッド融合技術を導入した。 提案したマルチモーダル核融合モデルの評価にロバスト指標を用いて,平均精度とマクロ平均F1スコアを含むアプローチの有効性を検討した。 提案手法は, 実験精度91.2%, 平均精度66, マクロ平均F1スコア54を, 後期核融合モデルとベースラインモデルとを比較したハイブリッド核融合学習技術を用いて, チャーン予測の顕著な改善を示すものである。 さらに, ネガティブ感情と低fl得点, 高リスク顧客との間に正の相関を示す。

In todays competitive landscape, businesses grapple with customer retention. Churn prediction models, although beneficial, often lack accuracy due to the reliance on a single data source. The intricate nature of human behavior and high dimensional customer data further complicate these efforts. To address these concerns, this paper proposes a multimodal fusion learning model for identifying customer churn risk levels in financial service providers. Our multimodal approach integrates customer sentiments financial literacy (FL) level, and financial behavioral data, enabling more accurate and bias-free churn prediction models. The proposed FL model utilizes a SMOGN COREG supervised model to gauge customer FL levels from their financial data. The baseline churn model applies an ensemble artificial neural network and oversampling techniques to predict churn propensity in high-dimensional financial data. We also incorporate a speech emotion recognition model employing a pre-trained CNN-VGG16 to recognize customer emotions based on pitch, energy, and tone. To integrate these diverse features while retaining unique insights, we introduced late and hybrid fusion techniques that complementary boost coordinated multimodal co learning. Robust metrics were utilized to evaluate the proposed multimodal fusion model and hence the approach validity, including mean average precision and macro-averaged F1 score. Our novel approach demonstrates a marked improvement in churn prediction, achieving a test accuracy of 91.2%, a Mean Average Precision (MAP) score of 66, and a Macro-Averaged F1 score of 54 through the proposed hybrid fusion learning technique compared with late fusion and baseline models. Furthermore, the analysis demonstrates a positive correlation between negative emotions, low FL scores, and high-risk customers.
翻訳日:2023-12-05 18:08:03 公開日:2023-12-03
# 適応ネットワーク上のロバストな非パラメトリック知識ベース拡散最小平均平方

Robust Non-parametric Knowledge-based Diffusion Least Mean Squares over Adaptive Networks ( http://arxiv.org/abs/2312.01299v1 )

ライセンス: Link先を確認
Soheil Ashkezari-Toussi, Hadi sadoghi-Yazdi(参考訳) 本研究では,非パラメトリック知識を拡散最小平均二乗アルゴリズムに組み込むことにより,MAP推定の枠組みを提案する。 提案アルゴリズムは, 協調推定器群における未知パラメータベクトルのロバストな推定に導かれる。 カーネル密度の推定と中間推定のバッファリングを利用して、各ノードにおけるパラメータベクトルの事前分布と条件付き確率を算出する。 Pseudo Huber損失関数は、可能性関数の設計に使用される。 また、エラーしきい値が予め定義されたしきい値未満である度に更新を停止するノイズに対して緩和すると共に、計算オーバーヘッドを低減するためにエラーしきい値関数が定義される。 提案アルゴリズムの性能はガウス雑音とガウス雑音の存在下での定常および非定常のシナリオで検証される。 その結果,異なるノイズの種類が存在する場合,提案アルゴリズムのロバスト性を示す。

The present study proposes incorporating non-parametric knowledge into the diffusion least-mean-squares algorithm in the framework of a maximum a posteriori (MAP) estimation. The proposed algorithm leads to a robust estimation of an unknown parameter vector in a group of cooperative estimators. Utilizing kernel density estimation and buffering some intermediate estimations, the prior distribution and conditional likelihood of the parameters vector in each node are calculated. Pseudo Huber loss function is used for designing the likelihood function. Also, an error thresholding function is defined to reduce the computational overhead as well as more relaxation against noise, which stops the update every time an error is less than a predefined threshold. The performance of the proposed algorithm is examined in the stationary and non-stationary scenarios in the presence of Gaussian and non-Gaussian noise. Results show the robustness of the proposed algorithm in the presence of different noise types.
翻訳日:2023-12-05 18:07:33 公開日:2023-12-03
# ノイズのない増幅熱状態と多光子付加または減光

Noiselessly amplified thermal states and after multi-photon addition or subtraction ( http://arxiv.org/abs/2312.01298v1 )

ライセンス: Link先を確認
Xue-feng Zhan and Xue-xiang Xu(参考訳) 本稿では、雑音のない増幅演算子(g^{\hat{n}}$)を、対応する平均光子数(MPN)$\bar{n}$で熱状態(TS)上で動作させることにより、雑音のない増幅熱状態(ATS)を導入する。 実際、ATSは新しいTSで、MPN $\bar{N}=g^{2}\bar{n}/[1-\bar{n}\left(g^{2}-1\right)]$である。 さらに,光子付加ATS (PAATS) と光子減算ATS (PSATS) をそれぞれ$m$-photon 加算 (\hat{a}^{\dag m}$) と$m$-photon 減算 (\hat{a}^{m}$) の操作により導入する。 これらすべての状態に対する光子数分布(PND)、純度、ウィグナー関数(WF)について検討する。

In this paper, we introduce a noiselessly amplified thermal state (ATS), by operating the noiseless amplification operator ($g^{\hat{n}}$) on the thermal state (TS) with corresponding mean photon number (MPN) $\bar{n}$. Actually, the ATS is an new TS with MPN $\bar{N}=g^{2}\bar{n}/[1-\bar{n}\left(g^{2}-1\right)]$. Furthermore, we introduce photon-added-ATS (PAATS) and photon-subtracted-ATS (PSATS) by operating $m$-photon addition ($\hat{a}^{\dag m}$) and $m$-photon subtraction ($\hat{a}^{m}$) on the ATS, respectively. We study photon number distributions (PNDs), purities, and Wigner functions (WFs) for all these states.
翻訳日:2023-12-05 18:07:21 公開日:2023-12-03
# 分布ロバスト最適化を用いた不確かさ下での異常検出

Anomaly Detection Under Uncertainty Using Distributionally Robust Optimization Approach ( http://arxiv.org/abs/2312.01296v1 )

ライセンス: Link先を確認
Amir Hossein Noormohammadia, Seyed Ali MirHassania, Farnaz Hooshmand Khaligh(参考訳) 異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。 この問題を解決するための様々な手法として,一級支援ベクトルマシン(SVM)を含む分類に基づく手法が,有効かつ最先端であると考えられる。 1クラスSVM法は,通常のデータのみを用いて,通常のデータポイントと異常を区別する決定境界を求めることを目的としている。 一方、現実世界のほとんどの問題は、各データポイントの真の確率分布が未知であり、その推定が困難でコストがかかるような、ある程度の不確実性を含んでいる。 第1および第2次モーメントのような部分分布情報が知られていると仮定すると、誤分類の確率が低い分布的ロバストな確率制約モデルが提案される。 より高次元空間への写像関数の利用により、提案モデルは原点分離可能なデータセットを分類することができる。 また、カーネルの考え方を採用することにより、マッピングを明示的に認識する必要がなくなり、入力空間での計算が可能となり、計算複雑性が低減される。 計算結果から, 確率分布の異なるモデルに対して, 提案モデルのロバスト性を検証し, 各種評価指標を用いて, 標準のSVMと比較して, 提案モデルの優位性を検証した。

Anomaly detection is defined as the problem of finding data points that do not follow the patterns of the majority. Among the various proposed methods for solving this problem, classification-based methods, including one-class Support Vector Machines (SVM) are considered effective and state-of-the-art. The one-class SVM method aims to find a decision boundary to distinguish between normal data points and anomalies using only the normal data. On the other hand, most real-world problems involve some degree of uncertainty, where the true probability distribution of each data point is unknown, and estimating it is often difficult and costly. Assuming partial distribution information such as the first and second-order moments is known, a distributionally robust chance-constrained model is proposed in which the probability of misclassification is low. By utilizing a mapping function to a higher dimensional space, the proposed model will be capable of classifying origin-inseparable datasets. Also, by adopting the kernel idea, the need for explicitly knowing the mapping is eliminated, computations can be performed in the input space, and computational complexity is reduced. Computational results validate the robustness of the proposed model under different probability distributions and also the superiority of the proposed model compared to the standard one-class SVM in terms of various evaluation metrics.
翻訳日:2023-12-05 18:06:59 公開日:2023-12-03
# 量子レグレッションの深層アンサンブル:不確かさを意識した時系列計算

Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series ( http://arxiv.org/abs/2312.01294v1 )

ライセンス: Link先を確認
Ying Liu, Peng Cui, Wenbo Hu, Richang Hong(参考訳) 多変量時系列は至る所にある。 それにもかかわらず、現実世界の時系列データは、しばしば多くの欠落した値を示し、それは時系列インプテーションタスクである。 従来の深層学習手法は時系列の計算に有効であることが示されているが、情報システムの信頼性に対する潜在的に見過ごされた脅威である、過信的な計算を発生させることが示されている。 スコアベース拡散法(CSDI)は時系列計算作業には有効であるが,生成拡散モデルフレームワークの性質から計算コストがかかる。 本稿では,固有不確実性と計算効率を両立させる非生成時系列インプテーション手法を提案する。 具体的には,共用モデルバックボーンと分位数識別関数の連成による分位数回帰にディープアンサンブルを組み込んだ。この枠組みは,ディープアンサンブルの正確な不確実性推定と分位数回帰の利点を組み合わせることにより,共有モデルバックボーンは,複数のアンサンブルの計算オーバーヘッドの大部分を大幅に削減する。 提案手法は, 空気質と医療データセットの2つの実世界のデータセットにおいて, 提案手法の性能を検証し, 決定論的および確率論的予測に優れることを示す。 スコアベース拡散法と比較すると、CSDI は同等の予測結果を得ることができ、より多くのデータが欠落した場合により良い結果が得られる。 さらに, csdiと比較した非生成モデルとして, 提案手法は計算オーバーヘッドを大幅に削減し, 学習速度の高速化とモデルパラメータの低減を実現している。

Multivariate time series are everywhere. Nevertheless, real-world time series data often exhibit numerous missing values, which is the time series imputation task. Although previous deep learning methods have been shown to be effective for time series imputation, they are shown to produce overconfident imputations, which might be a potentially overlooked threat to the reliability of the intelligence system. Score-based diffusion method(i.e., CSDI) is effective for the time series imputation task but computationally expensive due to the nature of the generative diffusion model framework. In this paper, we propose a non-generative time series imputation method that produces accurate imputations with inherent uncertainty and meanwhile is computationally efficient. Specifically, we incorporate deep ensembles into quantile regression with a shared model backbone and a series of quantile discrimination functions.This framework combines the merits of accurate uncertainty estimation of deep ensembles and quantile regression and above all, the shared model backbone tremendously reduces most of the computation overhead of the multiple ensembles. We examine the performance of the proposed method on two real-world datasets: air quality and health-care datasets and conduct extensive experiments to show that our method excels at making deterministic and probabilistic predictions. Compared with the score-based diffusion method: CSDI, we can obtain comparable forecasting results and is better when more data is missing. Furthermore, as a non-generative model compared with CSDI, the proposed method consumes a much smaller computation overhead, yielding much faster training speed and fewer model parameters.
翻訳日:2023-12-05 18:06:35 公開日:2023-12-03
# タスク指向エッジネットワーク:無線フロントホールによる分散学習

Task-Oriented Edge Networks: Decentralized Learning Over Wireless Fronthaul ( http://arxiv.org/abs/2312.01288v1 )

ライセンス: Link先を確認
Hoon Lee and Seung-Wook Kim(参考訳) 本稿では,複数のエッジノードがネットワーククラウド上で強力なディープニューラルネットワーク(DNN)を用いて機械学習タスクを実行するタスク指向エッジネットワークについて検討する。 エッジノード(ens)を分離すると、グローバルネットワーク状態の分割された機能しか取得できない部分監視可能なシステムになる。 これらのローカルな観測は、リソースに制約された無線フロントフールリンクを介してクラウドに転送する必要がある。 個々のENは、タスク指向エンコーダDNNを使用して、ローカル観測をアップリンクフロントホールメッセージに圧縮する。 そして、クラウドは受信した信号を利用してリモート推論タスクを実行する。 このような分散トポロジは、エッジクラウド協調推論ルールとその分散トレーニング戦略を設計するための分散トレーニングと分散実行(DTDE)学習フレームワークを要求する。 まず, 無線フロントホール相互接続に適した適切なアップリンク協調プロトコルと共に, フロントホール協調dnnアーキテクチャを開発した。 ノモグラフィ関数にインスパイアされた効率的なクラウド推論モデルは、多くの浅いDNNの統合となる。 この変調アーキテクチャは、ENの数に依存しない多元計算をもたらす。 次に、ダウンリンク無線フロントホールチャネル上のエッジクラウドDNNを分離した分散トレーニングアルゴリズムを提案する。 クラウドからENへの勾配ベクトルを無線でバックプロパガンダする,適切なダウンリンク調整プロトコルを提案する。

This paper studies task-oriented edge networks where multiple edge internet-of-things nodes execute machine learning tasks with the help of powerful deep neural networks (DNNs) at a network cloud. Separate edge nodes (ENs) result in a partially observable system where they can only get partitioned features of the global network states. These local observations need to be forwarded to the cloud via resource-constrained wireless fronthual links. Individual ENs compress their local observations into uplink fronthaul messages using task-oriented encoder DNNs. Then, the cloud carries out a remote inference task by leveraging received signals. Such a distributed topology requests a decentralized training and decentralized execution (DTDE) learning framework for designing edge-cloud cooperative inference rules and their decentralized training strategies. First, we develop fronthaul-cooperative DNN architecture along with proper uplink coordination protocols suitable for wireless fronthaul interconnection. Inspired by the nomographic function, an efficient cloud inference model becomes an integration of a number of shallow DNNs. This modulized architecture brings versatile calculations that are independent of the number of ENs. Next, we present a decentralized training algorithm of separate edge-cloud DNNs over downlink wireless fronthaul channels. An appropriate downlink coordination protocol is proposed, which backpropagates gradient vectors wirelessly from the cloud to the ENs.
翻訳日:2023-12-05 18:06:07 公開日:2023-12-03
# 核融合プラズマの破壊予測のための連続畳み込みニューラルネットワーク

Continuous Convolutional Neural Networks for Disruption Prediction in Nuclear Fusion Plasmas ( http://arxiv.org/abs/2312.01286v1 )

ライセンス: Link先を確認
William F Arnold, Lucas Spangher, Christina Rea(参考訳) 温暖化のためのグリッド脱炭には核融合のような炭素フリーエネルギーが要求される。 トカマクの概念は核融合に有望な経路を提供するが、実装における最も大きな課題の1つはエネルギープラズマ破壊の発生である。 本研究では,プラズマ状態の結果を予測する機械学習手法について検討する。 我々は,(1)ディスラプション予測のための連続畳み込みニューラルネットワークの新たな応用を提示し,(2)モデルと先行する離散状態のartとの比較により,離散モデルよりも連続モデルのアドバンテージとデメリットを検証し,連続モデルがより少ないパラメータで有意に優れた性能(受信者特性曲線 = 0.974 v.s. 0.799)を提供することを示す。

Grid decarbonization for climate change requires dispatchable carbon-free energy like nuclear fusion. The tokamak concept offers a promising path for fusion, but one of the foremost challenges in implementation is the occurrence of energetic plasma disruptions. In this study, we delve into Machine Learning approaches to predict plasma state outcomes. Our contributions are twofold: (1) We present a novel application of Continuous Convolutional Neural Networks for disruption prediction and (2) We examine the advantages and disadvantages of continuous models over discrete models for disruption prediction by comparing our model with the previous, discrete state of the art, and show that continuous models offer significantly better performance (Area Under the Receiver Operating Characteristic Curve = 0.974 v.s. 0.799) with fewer parameters
翻訳日:2023-12-05 18:05:50 公開日:2023-12-03
# 安定したメッセンジャー: メッセージ駆動画像生成のためのステガノグラフィ

Stable Messenger: Steganography for Message-Concealed Image Generation ( http://arxiv.org/abs/2312.01284v1 )

ライセンス: Link先を確認
Quang Nguyen, Truong Vu, Cuong Pham, Anh Tran, Khoi Nguyen(参考訳) デジタルの世界では、機密情報の保護が最重要である。 本稿では,デジタル・プロテクション,特にステガノグラフィーに焦点をあてた。 先行研究は主に個々のビットデコードに固定していたが、より包括的評価のためにデコードされたメッセージの全体を評価する新しい指標である ``message accuracy''' を導入することでこの制限に対処した。 さらに,ログサム指数損失(LSE)と呼ばれるメッセージ精度を向上させるために調整された適応的ユニバーサル損失を提案し,近年のメッセージ精度を大幅に向上させた。 さらに,高度なステガノグラフィ画像生成のために事前訓練された安定拡散を利用して,画像品質とメッセージ復元のトレードオフをより良くする,新しい潜在認識エンコーディング手法である \approach を導入する。 実験結果を通じて,新しいLSE損失と潜在認識符号化技術の優れた性能を実証した。 この包括的なアプローチは、評価指標の進化、損失関数の精製、画像隠蔽技術の革新において重要なステップであり、より堅牢で信頼性の高い情報保護を目指している。

In the ever-expanding digital landscape, safeguarding sensitive information remains paramount. This paper delves deep into digital protection, specifically focusing on steganography. While prior research predominantly fixated on individual bit decoding, we address this limitation by introducing ``message accuracy'', a novel metric evaluating the entirety of decoded messages for a more holistic evaluation. In addition, we propose an adaptive universal loss tailored to enhance message accuracy, named Log-Sum-Exponential (LSE) loss, thereby significantly improving the message accuracy of recent approaches. Furthermore, we also introduce a new latent-aware encoding technique in our framework named \Approach, harnessing pretrained Stable Diffusion for advanced steganographic image generation, giving rise to a better trade-off between image quality and message recovery. Throughout experimental results, we have demonstrated the superior performance of the new LSE loss and latent-aware encoding technique. This comprehensive approach marks a significant step in evolving evaluation metrics, refining loss functions, and innovating image concealment techniques, aiming for more robust and dependable information protection.
翻訳日:2023-12-05 18:05:34 公開日:2023-12-03
# 自己教師付き単眼室内深度推定

Deeper into Self-Supervised Monocular Indoor Depth Estimation ( http://arxiv.org/abs/2312.01283v1 )

ライセンス: Link先を確認
Chao Fan, Zhenyu Yin, Yue Li, Feiqing Zhang(参考訳) 畳み込みニューラルネットワーク(CNN)を用いた単眼深度推定は,屋外運転シーンにおいて顕著な性能を示した。 しかし,2つの主な理由から,単眼列から室内奥行きの自己教師あり学習は研究者にとって極めて困難である。 1つは低テクスチャ領域の大きな領域であり、もう1つは屋内トレーニングデータセットの複雑なエゴモーションである。 本研究において,提案手法は2つのイノベーションから成り立っている。 特に,低テクスチャ領域の課題に対処するために,構造類似性(SSIM)を改良した新しい光度損失を提案する。 さらに、不正確なエゴモーション予測の問題を緩和するために、2つの残留ポーズブロックを持つより深いポーズネットワークをトレーニングするために、異なる段階における複数の光メトリック損失を使用する。 その後のアブレーション研究は、それぞれの新しいアイデアの有効性を検証することができる。 NYUv2ベンチマークの実験では、私たちのIndoorDepthは従来の最先端の手法よりも大きなマージンで優れています。 また,ScanNetデータセット上での手法の一般化能力についても検証した。 コードはhttps://github.com/fcntes/IndoorDepth.comで利用可能である。

Monocular depth estimation using Convolutional Neural Networks (CNNs) has shown impressive performance in outdoor driving scenes. However, self-supervised learning of indoor depth from monocular sequences is quite challenging for researchers because of the following two main reasons. One is the large areas of low-texture regions and the other is the complex ego-motion on indoor training datasets. In this work, our proposed method, named IndoorDepth, consists of two innovations. In particular, we first propose a novel photometric loss with improved structural similarity (SSIM) function to tackle the challenge from low-texture regions. Moreover, in order to further mitigate the issue of inaccurate ego-motion prediction, multiple photometric losses at different stages are used to train a deeper pose network with two residual pose blocks. Subsequent ablation study can validate the effectiveness of each new idea. Experiments on the NYUv2 benchmark demonstrate that our IndoorDepth outperforms the previous state-of-the-art methods by a large margin. In addition, we also validate the generalization ability of our method on ScanNet dataset. Code is availabe at https://github.com/fcntes/IndoorDepth.
翻訳日:2023-12-05 18:05:13 公開日:2023-12-03
# Mendata: 操作型トレーニングデータを浄化するフレームワーク

Mendata: A Framework to Purify Manipulated Training Data ( http://arxiv.org/abs/2312.01281v1 )

ライセンス: Link先を確認
Zonghao Huang, Neil Gong, Michael K. Reiter(参考訳) モデルのトレーニングに使用される信頼できないデータは、後にデータコントリビュータが悪用する可能性のある隠れたプロパティを学習モデルに与えるために操作された可能性がある。 データ精製は、モデルをトレーニングする前にそのような操作を取り除くことを目的としている。 操作したトレーニングデータを浄化する新しいフレームワークであるMendataを提案する。 入力の大半がクリーンな小さな参照データセットから始まり、Mendataはトレーニング入力を摂動させ、それらのユーティリティを保持するが、参照データに(ワッサースタイン距離で測定されたように)同じように)分配されるので、学習モデルから隠れたプロパティを除去する。 鍵となる課題はそのような摂動を見出す方法であり、最小最適化問題を定式化し、反復的に解く二段階法を開発することで解決する。 我々は、最先端のデータ中毒やデータ追跡技術にMendataを適用し、その効果を実証する。

Untrusted data used to train a model might have been manipulated to endow the learned model with hidden properties that the data contributor might later exploit. Data purification aims to remove such manipulations prior to training the model. We propose Mendata, a novel framework to purify manipulated training data. Starting from a small reference dataset in which a large majority of the inputs are clean, Mendata perturbs the training inputs so that they retain their utility but are distributed similarly (as measured by Wasserstein distance) to the reference data, thereby eliminating hidden properties from the learned model. A key challenge is how to find such perturbations, which we address by formulating a min-max optimization problem and developing a two-step method to iteratively solve it. We demonstrate the effectiveness of Mendata by applying it to defeat state-of-the-art data poisoning and data tracing techniques.
翻訳日:2023-12-05 18:04:55 公開日:2023-12-03
# moec: 専門家による暗黙の神経圧縮の混合

MoEC: Mixture of Experts Implicit Neural Compression ( http://arxiv.org/abs/2312.01361v1 )

ライセンス: Link先を確認
Jianchen Zhao, Cheng-Ching Tseng, Ming Lu, Ruichuan An, Xiaobao Wei, He Sun, Shanghang Zhang(参考訳) Emerging Implicit Neural Representation (INR) は、Deep Neural Network (DNN) のパラメータを用いてデータを表現する、有望なデータ圧縮技術である。 既存のメソッドは複雑なシーンを手動でローカルリージョンに分割し、INRをそれらのリージョンにオーバーフィットする。 しかし、複雑なシーンのパーティションスキームを手動で設計するのは非常に困難であり、パーティションとINRを共同で学習することができない。 そこで本研究では,専門家の混合理論に基づく新しい暗黙的ニューラル圧縮手法であるMoECを提案する。 具体的には、ゲーティングネットワークを使用して、シーン内の3Dポイントに特定のINRを自動的に割り当てる。 ゲーティングネットワークは、異なる地域のINRと共同で訓練されている。 ブロック分割やツリー分割と比較して、学習可能なパーティションは、エンドツーエンドで最適なパーティションを適応的に見つけることができます。 既存のアプローチに対するMoECの利点を実証するために, 大規模かつ多様なバイオメディカルデータに関する詳細な実験を行った。 実験のほとんどにおいて、私たちは最先端の結果を得ました。 特に6000xのような極端な圧縮比の場合、PSNRは48.16である。

Emerging Implicit Neural Representation (INR) is a promising data compression technique, which represents the data using the parameters of a Deep Neural Network (DNN). Existing methods manually partition a complex scene into local regions and overfit the INRs into those regions. However, manually designing the partition scheme for a complex scene is very challenging and fails to jointly learn the partition and INRs. To solve the problem, we propose MoEC, a novel implicit neural compression method based on the theory of mixture of experts. Specifically, we use a gating network to automatically assign a specific INR to a 3D point in the scene. The gating network is trained jointly with the INRs of different local regions. Compared with block-wise and tree-structured partitions, our learnable partition can adaptively find the optimal partition in an end-to-end manner. We conduct detailed experiments on massive and diverse biomedical data to demonstrate the advantages of MoEC against existing approaches. In most of experiment settings, we have achieved state-of-the-art results. Especially in cases of extreme compression ratios, such as 6000x, we are able to uphold the PSNR of 48.16.
翻訳日:2023-12-05 17:45:57 公開日:2023-12-03
# 3つのNMFアルゴリズムのロバスト性の解析(L1ノルム、L2-1ノルムNMF、L2NMF)

Analyze the robustness of three NMF algorithms (Robust NMF with L1 norm, L2-1 norm NMF, L2 NMF) ( http://arxiv.org/abs/2312.01357v1 )

ライセンス: Link先を確認
Cheng Zeng, Jiaqi Tian, Yixuan Xu(参考訳) 非負行列分解(NMF)とその変種はクラスタリングや分類タスク(Long, & Jian, 2021)で広く用いられている。 しかし、ノイズは実験結果に深刻な影響を及ぼす可能性がある。 本研究は,非負行列分解(NMF)の雑音耐性について,異なる種類のノイズに直面して検討することを目的としている。 具体的には、L1 NMF、L2 NMF、L21 NMFという3つの異なるNMFアルゴリズムを採用し、ORLとYaleBデータセットを用いて、塩とペッパーのノイズとブロック閉塞のノイズを個別にシミュレーションする。 実験では,ルート平均二乗誤差 (RMSE) や精度 (ACC) ,正規化相互情報 (NMI) などの評価指標を用いて,雑音環境下での異なるNMFアルゴリズムの性能を評価する。 これらの指標を用いて,NMFアルゴリズムの雑音に対する耐性を定量化し,その実用性に関する洞察を得る。

Non-negative matrix factorization (NMF) and its variants have been widely employed in clustering and classification tasks (Long, & Jian , 2021). However, noises can seriously affect the results of our experiments. Our research is dedicated to investigating the noise robustness of non-negative matrix factorization (NMF) in the face of different types of noise. Specifically, we adopt three different NMF algorithms, namely L1 NMF, L2 NMF, and L21 NMF, and use the ORL and YaleB data sets to simulate a series of experiments with salt-and-pepper noise and Block-occlusion noise separately. In the experiment, we use a variety of evaluation indicators, including root mean square error (RMSE), accuracy (ACC), and normalized mutual information (NMI), to evaluate the performance of different NMF algorithms in noisy environments. Through these indicators, we quantify the resistance of NMF algorithms to noise and gain insights into their feasibility in practical applications.
翻訳日:2023-12-05 17:45:39 公開日:2023-12-03
# CEScore:スプリットとリフレーズ評価のためのシンプルで効率的な信頼度推定モデル

CEScore: Simple and Efficient Confidence Estimation Model for Evaluating Split and Rephrase ( http://arxiv.org/abs/2312.01356v1 )

ライセンス: Link先を確認
AlMotasem Bellah Al Ajlouni and Jinlong Li(参考訳) split and rephrase (SR) タスクは、長い複雑な文を、同じ意味を持つより短く単純な文の集合に分割することを目的としている。 NLPにおけるこの困難な問題は、他のNLPタスクにおける前処理ステップとしての利点から、最近注目を集めている。 SRの品質評価は、このタスクを評価するのに適合する自動計量が存在しないため、難しい。 本稿では,srタスクを自動的に評価する新しい統計モデルcescoreを紹介する。 人間がsrを評価する方法を模倣することで、cescoreは4つの指標(sscore、gscore、mscore、cescore)を提供し、それぞれ単純さ、文法性、意味保存、全体的な品質を評価する。 26モデルの実験では、CEScoreは人間の評価と強く相関し、モデルレベルでのスピアマン相関で0.98に達する。 これは、srモデルの全体的な品質を評価するためのシンプルで効果的な指標としてcescoreの可能性を強調する。

The split and rephrase (SR) task aims to divide a long, complex sentence into a set of shorter, simpler sentences that convey the same meaning. This challenging problem in NLP has gained increased attention recently because of its benefits as a pre-processing step in other NLP tasks. Evaluating quality of SR is challenging, as there no automatic metric fit to evaluate this task. In this work, we introduce CEScore, as novel statistical model to automatically evaluate SR task. By mimicking the way humans evaluate SR, CEScore provides 4 metrics (Sscore, Gscore, Mscore, and CEscore) to assess simplicity, grammaticality, meaning preservation, and overall quality, respectively. In experiments with 26 models, CEScore correlates strongly with human evaluations, achieving 0.98 in Spearman correlations at model-level. This underscores the potential of CEScore as a simple and effective metric for assessing the overall quality of SR models.
翻訳日:2023-12-05 17:45:19 公開日:2023-12-03
# 肺塞栓症診断のための深層学習と伝統的cad法

Deep learning and traditional-based CAD schemes for the pulmonary embolism diagnosis: A survey ( http://arxiv.org/abs/2312.01351v1 )

ライセンス: Link先を確認
Seyed Hesamoddin Hosseini, Amir Hossein Taherinia, Mahdi Saadatmand(参考訳) 現在,肺塞栓症(pe)の検出には肺ctアンギオグラフィ(cta)が主流である。 しかし、CTAボリュームを手動で解釈するには、肺組織の特定の状態、大量のデータ、経験の欠如、眼の疲労により、時間と誤差が生じる放射線医が必要である。 そのため、PEの診断において第2の意見としてコンピュータ支援設計(CAD)システムを用いる。 本研究の目的は,PE診断のための深層学習と従来のCADシステムの性能評価,評価,比較を行い,その分野の医師や研究者を支援することである。 本研究では,PE診断分野におけるIEEE,ScienceDirect,Wiley,Springer,Nature,Wolters Kluwerなどのデータベースで利用可能なすべての記事について,従来型およびディープラーニング手法を用いて検討した。 2002年から2023年まで23の論文が研究され、制限事項を抽出した。 各論文は,感度,偽陽性(fp),データセット数などの基準を用いて評価する自動pe検出システムを提案する。 本研究は,最近の研究,最新の研究成果,および本研究分野の先行研究論文と比較してより包括的な概観を含む。

Nowadays, pulmonary Computed Tomography Angiography (CTA) is the main tool for detecting Pulmonary Embolism (PE). However, manual interpretation of CTA volume requires a radiologist, which is time-consuming and error-prone due to the specific conditions of lung tissue, large volume of data, lack of experience, and eye fatigue. Therefore, Computer-Aided Design (CAD) systems are used as a second opinion for the diagnosis of PE. The purpose of this article is to review, evaluate, and compare the performance of deep learning and traditional-based CAD system for diagnosis PE and to help physicians and researchers in this field. In this study, all articles available in databases such as IEEE, ScienceDirect, Wiley, Springer, Nature, and Wolters Kluwer in the field of PE diagnosis were examined using traditional and deep learning methods. From 2002 to 2023, 23 papers were studied to extract the articles with the considered limitations. Each paper presents an automatic PE detection system that we evaluate using criteria such as sensitivity, False Positives (FP), and the number of datasets. This research work includes recent studies, state-of-the-art research works, and a more comprehensive overview compared to previously published review articles in this research area.
翻訳日:2023-12-05 17:45:03 公開日:2023-12-03
# aiの騙しの定義と緩和は、正直さが最善の方針だ

Honesty Is the Best Policy: Defining and Mitigating AI Deception ( http://arxiv.org/abs/2312.01350v1 )

ライセンス: Link先を確認
Francis Rhys Ward, Francesco Belardinelli, Francesca Toni, Tom Everitt(参考訳) 認知エージェントは、AIシステムの安全性、信頼性、協力のための課題である。 エージェントが目標を達成するために騙される可能性のある問題(例えば、言語モデルを用いた実験では、真理として評価されるという目標)に焦点を当てる。 ゲーム理論とシンボリックaiに関する文献には、まだ多くのデセプションの定義があるが、ゲームにおける学習エージェントに対するデセプションの包括的な理論は存在しない。 本稿では,構造因果ゲームにおける騙しの形式的定義を哲学文献に基礎を置き,現実世界の機械学習システムに適用する。 いくつかの例と結果から、私たちの形式的定義は、騙しの哲学的・常識的な意味と一致していることがわかる。 私たちの主な技術的成果は、騙しのグラフィカルな基準を提供することです。 実験により,これらの結果は強化学習エージェントと言語モデルの誤読軽減に有効であることが示された。

Deceptive agents are a challenge for the safety, trustworthiness, and cooperation of AI systems. We focus on the problem that agents might deceive in order to achieve their goals (for instance, in our experiments with language models, the goal of being evaluated as truthful). There are a number of existing definitions of deception in the literature on game theory and symbolic AI, but there is no overarching theory of deception for learning agents in games. We introduce a formal definition of deception in structural causal games, grounded in the philosophy literature, and applicable to real-world machine learning systems. Several examples and results illustrate that our formal definition aligns with the philosophical and commonsense meaning of deception. Our main technical result is to provide graphical criteria for deception. We show, experimentally, that these results can be used to mitigate deception in reinforcement learning agents and language models.
翻訳日:2023-12-05 17:44:41 公開日:2023-12-03
# tsMorph:アルゴリズム性能を理解する半合成時系列の生成

tsMorph: generation of semi-synthetic time series to understand algorithm performance ( http://arxiv.org/abs/2312.01344v1 )

ライセンス: Link先を確認
Mois\'es Santos and Andr\'e de Carvalho and Carlos Soares(参考訳) 時系列予測は、科学的、産業的に重要な課題である。 予測手法の広範にわたる利用にもかかわらず、これらの手法が好ましくない性能をもたらす条件の解明を目的とした研究が多数存在する。 実験的な研究は一般的ではあるが、データセットの可用性が限られており、信頼できる洞察の抽出を妨げるため、課題に直面している。 これを解決するために、データセットのモーフィングによる半合成時系列を生成するための簡単なアプローチであるtsMorphを提案する。 tsMorphは、2つのオリジナルのデータセットから派生したデータセットのシーケンスを作成することで動作する。 新たに生成されたデータセットは、一方のデータセットの特性から段階的な逸脱を示し、他方の属性への収束を示す。 この方法は、実質的なデータセットを得るための貴重な代替手段を提供する。 本稿では,tsMorph の有用性を,Long Short-Term Memory Network 予測アルゴリズムの性能評価により実証する。 試験中の時系列はNN5コンペティションから作成されている。 この発見は説得力のある洞察を明らかにした。 特に、Long Short-Term Memory Networkの性能は時系列の周波数に比例して向上する。 これらの実験は、tsMorphがアルゴリズムの振る舞いを予測し、経験的研究によって引き起こされる限界を克服し、より広範囲で信頼性の高い実験を可能にするための効果的なツールであることを確認した。

Time series forecasting is a subject of significant scientific and industrial importance. Despite the widespread utilization of forecasting methods, there is a dearth of research aimed at comprehending the conditions under which these methods yield favorable or unfavorable performances. Empirical studies, although common, encounter challenges due to the limited availability of datasets, impeding the extraction of reliable insights. To address this, we present tsMorph, a straightforward approach for generating semi-synthetic time series through dataset morphing. tsMorph operates by creating a sequence of datasets derived from two original datasets. These newly generated datasets exhibit a progressive departure from the characteristics of one dataset and a convergence toward the attributes of the other. This method provides a valuable alternative for obtaining substantial datasets. In this paper, we demonstrate the utility of tsMorph by assessing the performance of the Long Short-Term Memory Network forecasting algorithm. The time series under examination are sourced from the NN5 Competition. The findings reveal compelling insights. Notably, the performance of the Long Short-Term Memory Network improves proportionally with the frequency of the time series. These experiments affirm that tsMorph serves as an effective tool for gaining an understanding of forecasting algorithm behaviors, offering a pathway to overcome the limitations posed by empirical studies and enabling more extensive and reliable experimentation.
翻訳日:2023-12-05 17:44:27 公開日:2023-12-03
# グラフコーディネートと従来型ニューラルネットワーク - グラフニューラルネットワークの代替手段

Graph Coordinates and Conventional Neural Networks -- An Alternative for Graph Neural Networks ( http://arxiv.org/abs/2312.01342v1 )

ライセンス: Link先を確認
Zheyi Qin, Randy Paffenroth, Anura P. Jayasumana(参考訳) グラフベースのデータは、機械学習に特有の課題と機会を提供する。 グラフニューラルネットワーク(GNN)、特に近隣の集約のためのメッセージパッシングを通じてグラフトポロジをキャプチャするアルゴリズムは、主要なソリューションである。 しかし、これらのネットワークは、しばしばかなりの計算資源を必要とし、グラフのトポロジー、特に大規模または複雑なグラフに含まれる情報を最適に活用することができない。 本稿では, グラフのトポロジーを直接活用し, 競合するアルゴリズムが提示する計算課題を回避し, メッセージパッシングgnnの新規かつ効率的な代替手段として, トポロジー座標ニューラルネットワーク (tcnn) と方向仮想座標ニューラルネットワーク (dvcnn) を提案する。 提案手法は,ニューラルネットワーク機能工学におけるグラフ埋め込みの古典的な手法の再構築と見なすことができるが,現在の手法では欠けているグラフ座標 (gc) のアイデアを活用する点で新しい手法である。 Open Graph Benchmark Leaderboardに対してベンチマークされた実験結果は、TNNとDVCNNがメッセージパッシングGNNに対して、競争力または優れたパフォーマンスを達成することを示した。 同様のレベルの精度とROC-AUCでは、TNNとDVCNNはOGBN Leaderboardの競技者よりもはるかに少ない訓練可能なパラメータを必要とする。 提案されたTNNアーキテクチャは、OGBN-ProteinsとOGBN-Productsデータセットの両方で現在OGBN Leaderboardにリストされているニューラルネットワークメソッドよりも少ないパラメータを必要とする。 逆に,本手法は,類似のトレーニング可能なパラメータに対して高い性能を実現する。 メッセージパッシングGNNの効率的な代替手段を提供することで、グラフベースの機械学習のためのツールボックスを拡張します。

Graph-based data present unique challenges and opportunities for machine learning. Graph Neural Networks (GNNs), and especially those algorithms that capture graph topology through message passing for neighborhood aggregation, have been a leading solution. However, these networks often require substantial computational resources and may not optimally leverage the information contained in the graph's topology, particularly for large-scale or complex graphs. We propose Topology Coordinate Neural Network (TCNN) and Directional Virtual Coordinate Neural Network (DVCNN) as novel and efficient alternatives to message passing GNNs, that directly leverage the graph's topology, sidestepping the computational challenges presented by competing algorithms. Our proposed methods can be viewed as a reprise of classic techniques for graph embedding for neural network feature engineering, but they are novel in that our embedding techniques leverage ideas in Graph Coordinates (GC) that are lacking in current practice. Experimental results, benchmarked against the Open Graph Benchmark Leaderboard, demonstrate that TCNN and DVCNN achieve competitive or superior performance to message passing GNNs. For similar levels of accuracy and ROC-AUC, TCNN and DVCNN need far fewer trainable parameters than contenders of the OGBN Leaderboard. The proposed TCNN architecture requires fewer parameters than any neural network method currently listed in the OGBN Leaderboard for both OGBN-Proteins and OGBN-Products datasets. Conversely, our methods achieve higher performance for a similar number of trainable parameters. By providing an efficient and effective alternative to message passing GNNs, our work expands the toolbox of techniques for graph-based machine learning.
翻訳日:2023-12-05 17:44:06 公開日:2023-12-03
# 教育用AIを用いたアラビア語クロスワードパズル生成

AI-Powered Arabic Crossword Puzzle Generation for Educational Applications ( http://arxiv.org/abs/2312.01339v1 )

ライセンス: Link先を確認
Kamyar Zeinalipour, Mohamed Zaky Saad, Marco Maggini, Marco Gori(参考訳) 先進的なAI技術によって駆動される最初のアラビア語クロスワードパズル生成器を提案する。 GPT4, GPT3-Davinci, GPT3-Curie, GPT3-Babbage, GPT3-Ada, BERTといった最先端の大規模言語モデルを活用すると、システムは独特で困難な手がかりを生成する。 5万以上のヒントと回答のペアからなるデータセットに基づいて、ジェネレータは、微調整、少数/ゼロショットの学習戦略、厳格な品質チェックプロトコルを使用して、高品質のヒントと回答のペアを生成する。 重要なのは、教育クロスワードは記憶の強化、語彙の拡張、問題解決スキルの促進に寄与し、楽しみと魅力的なアプローチを通じて学習体験を増強し、伝統的な学習方法の展望を再構築する。 システム全体は、AIと革新的な学習技術を融合させる強力な教育ツールとして利用でき、アラビア語のクロスワードパズルと技術と教育の交わる時代の転換を告げる。

This paper presents the first Arabic crossword puzzle generator driven by advanced AI technology. Leveraging cutting-edge large language models including GPT4, GPT3-Davinci, GPT3-Curie, GPT3-Babbage, GPT3-Ada, and BERT, the system generates distinctive and challenging clues. Based on a dataset comprising over 50,000 clue-answer pairs, the generator employs fine-tuning, few/zero-shot learning strategies, and rigorous quality-checking protocols to enforce the generation of high-quality clue-answer pairs. Importantly, educational crosswords contribute to enhancing memory, expanding vocabulary, and promoting problem-solving skills, thereby augmenting the learning experience through a fun and engaging approach, reshaping the landscape of traditional learning methods. The overall system can be exploited as a powerful educational tool that amalgamates AI and innovative learning techniques, heralding a transformative era for Arabic crossword puzzles and the intersection of technology and education.
翻訳日:2023-12-05 17:43:36 公開日:2023-12-03
# クリニックの強化と適応:医療画像強調のためのソースフリー非教師なしドメイン適応

Enhancing and Adapting in the Clinic: Source-free Unsupervised Domain Adaptation for Medical Image Enhancement ( http://arxiv.org/abs/2312.01338v1 )

ライセンス: Link先を確認
Heng Li, Ziqin Lin, Zhongxi Qiu, Zinan Li, Huazhu Fu, Yan Hu, Jiang Liu(参考訳) 医用イメージングは解剖学的構造と病理学的特徴を含む多くの貴重な手がかりを提供する。 しかし、画像劣化は臨床実践において一般的な問題であり、医師やアルゴリズムによる観察と診断に悪影響を及ぼす可能性がある。 広範な拡張モデルが開発されているが、これらのモデルはデプロイメント前に十分な事前トレーニングが必要であり、デプロイ後の推論データの潜在的な価値を活用できない。 本稿では,ソースフリーな領域適応型医用画像強調法(SAME)のアルゴリズムを提案し,推論フェーズにおけるテストデータを用いた拡張モデルを適応・最適化する。 合成されたトレーニングデータからロバストなソースモデルを学ぶために、構造保存強化ネットワークをまず構築する。 そして、教師学習モデルとソースモデルとを初期化し、テストデータとの知識蒸留によりソースフリー非教師ドメイン適応(sfuda)を行う。 また,改良作業の知識蒸留を促進するために疑似ラベルピッカーを開発した。 提案アルゴリズムの利点を検証するために,3つの医用画像モダリティから10個のデータセットを用いて実験を行い,その効果を解釈するために,設定解析とアブレーションの研究も行った。 下流タスクにおける顕著な性能向上とメリットは、 them の可能性と一般化性を示している。 コードはhttps://github.com/liamheng/annotation-free-medical-image-enhancementで入手できる。

Medical imaging provides many valuable clues involving anatomical structure and pathological characteristics. However, image degradation is a common issue in clinical practice, which can adversely impact the observation and diagnosis by physicians and algorithms. Although extensive enhancement models have been developed, these models require a well pre-training before deployment, while failing to take advantage of the potential value of inference data after deployment. In this paper, we raise an algorithm for source-free unsupervised domain adaptive medical image enhancement (SAME), which adapts and optimizes enhancement models using test data in the inference phase. A structure-preserving enhancement network is first constructed to learn a robust source model from synthesized training data. Then a teacher-student model is initialized with the source model and conducts source-free unsupervised domain adaptation (SFUDA) by knowledge distillation with the test data. Additionally, a pseudo-label picker is developed to boost the knowledge distillation of enhancement tasks. Experiments were implemented on ten datasets from three medical image modalities to validate the advantage of the proposed algorithm, and setting analysis and ablation studies were also carried out to interpret the effectiveness of SAME. The remarkable enhancement performance and benefits for downstream tasks demonstrate the potential and generalizability of SAME. The code is available at https://github.com/liamheng/Annotation-free-Medical-Image-Enhancement.
翻訳日:2023-12-05 17:43:16 公開日:2023-12-03
# データ拡張手法を用いたマスク被覆下の顔表情認識

Facial Emotion Recognition Under Mask Coverage Using a Data Augmentation Technique ( http://arxiv.org/abs/2312.01335v1 )

ライセンス: Link先を確認
Aref Farhadipour, Pouya Taghipour(参考訳) AIベースのコンピュータービジョンシステムを使って人間の感情を識別する。個人がフェイスマスクを着用すると、現在のCovid-19パンデミックにおいて新たな課題が提示される。 本研究では,異なる顔マスクを着用している個人からの感情を認識できる表情認識システムを提案する。 顔画像毎に4種類のマスクを用いて,新しいデータ拡張手法を用いてモデルの性能を向上した。 移動学習を用いて学習した4つの畳み込みニューラルネットワーク,Alexnet,Squeezenet,Resnet50,VGGFace2の有効性を評価した。 実験の結果,本モデルはシングルマスクモードと比較してマルチマスクモードで効果的に動作することがわかった。 VGGFace2ネットワークは、人依存モードが97.82%、人依存モードが74.21%という高い精度を達成した。 しかし,提案モデルはuibvfedデータセットを用いて評価した。 Resnet50は優れた性能を示しており、人依存モードは73.68%、人依存モードは59.57%である。 さらに,精度,感度,特異性,auc,f1スコア,混乱行列などの指標を用いて,システムの効率を詳細に測定した。 さらに、LIMEアルゴリズムはCNNの意思決定戦略を視覚化するために使われた。

Identifying human emotions using AI-based computer vision systems, when individuals wear face masks, presents a new challenge in the current Covid-19 pandemic. In this study, we propose a facial emotion recognition system capable of recognizing emotions from individuals wearing different face masks. A novel data augmentation technique was utilized to improve the performance of our model using four mask types for each face image. We evaluated the effectiveness of four convolutional neural networks, Alexnet, Squeezenet, Resnet50 and VGGFace2 that were trained using transfer learning. The experimental findings revealed that our model works effectively in multi-mask mode compared to single-mask mode. The VGGFace2 network achieved the highest accuracy rate, with 97.82% for the person-dependent mode and 74.21% for the person-independent mode using the JAFFE dataset. However, we evaluated our proposed model using the UIBVFED dataset. The Resnet50 has demonstrated superior performance, with accuracies of 73.68% for the person-dependent mode and 59.57% for the person-independent mode. Moreover, we employed metrics such as precision, sensitivity, specificity, AUC, F1 score, and confusion matrix to measure our system's efficiency in detail. Additionally, the LIME algorithm was used to visualize CNN's decision-making strategy.
翻訳日:2023-12-05 17:42:54 公開日:2023-12-03
# mabvit -- 視覚トランスフォーマーを改良したアテンションブロック

MABViT -- Modified Attention Block Enhances Vision Transformers ( http://arxiv.org/abs/2312.01324v1 )

ライセンス: Link先を確認
Mahesh Ramesh and Aswinkumar Ramkumar(参考訳) 近年の研究では、特にLLM(Large Language Models)において、トランスフォーマーモデルの強化における Gated Linear Units (GLU) の有効性が示されている。 さらに,従来のシリアライズ法ではなくトランスフォーマーブロック内の並列構成を利用することで,LLMのトレーニングを著しく向上させることができた。 しかし,画像分類タスクにおいて,MLPとアテンションブロックが並列に実行されると,顕著な性能低下が見られた。 本稿では,注意ブロック内の非線形性を統合した新しい変圧器を提案する。 我々は値テンソル上のgluベースのアクティベーション関数を実装し、この新手法はimagenet-1kデータセットで現在のs/16型視覚トランスフォーマーを0.6%上回り、パラメータを少なくした。 また、B/16の変種を代替し、パラメータの半分しか使用していない。 さらに,GELUアクティベーション関数の変種を用いて,アサーションの確認を行う。 最後に、MABViTの変種は、標準アーキテクチャと比較して深部変圧器での利用において大きなポテンシャルを示すことを示す。

Recent studies have demonstrated the effectiveness of Gated Linear Units (GLU) in enhancing transformer models, particularly in Large Language Models (LLMs). Additionally, utilizing a parallel configuration within each Transformer block rather than the conventional serialized method has been revealed to accelerate the training of LLMs without significantly impacting performance. However, when the MLP and attention block were run in parallel for the image classification task, we observed a noticeable decline in performance. We propose a novel transformer variant that integrates non-linearity within the attention block to tackle this problem. We implemented the GLU-based activation function on the Value tensor, and this new technique surpasses the current state-of-the-art S/16 variant of Vision Transformers by 0.6% on the ImageNet-1K dataset while utilizing fewer parameters. It also supersedes the B/16 variant while using only half the parameters. Furthermore, we provide results with the GELU activation function variant to confirm our assertions. Lastly, we showcase that the MABViT variants exhibit greater potential when utilized in deep transformers compared to the standard architecture.
翻訳日:2023-12-05 17:42:33 公開日:2023-12-03
# 2つの絡み合った光子の波動特性と粒子特性の分離

Separation of wave and particle attributes of two entangled photons ( http://arxiv.org/abs/2312.01316v1 )

ライセンス: Link先を確認
Yusuf Turek and Yi-Fang Ren(参考訳) 経路状態の事前選択と後選択を適切に選択することにより、2つの絡み合った光子の波動と粒子特性を空間的に分離する実現可能なスキームを提唱した。 2光子状態の量子チェシャー猫現象を実装したこの手法は、2つの絡み合った光子の波動および粒子特性の観測がボーアの相補性原理に常に従うことを保証している。

We put forward a feasible scheme to spatially separate the wave and particle properties of two entangled photons by properly choosing the pre- and post-selection of path states. Our scheme, which implements the quantum Cheshire cat phenomenon for two-photon states, also guarantees that the observation of wave and particle properties of the two entangled photons always obey the Bohr's complementarity principle.
翻訳日:2023-12-05 17:42:09 公開日:2023-12-03
# 深部形状認識特徴の学習による形状認識

Few-shot Shape Recognition by Learning Deep Shape-aware Features ( http://arxiv.org/abs/2312.01315v1 )

ライセンス: Link先を確認
Wenlong Shi, Changsheng Lu, Ming Shao, Yinjie Zhang, Siyu Xia, Piotr Koniusz(参考訳) 従来の形状記述器は、特徴抽出や分類が優れているため、徐々に畳み込みニューラルネットワークに置き換えられている。 最先端の手法は画像再構成やピクセル分類によって物体の形状を認識する。 しかし,これらの手法はテクスチャ情報に偏り,本質的な形状記述を見落としているため,目に見えない形状に一般化することはできなかった。 1つまたは数個のサンプルしか持たないオブジェクトの形状を認識するために、最初にFSSD( fewshot shape descriptor)を提案する。 我々はFSSDに埋め込みモジュールを用いて変換不変形状の特徴を抽出する。 次に,学習可能な形状プリミティブを用いて形状特徴を分解・再構成する2重注意機構を開発した。 このように、任意の形状は有限集合基底で形成することができ、学習された表現モデルは高度に解釈可能で、目に見えない形状に拡張可能である。 第3に,形状マスクとエッジを監督し,元の形状特徴と再構成形状の特徴を整合させ,学習した特徴をより形状認識するデコードモジュールを提案する。 最後に、提案した全てのモジュールは、数発の形状認識スキームに組み立てられる。 5つのデータセットを用いた実験により,fssdの形状分類精度は,現状と比較して有意に向上した。

Traditional shape descriptors have been gradually replaced by convolutional neural networks due to their superior performance in feature extraction and classification. The state-of-the-art methods recognize object shapes via image reconstruction or pixel classification. However , these methods are biased toward texture information and overlook the essential shape descriptions, thus, they fail to generalize to unseen shapes. We are the first to propose a fewshot shape descriptor (FSSD) to recognize object shapes given only one or a few samples. We employ an embedding module for FSSD to extract transformation-invariant shape features. Secondly, we develop a dual attention mechanism to decompose and reconstruct the shape features via learnable shape primitives. In this way, any shape can be formed through a finite set basis, and the learned representation model is highly interpretable and extendable to unseen shapes. Thirdly, we propose a decoding module to include the supervision of shape masks and edges and align the original and reconstructed shape features, enforcing the learned features to be more shape-aware. Lastly, all the proposed modules are assembled into a few-shot shape recognition scheme. Experiments on five datasets show that our FSSD significantly improves the shape classification compared to the state-of-the-art under the few-shot setting.
翻訳日:2023-12-05 17:42:01 公開日:2023-12-03
# NLEBench+NorGLM:ノルウェーにおける生成言語モデルのための総合的経験分析とベンチマークデータセット

NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian ( http://arxiv.org/abs/2312.01314v1 )

ライセンス: Link先を確認
Peng Liu, Lemei Zhang, Terje Nissen Farup, Even W. Lauvrak, Jon Espen Ingvaldsen, Simen Eide, Jon Atle Gulla and Zhirong Yang(参考訳) ジェネレーティブ言語モデル(GLM)の最近の進歩は、様々な用途に事前訓練されたGLM知識を活用する上での「事前訓練、迅速、予測」パラダイムの有効性を示すことによって、自然言語処理(NLP)を変革している。 その可能性にもかかわらず、これらの能力は包括的なベンチマーク、特に低リソース言語が欠如しているため、十分な量的特徴付けを欠いている。 既存の低リソースベンチマークはbertのような判別言語モデルにフォーカスしており、生成言語モデルの評価を無視している。 さらに、現在のベンチマークでは、複数のタスクにわたる一般化パフォーマンスの測定を見落としていることが多い。 これらのギャップを埋めるために,低リソース言語であるノルウェー語で自然言語生成能力を評価するための総合ベンチマークであるnlebenchを紹介する。 我々はノルウェー語をケーススタディとして用いて、英語などの主流言語における現在のGLMとベンチマークが、表現不足言語の特徴を明らかにすることができるかどうかを探っている。 NLEBenchは、ニュースストーリーテリング、要約、オープンドメインの会話、自然言語理解、命令の微調整、毒性、バイアス評価など、現実のNLPタスクのスイートを含んでいる。 伝統的なノルウェー文化、イディオム、スラング、特殊表現をカバーする命令データセットと、トピック分類、質問応答、要約のための文書化されたマルチラベルデータセットである。 本稿では,多様なパラメータスケールとトランスフォーマーに基づくアーキテクチャで開発されたノルウェー生成言語モデル(NorGLM)についても紹介する。 提案したベンチマークスイートのシステム評価は、さまざまなダウンストリームタスクにわたるNorGLMの機能とスケーラビリティに関する洞察を提供する。

Recent advancements in Generative Language Models (GLMs) have transformed Natural Language Processing (NLP) by showcasing the effectiveness of the "pre-train, prompt, and predict" paradigm in utilizing pre-trained GLM knowledge for diverse applications. Despite their potential, these capabilities lack adequate quantitative characterization due to the absence of comprehensive benchmarks, particularly for low-resource languages. Existing low-resource benchmarks focus on discriminative language models like BERT, neglecting the evaluation of generative language models. Moreover, current benchmarks often overlook measuring generalization performance across multiple tasks, a crucial metric for GLMs. To bridge these gaps, we introduce NLEBench, a comprehensive benchmark tailored for evaluating natural language generation capabilities in Norwegian, a low-resource language. We use Norwegian as a case study to explore whether current GLMs and benchmarks in mainstream languages like English can reveal the unique characteristics of underrepresented languages. NLEBench encompasses a suite of real-world NLP tasks ranging from news storytelling, summarization, open-domain conversation, natural language understanding, instruction fine-tuning, toxicity and bias evaluation, to self-curated Chain-of-Thought investigation. It features two high-quality, human-annotated datasets: an instruction dataset covering traditional Norwegian cultures, idioms, slang, and special expressions, and a document-grounded multi-label dataset for topic classification, question answering, and summarization. This paper also introduces foundational Norwegian Generative Language Models (NorGLMs) developed with diverse parameter scales and Transformer-based architectures. Systematic evaluations on the proposed benchmark suite provide insights into the capabilities and scalability of NorGLMs across various downstream tasks.
翻訳日:2023-12-05 17:41:43 公開日:2023-12-03
# 量子プロセストモグラフィーにおける非凸最適化の利用:因子勾配降下は打ち勝つのが難しい

Using non-convex optimization in quantum process tomography: Factored gradient descent is tough to beat ( http://arxiv.org/abs/2312.01311v1 )

ライセンス: Link先を確認
David A. Quiroga, Anastasios Kyrillidis(参考訳) 本稿では, 量子プロセストモグラフィー問題に対するBurer-Monteiro (BM) 係数化に基づく非凸最適化アルゴリズムを提案し, 近単位量子ゲートに対する低ランクプロセス行列$\chi$を推定する。 本研究では,勾配勾配に基づくアート凸最適化手法の状況に対するアプローチを比較した。 2\cdot 8^n$ の回路設定と$\mathcal{o}(4^n)$ 測定を必要とする初期状態と測定演算子の削減セットを使用する。 我々は,非分極モデルとガウス雑音モデルにおいて,測定条件と耐雑音性の両方において,アルゴリズムがより高速に収束し,最先端よりも高いフィディティを達成することを見出した。

We propose a non-convex optimization algorithm, based on the Burer-Monteiro (BM) factorization, for the quantum process tomography problem, in order to estimate a low-rank process matrix $\chi$ for near-unitary quantum gates. In this work, we compare our approach against state of the art convex optimization approaches based on gradient descent. We use a reduced set of initial states and measurement operators that require $2 \cdot 8^n$ circuit settings, as well as $\mathcal{O}(4^n)$ measurements for an underdetermined setting. We find our algorithm converges faster and achieves higher fidelities than state of the art, both in terms of measurement settings, as well as in terms of noise tolerance, in the cases of depolarizing and Gaussian noise models.
翻訳日:2023-12-05 17:41:13 公開日:2023-12-03
# ガウスモーメントに基づく機械学習による熱平均磁気異方性テンソル

Thermally Averaged Magnetic Anisotropy Tensors via Machine Learning Based on Gaussian Moments ( http://arxiv.org/abs/2312.01415v1 )

ライセンス: Link先を確認
Viktor Zaverkin, Julia Netz, Fabian Zills, Andreas K\"ohn, and Johannes K\"astner(参考訳) 本稿では,ガウス運動神経ネットワークに基づく分子テンソル量,すなわち磁気異方性テンソルをモデル化する機械学習手法を提案する。 提案手法は0.3--0.4 cm$^{-1}$の精度を実現でき,サンプル構成の一般化に優れる。 さらに、ガウスモーメントに基づく機械主導の原子間ポテンシャルエネルギーと組み合わせることで、磁気異方性テンソルの動的挙動の研究とスピンフォノン緩和に関するユニークな洞察を得ることができる。

We propose a machine learning method to model molecular tensorial quantities, namely the magnetic anisotropy tensor, based on the Gaussian-moment neural-network approach. We demonstrate that the proposed methodology can achieve an accuracy of 0.3--0.4 cm$^{-1}$ and has excellent generalization capability for out-of-sample configurations. Moreover, in combination with machine-learned interatomic potential energies based on Gaussian moments, our approach can be applied to study the dynamic behavior of magnetic anisotropy tensors and provide a unique insight into spin-phonon relaxation.
翻訳日:2023-12-05 17:34:34 公開日:2023-12-03
# クラスターデータによる周期系の予測特性:液体水の事例研究

Predicting Properties of Periodic Systems from Cluster Data: A Case Study of Liquid Water ( http://arxiv.org/abs/2312.01414v1 )

ライセンス: Link先を確認
Viktor Zaverkin, David Holzm\"uller, Robin Schuldt, and Johannes K\"astner(参考訳) トレーニングデータの精度は、マシン学習電位からバルク特性の精度を制限する。 例えば、ハイブリッド汎関数や波動関数に基づく量子化学法はクラスターデータでは容易に利用できるが、周期構造では効果的にスコープ外である。 局所的な原子中心の機械学習電位記述子は、クラスタモデルトレーニングデータからバルク特性の予測を可能にし、バルクトレーニングデータからの予測と合理的に一致していることを示す。 本研究では, 密度汎関数理論を用いたバルク液体の水の構造と動的性質を研究した結果, 実験値と理論値との良好な一致が得られた。

The accuracy of the training data limits the accuracy of bulk properties from machine-learned potentials. For example, hybrid functionals or wave-function-based quantum chemical methods are readily available for cluster data but effectively out-of-scope for periodic structures. We show that local, atom-centred descriptors for machine-learned potentials enable the prediction of bulk properties from cluster model training data, agreeing reasonably well with predictions from bulk training data. We demonstrate such transferability by studying structural and dynamical properties of bulk liquid water with density functional theory and have found an excellent agreement with experimental as well as theoretical counterparts.
翻訳日:2023-12-05 17:34:23 公開日:2023-12-03
# 生成レンダリング:2次元拡散モデルを用いた制御可能な4d誘導ビデオ生成

Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models ( http://arxiv.org/abs/2312.01409v1 )

ライセンス: Link先を確認
Shengqu Cai and Duygu Ceylan and Matheus Gadelha and Chun-Hao Paul Huang and Tuanfeng Yang Wang and Gordon Wetzstein(参考訳) 従来の3dコンテンツ作成ツールは、シーンの形状、外観、動き、カメラパスを直接コントロールすることで、ユーザーが想像力を身につけることができる。 しかし、コンピュータ生成ビデオの作成は面倒な作業であり、テキストからビデオへの拡散モデルによって自動化される。 大きな約束にもかかわらず、ビデオ拡散モデルは制御が難しいため、ユーザーはそれを増幅するのではなく、独自の創造性を適用できない。 そこで本稿では,動的な3dメッシュの制御可能性と,新興拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。 そこで本研究では,動的メッシュから得られた基底真理対応情報を事前学習したテキスト・画像生成モデルの様々な段階に注入し,高品質で時間的に一貫したフレームを出力する。 提案手法は,移動をアニメーション化したり,カメラの経路を変えたりすることで得られる様々な事例に応用できる。

Traditional 3D content creation tools empower users to bring their imagination to life by giving them direct control over a scene's geometry, appearance, motion, and camera path. Creating computer-generated videos, however, is a tedious manual process, which can be automated by emerging text-to-video diffusion models. Despite great promise, video diffusion models are difficult to control, hindering a user to apply their own creativity rather than amplifying it. To address this challenge, we present a novel approach that combines the controllability of dynamic 3D meshes with the expressivity and editability of emerging diffusion models. For this purpose, our approach takes an animated, low-fidelity rendered mesh as input and injects the ground truth correspondence information obtained from the dynamic mesh into various stages of a pre-trained text-to-image generation model to output high-quality and temporally consistent frames. We demonstrate our approach on various examples where motion can be obtained by animating rigged assets or changing the camera path.
翻訳日:2023-12-05 17:34:11 公開日:2023-12-03
# 視覚的文脈変調による拡散モデルにおける文脈内学習の改善

Improving In-Context Learning in Diffusion Models with Visual Context-Modulated Prompts ( http://arxiv.org/abs/2312.01408v1 )

ライセンス: Link先を確認
Tianqi Chen, Yongfei Liu, Zhendong Wang, Jianbo Yuan, Quanzeng You, Hongxia Yang, Mingyuan Zhou(参考訳) 大規模言語モデルにおけるコンテキスト内学習の顕著な成功を踏まえて、視覚領域への潜在的な拡張、特に安定拡散のような視覚基盤モデルが大きな関心を集めている。 ビジュアルインコンテキスト学習における既存のアプローチは、高価な事前トレーニング、フレームワークの制限、不適切な視覚的理解、新しいタスクへの適応性の制限といったハードルに直面することが多い。 これらの課題に対して,本研究では,改良型プロンプト拡散(iPromptDiff)を導入する。 iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。 このベクトルはその後、テキストプロンプトのトークン埋め込みを変調するために使われる。 拡散型視覚基盤モデルでは、この視覚的文脈変調テキストガイダンスと標準制御ネット構造を備えると、様々な訓練タスクの多目的性と堅牢性を示し、通常画像や画像から線への変換のような新しい視覚タスクのコンテキスト内学習に優れることを示す。 これらの能力の有効性は深い視覚的理解に大きく依存しており、提案した文脈内学習アーキテクチャによって処理された関連する視覚的実演によって達成される。

In light of the remarkable success of in-context learning in large language models, its potential extension to the vision domain, particularly with visual foundation models like Stable Diffusion, has sparked considerable interest. Existing approaches in visual in-context learning frequently face hurdles such as expensive pretraining, limiting frameworks, inadequate visual comprehension, and limited adaptability to new tasks. In response to these challenges, we introduce improved Prompt Diffusion (iPromptDiff) in this study. iPromptDiff integrates an end-to-end trained vision encoder that converts visual context into an embedding vector. This vector is subsequently used to modulate the token embeddings of text prompts. We show that a diffusion-based vision foundation model, when equipped with this visual context-modulated text guidance and a standard ControlNet structure, exhibits versatility and robustness across a variety of training tasks and excels in in-context learning for novel vision tasks, such as normal-to-image or image-to-line transformations. The effectiveness of these capabilities relies heavily on a deep visual understanding, which is achieved through relevant visual demonstrations processed by our proposed in-context learning architecture.
翻訳日:2023-12-05 17:33:52 公開日:2023-12-03
# VideoRF:2D機能ビデオストリームとして動的放射場をレンダリング

VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video Streams ( http://arxiv.org/abs/2312.01407v1 )

ライセンス: Link先を確認
Liao Wang, Kaixin Yao, Chengcheng Guo, Zhirui Zhang, Qiang Hu, Jingyi Yu, Lan Xu, Minye Wu(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、静止画をフォトリアリスティックにレンダリングする。 しかしながら、ユビキタスデバイス上で動的で長命なラミアンスフィールドのレンダリングは、データストレージと計算上の制約のため、依然として困難である。 本稿では,モバイルプラットフォーム上での動的放射場の実時間ストリーミングとレンダリングを実現するための,最初のアプローチであるVideoRFを紹介する。 コアには、4dの放射能フィールドを1つに表現した2d特徴画像ストリームがシリアライズされている。 本稿では,この2次元領域に直接適用し,特徴画像ストリームの時間的・空間的冗長性を強制する学習方式を提案する。 冗長性を利用して、2次元ビデオコーデックにより特徴画像ストリームを効率よく圧縮できることを示し、ビデオハードウェアアクセラレーションを利用してリアルタイムデコーディングを実現する。 一方,特徴画像ストリームに基づいて,高効率なラディアンス特性を問合せするための空間マッピングを備えたビデオRFのための新しいレンダリングパイプラインを提案する。 遅延シェーディングモデルを備えたVideoRFは,その効率によってモバイルデバイス上でリアルタイムレンダリングを行うことができる。 動的シーンのオンラインストリーミングとレンダリングを可能にし、デスクトップから携帯電話まで、さまざまなデバイスでシームレスで没入的な自由視点体験を提供するリアルタイムインタラクティブプレーヤーを開発した。

Neural Radiance Fields (NeRFs) excel in photorealistically rendering static scenes. However, rendering dynamic, long-duration radiance fields on ubiquitous devices remains challenging, due to data storage and computational constraints. In this paper, we introduce VideoRF, the first approach to enable real-time streaming and rendering of dynamic radiance fields on mobile platforms. At the core is a serialized 2D feature image stream representing the 4D radiance field all in one. We introduce a tailored training scheme directly applied to this 2D domain to impose the temporal and spatial redundancy of the feature image stream. By leveraging the redundancy, we show that the feature image stream can be efficiently compressed by 2D video codecs, which allows us to exploit video hardware accelerators to achieve real-time decoding. On the other hand, based on the feature image stream, we propose a novel rendering pipeline for VideoRF, which has specialized space mappings to query radiance properties efficiently. Paired with a deferred shading model, VideoRF has the capability of real-time rendering on mobile devices thanks to its efficiency. We have developed a real-time interactive player that enables online streaming and rendering of dynamic scenes, offering a seamless and immersive free-viewpoint experience across a range of devices, from desktops to mobile phones.
翻訳日:2023-12-05 17:33:32 公開日:2023-12-03
# 多目的MCMCのさらなる量子スピードアップ

More Quantum Speedups for Multiproposal MCMC ( http://arxiv.org/abs/2312.01402v1 )

ライセンス: Link先を確認
Chin-Yi Lin, Kuo-Chin Chen, Philippe Lemey, Marc A. Suchard, Andrew J. Holbrook, Min-Hsiu Hsieh(参考訳) マルチプロポサルマルコフ連鎖モンテカルロ(MCMC)アルゴリズムは、目標分布をより効率的にサンプリングするために、各イテレーションで複数の提案から選択する。 最近の研究は、そのような多目的MCMCアルゴリズムの2次量子スピードアップの可能性を示している。 P$の提案を用いて、この量子並列MCMC (\QP) アルゴリズムは各ステップでの目標評価に$\mathcal{O}(\sqrt{P})$のみを必要とする。 ここでは,$\mathcal{O}(1)$ターゲット評価と$\mathcal{O}(\log P)$ qubitsのみを必要とする高速な量子多元MCMC戦略である \QPP を提案する。 より遅い前者とは異なり、 \QPP\ Markov カーネル (\textcolor{red}{1}) は詳細なバランスを維持し、 (\textcolor{red}{2}) は大規模なグラフィカルモデルに対して完全に明示的である。 細菌進化ネットワーク上に構築された新規Ising型モデルに \QPP\ を適用し,248 種のサルモネラ菌に対するベイズ祖先形質再構成の大幅な高速化を図った。

Multiproposal Markov chain Monte Carlo (MCMC) algorithms choose from multiple proposals at each iteration in order to sample from challenging target distributions more efficiently. Recent work demonstrates the possibility of quadratic quantum speedups for one such multiproposal MCMC algorithm. Using $P$ proposals, this quantum parallel MCMC (\QP) algorithm requires only $\mathcal{O}(\sqrt{P})$ target evaluations at each step. Here, we present a fast new quantum multiproposal MCMC strategy, \QPP, that only requires $\mathcal{O}(1)$ target evaluations and $\mathcal{O}(\log P)$ qubits. Unlike its slower predecessor, the \QPP\ Markov kernel (\textcolor{red}{1}) maintains detailed balance exactly and (\textcolor{red}{2}) is fully explicit for a large class of graphical models. We demonstrate this flexibility by applying \QPP\ to novel Ising-type models built on bacterial evolutionary networks and obtain significant speedups for Bayesian ancestral trait reconstruction for 248 observed salmonella bacteria.
翻訳日:2023-12-05 17:33:10 公開日:2023-12-03
# ノイズ量子コンピュータによる散逸エネルギー伝達の量子シミュレーション

Quantum Simulation of Dissipative Energy Transfer via Noisy Quantum Computer ( http://arxiv.org/abs/2312.01401v1 )

ライセンス: Link先を確認
Chin-Yi Lin, Li-Chai Shih, Shin Sun, Yuan-Chung Cheng(参考訳) 近年では、量子コンピューティングは計算理論の強大な可能性から、非常に人気のある研究トピックとなっている。 しかし、現実の問題を解決する可能性を秘めている実用的な量子アルゴリズムの実装は、量子ゲートと量子ビットの限られた可用性に関連する大きなエラー率によってしばしば妨げられる。 そこで本研究では,一般に有用な特徴を包含する,ノイズの多いコンピュータ上でのオープン量子システムの力学をシミュレートする実践的手法を提案する。 特に,本手法はIBM-Q実機におけるゲートノイズを利用して,2量子ビットのみを用いて計算を行う。 提案手法がIBM-Qジャカルタで行った結果は,古典的数値エクササイズ法である階層運動方程式(HEOM)で計算した結果と一致し,シミュレーション手法は計算の複雑さをはるかに向上させる。 最後に、トロッター展開を行う際の量子回路の深さの増大に対処するため、短期力学シミュレーションを拡張するために転送テンソル法(TTM)を導入した。 量子シミュレータに基づいて、比較的短い量子回路を用いてより長いシミュレーションを行うことができるTTMの拡張能力を示す。

In recent years, due to its formidable potential in computational theory, quantum computing has become a very popular research topic. However, the implementation of practical quantum algorithms, which hold the potential to solve real-world problems, is often hindered by the significant error rates associated with quantum gates and the limited availability of qubits. In this study, we propose a practical approach to simulate the dynamics of an open quantum system on a noisy computer, which encompasses general and valuable characteristics. Notably, our method leverages gate noises on the IBM-Q real device, enabling us to perform calculations using only two qubits. The results generated by our method performed on IBM-Q Jakarta aligned with the those calculated by hierarchical equations of motion (HEOM), which is a classical numerically-exact method, while our simulation method runs with a much better computing complexity. In the last, to deal with the increasing depth of quantum circuits when doing Trotter expansion, we introduced the transfer tensor method(TTM) to extend our short-term dynamics simulation. Based on quantum simulator, we show the extending ability of TTM, which allows us to get a longer simulation using a relatively short quantum circuits.
翻訳日:2023-12-05 17:32:45 公開日:2023-12-03
# 非嫡出者の視点から見た契約の不公平感の軽減に向けて

Towards Mitigating Perceived Unfairness in Contracts from a Non-Legal Stakeholder's Perspective ( http://arxiv.org/abs/2312.01398v1 )

ライセンス: Link先を確認
Anmol Singhal, Preethu Rose Anish, Shirish Karande, Smita Ghaisas(参考訳) 商用契約は、プロジェクト固有の要件を導出するための貴重な情報源として知られています。 しかし、契約交渉は主に当事者の法律顧問の間で行われる。 要件アナリスト、エンジニア、ソリューションアーキテクトを含む非合法利害関係者の参加は、契約条件のシームレスな実装の第一の責任であり、しばしば間接的で不十分である。 したがって、契約条項の相当数の文は、法的に正確ではあるが、実施の観点から非法的利害関係者に不公平に見える。 この認識は、条項に示される要件が義務的であり、契約に従わなければ懲罰措置や罰則を伴わないため、問題となる。 そのため、契約における不公平な条項の特定が重要となる。 本研究では,契約の公正性に関する異なる利害関係者の視点を分析するための実証的研究を行う。 そこで我々は,事前学習型言語モデル(PLM)による契約文の不公平さの識別能力について,思考の連鎖と半教師付き微調整アプローチを比較して検討した。 BERTベースのファインチューニングを使用して、プロプライエタリなコントラクトからなるデータセットで84%の精度を実現しました。 vicuna-13b は9%の差で vicuna-13b を使用した。

Commercial contracts are known to be a valuable source for deriving project-specific requirements. However, contract negotiations mainly occur among the legal counsel of the parties involved. The participation of non-legal stakeholders, including requirement analysts, engineers, and solution architects, whose primary responsibility lies in ensuring the seamless implementation of contractual terms, is often indirect and inadequate. Consequently, a significant number of sentences in contractual clauses, though legally accurate, can appear unfair from an implementation perspective to non-legal stakeholders. This perception poses a problem since requirements indicated in the clauses are obligatory and can involve punitive measures and penalties if not implemented as committed in the contract. Therefore, the identification of potentially unfair clauses in contracts becomes crucial. In this work, we conduct an empirical study to analyze the perspectives of different stakeholders regarding contractual fairness. We then investigate the ability of Pre-trained Language Models (PLMs) to identify unfairness in contractual sentences by comparing chain of thought prompting and semi-supervised fine-tuning approaches. Using BERT-based fine-tuning, we achieved an accuracy of 84% on a dataset consisting of proprietary contracts. It outperformed chain of thought prompting using Vicuna-13B by a margin of 9%.
翻訳日:2023-12-05 17:32:24 公開日:2023-12-03
# Visual Promptingがニューラルネットワークのスパーシフィケーションをアップグレード:データモデルの観点から

Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective ( http://arxiv.org/abs/2312.01397v1 )

ライセンス: Link先を確認
Can Jin, Tianjin Huang, Yihua Zhang, Mykola Pechenizkiy, Sijia Liu, Shiwei Liu, Tianlong Chen(参考訳) 大規模ディープラーニングモデルの急速な開発は、ハードウェアプラットフォームの可用性に疑問を投げかけている。 製品としてのスパースニューラルネットワークは、複雑性の低下や損傷のない一般化など、数多くの有利なメリットを示している。 プルーニング戦略の多くは、ネットワークトポロジの分析による重要な重みの探索と保存に焦点を当て、モデル中心の観点から発明されている。 しかし、データの役割とモデル中心の刈り取りとの相互作用は、比較的未調査のままである。 本研究では,重要なモデルトポロジと適切な入力データを相乗的に学習することで,より優れた重量空間性を促進する新しいデータモデル共設計視点を提案する。 具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。 先駆的な取り組みとして,異なる視覚的プロンプトがモデルプルーニングに与える影響を体系的に調査し,効果的な共同最適化手法を提案する。 3つのネットワークアーキテクチャと8つのデータセットによる大規模な実験は、既存の最先端のプルーニングアルゴリズムよりもVPNによる大幅なパフォーマンス向上を示している。 さらに,事前学習モデルからvpnによって検出されたサブネットワークは,下流のさまざまなシナリオをまたいだ転送性が向上する。 これらの洞察は、ビジョンモデルのスパーシフィケーションのためのデータモデル共同設計の新たな可能性に光を当てた。

The rapid development of large-scale deep learning models questions the affordability of hardware platforms, which necessitates the pruning to reduce their computational and memory footprints. Sparse neural networks as the product, have demonstrated numerous favorable benefits like low complexity, undamaged generalization, etc. Most of the prominent pruning strategies are invented from a model-centric perspective, focusing on searching and preserving crucial weights by analyzing network topologies. However, the role of data and its interplay with model-centric pruning has remained relatively unexplored. In this research, we introduce a novel data-model co-design perspective: to promote superior weight sparsity by learning important model topology and adequate input data in a synergetic manner. Specifically, customized Visual Prompts are mounted to upgrade neural Network sparsification in our proposed VPNs framework. As a pioneering effort, this paper conducts systematic investigations about the impact of different visual prompts on model pruning and suggests an effective joint optimization approach. Extensive experiments with 3 network architectures and 8 datasets evidence the substantial performance improvements from VPNs over existing start-of-the-art pruning algorithms. Furthermore, we find that subnetworks discovered by VPNs from pre-trained models enjoy better transferability across diverse downstream scenarios. These insights shed light on new promising possibilities of data-model co-designs for vision model sparsification.
翻訳日:2023-12-05 17:32:02 公開日:2023-12-03
# 重力猫状態による量子密度符号化

Quantum dense coding with gravitational cat states ( http://arxiv.org/abs/2312.01396v1 )

ライセンス: Link先を確認
Saeed Haddadi, Mehrdad Ghominejad, Artur Czerwinski(参考訳) 重力猫状態を持つ量子高密度符号化のプロトコルを提案する。 温度とシステムパラメータが高密度符号化能力に及ぼす影響を調査し,これらの状態に対する高密度符号化の量子的優位性を保ち続けるための効率的な戦略を提供する。 我々の結果は、セキュアな通信のための新たな機会と、量子情報処理の文脈における重力の基本的な性質に関する洞察を開くかもしれない。

A protocol of quantum dense coding with gravitational cat states is proposed. We explore the effects of temperature and system parameters on the dense coding capacity and provide an efficient strategy to preserve the quantum advantage of dense coding for these states. Our results might open new opportunities for secure communication and possibly insights into the fundamental nature of gravity in the context of quantum information processing.
翻訳日:2023-12-05 17:31:39 公開日:2023-12-03
# 主成分分析によるニューラルネットワーク特性とエントロピー制御データバランシング

Neural Network Characterization and Entropy Regulated Data Balancing through Principal Component Analysis ( http://arxiv.org/abs/2312.01392v1 )

ライセンス: Link先を確認
David Yevick and Karolina Hutchison(参考訳) 本稿では,ニューラルネットワークの動作と,トレーニングデータの低次主成分による空間へのデータレコードの投影から形成される分布との関係について検討する。 例えば、回転したmnist桁と回転しないmnist桁を含むベンチマーク計算では、低次元の主成分空間の原点から遠く離れ、他の桁と最小に重なるクラス(digits)が急速に収束し、各データレコードの関連成分を入力として使用するニューラルネットワーク計算において高い精度を示す。 さらに、これらの低次主成分にまたがる空間をビンに分割し、入力データレコードを所定のビン平均値にマップすると、そのパターンは、隣接するビンの空間を変分オートエンコーダに類似した方法で補間する幾何学的特徴によって区別することができる。 この観察に基づいて、各ヒストグラムビンに関連付けられたエントロピーを評価し、その後、このエントロピーから決定されるビンに関連付けられた元の画像データを何回繰り返すことで、簡易に実現されたデータバランス手順を実現することができる。

This paper examines the relationship between the behavior of a neural network and the distribution formed from the projections of the data records into the space spanned by the low-order principal components of the training data. For example, in a benchmark calculation involving rotated and unrotated MNIST digits, classes (digits) that are mapped far from the origin in a low-dimensional principal component space and that overlap minimally with other digits converge rapidly and exhibit high degrees of accuracy in neural network calculations that employ the associated components of each data record as inputs. Further, if the space spanned by these low-order principal components is divided into bins and the input data records that are mapped into a given bin averaged, the resulting pattern can be distinguished by its geometric features which interpolate between those of adjacent bins in an analogous manner to variational autoencoders. Based on this observation, a simply realized data balancing procedure can be realized by evaluating the entropy associated with each histogram bin and subsequently repeating the original image data associated with the bin by a number of times that is determined from this entropy.
翻訳日:2023-12-05 17:31:34 公開日:2023-12-03
# GP-UCBの回帰最適性

Regret Optimality of GP-UCB ( http://arxiv.org/abs/2312.01386v1 )

ライセンス: Link先を確認
Wenjia Wang and Xiaowei Zhang and Lu Zou(参考訳) gaussian process upper confidence bound (gp-ucb) は、単純な構造と優れた性能のため、ノイズ観測を伴うブラックボックス関数を最適化する最も一般的な方法の1つである。 その実証的な成功は自然だが未解決の疑問をもたらす:gp-ucbは最適か? 本稿では,ベイズ最適化の文献において,この重要な開問題に対する肯定的な最初の回答を提供する。 最適化対象関数がある種の滑らかさ特性を許容するときに、gp-ucbの単純かつ累積的な後悔の両方に新たな上限を設定する。 これらの上界は、同じ滑らかな関数を最適化するために既知のミニマックス下界(実現可能領域の次元に依存しない対数因子まで)に一致する。 興味深いことに、GP-UCBは、同じレベルの探索で、単純かつ累積的後悔の両方において、同時に最適性を達成できることが示唆された。 解析の要点は、再現されたカーネルヒルベルト空間における関数のオンライン推定のための洗練された一様誤差に基づく。 この誤差境界は経験的プロセス理論から導かれるものであり、その潜在的な応用は研究の範囲を超えている可能性がある。

Gaussian Process Upper Confidence Bound (GP-UCB) is one of the most popular methods for optimizing black-box functions with noisy observations, due to its simple structure and superior performance. Its empirical successes lead to a natural, yet unresolved question: Is GP-UCB regret optimal? In this paper, we offer the first generally affirmative answer to this important open question in the Bayesian optimization literature. We establish new upper bounds on both the simple and cumulative regret of GP-UCB when the objective function to optimize admits certain smoothness property. These upper bounds match the known minimax lower bounds (up to logarithmic factors independent of the feasible region's dimensionality) for optimizing functions with the same smoothness. Intriguingly, our findings indicate that, with the same level of exploration, GP-UCB can simultaneously achieve optimality in both simple and cumulative regret. The crux of our analysis hinges on a refined uniform error bound for online estimation of functions in reproducing kernel Hilbert spaces. This error bound, which we derive from empirical process theory, is of independent interest, and its potential applications may reach beyond the scope of this study.
翻訳日:2023-12-05 17:31:11 公開日:2023-12-03
# 言語駆動オールインワン悪天候除去

Language-driven All-in-one Adverse Weather Removal ( http://arxiv.org/abs/2312.01381v1 )

ライセンス: Link先を確認
Hao Yang, Liyuan Pan, Yan Yang, and Wei Liang(参考訳) All-in-one (AiO)フレームワークは、1組のネットワークで様々な悪天候の悪化を修復する。 様々な気象条件に対処するため、aioフレームワークは、異なる劣化の気象固有の知識と共通のパターンの共有知識を適応的に学習することが期待されている。 しかし、既存の方法 1) 現実の応用において通常未知の余分な監視信号に依存する。 2) 気象特化知識の多様性を制限する固定ネットワーク構造を用いる。 本稿では,先述した問題を緩和するLDR(Language-driven Restoration framework)を提案する。 まず、事前学習された視覚言語(PVL)モデルのパワーを利用して、劣化の発生、タイプ、深刻度を推論し、記述に基づく劣化の先行を発生させることにより、気象特化知識の多様性を高める。 そして,事前の劣化指導により,Mixture-of-Experts (MoE) 構造に基づいて,候補リストから復元専門家を動的に選別する。 これにより、気象特有の知識と共有知識を適応的に学習し、様々な気象条件(未知または混合気象など)を扱うことができる。 広範囲な修復シナリオの実験は、優れた性能を示している(図1参照)。 ソースコードは公開される予定だ。

All-in-one (AiO) frameworks restore various adverse weather degradations with a single set of networks jointly. To handle various weather conditions, an AiO framework is expected to adaptively learn weather-specific knowledge for different degradations and shared knowledge for common patterns. However, existing methods: 1) rely on extra supervision signals, which are usually unknown in real-world applications; 2) employ fixed network structures, which restrict the diversity of weather-specific knowledge. In this paper, we propose a Language-driven Restoration framework (LDR) to alleviate the aforementioned issues. First, we leverage the power of pre-trained vision-language (PVL) models to enrich the diversity of weather-specific knowledge by reasoning about the occurrence, type, and severity of degradation, generating description-based degradation priors. Then, with the guidance of degradation prior, we sparsely select restoration experts from a candidate list dynamically based on a Mixture-of-Experts (MoE) structure. This enables us to adaptively learn the weather-specific and shared knowledge to handle various weather conditions (e.g., unknown or mixed weather). Experiments on extensive restoration scenarios show our superior performance (see Fig. 1). The source code will be made available.
翻訳日:2023-12-05 17:30:53 公開日:2023-12-03
# 回帰器共分散行列の固有値分布におけるPLSとOLS回帰の関係

Relation between PLS and OLS regression in terms of the eigenvalue distribution of the regressor covariance matrix ( http://arxiv.org/abs/2312.01379v1 )

ライセンス: Link先を確認
David del Val (1), Jos\'e R. Berrendero (1 and 2), Alberto Su\'arez (1) ((1) Universidad Aut\'onoma de Madrid UAM, (2) Instituto de Ciencias Matem\'aticas ICMAT)(参考訳) 部分最小二乗法 (partial least squares, PLS) は、化学工学の分野で導入され、他の多くの分野で成功している。 PLS成分は、回帰器の線形結合と対象変数の共分散を最大化することにより得られる。 本研究では,スカラー回帰問題への応用に焦点を当てる。 PLS回帰は、PSSコンポーネントのサブセットの線形結合である最小二乗予測子を見つけることで構成される。 あるいは、pls回帰はクリロフ部分空間に制限された最小二乗問題として定式化することができる。 この同値な定式化は、${\hat{\boldsymbol\beta}\;}_{\mathrm{PLS}}^{\scriptstyle {(L)}}$、$L$ PLS成分に基づく線形回帰モデルの係数のベクトルのPSS推定子と$\hat{\boldsymbol \beta}_{\mathrm{OLS}}$、通常の最小二乗(OLS)関数として得られる$L$の間の距離を分析するために用いられる。 具体的には、${\hat{\boldsymbol\beta}\;}_{\mathrm{PLS}}^{\scriptscriptstyle {(L)}}$ は上記のクリロフ部分空間の係数のベクトルであり、その係数は OLS 推定の共分散行列に関してマハラノビス距離の点で$\hat{\boldsymbol \beta}_{\mathrm{OLS}}$に最も近い。 この距離の境界は、レグレッサー共分散行列の固有値の分布のみに依存する。 合成データと実世界のデータに関する数値的な例として、${\hat{\boldsymbol\beta}\;}_{\mathrm{pls}}^{\scriptscriptstyle {(l)}}$ と $\hat{\boldsymbol \beta}_{\mathrm{ols}}$ の間の距離が、レグレッサー共分散行列の固有値がグループ化されているクラスタの数に依存することを説明している。

Partial least squares (PLS) is a dimensionality reduction technique introduced in the field of chemometrics and successfully employed in many other areas. The PLS components are obtained by maximizing the covariance between linear combinations of the regressors and of the target variables. In this work, we focus on its application to scalar regression problems. PLS regression consists in finding the least squares predictor that is a linear combination of a subset of the PLS components. Alternatively, PLS regression can be formulated as a least squares problem restricted to a Krylov subspace. This equivalent formulation is employed to analyze the distance between ${\hat{\boldsymbol\beta}\;}_{\mathrm{PLS}}^{\scriptscriptstyle {(L)}}$, the PLS estimator of the vector of coefficients of the linear regression model based on $L$ PLS components, and $\hat{\boldsymbol \beta}_{\mathrm{OLS}}$, the one obtained by ordinary least squares (OLS), as a function of $L$. Specifically, ${\hat{\boldsymbol\beta}\;}_{\mathrm{PLS}}^{\scriptscriptstyle {(L)}}$ is the vector of coefficients in the aforementioned Krylov subspace that is closest to $\hat{\boldsymbol \beta}_{\mathrm{OLS}}$ in terms of the Mahalanobis distance with respect to the covariance matrix of the OLS estimate. We provide a bound on this distance that depends only on the distribution of the eigenvalues of the regressor covariance matrix. Numerical examples on synthetic and real-world data are used to illustrate how the distance between ${\hat{\boldsymbol\beta}\;}_{\mathrm{PLS}}^{\scriptscriptstyle {(L)}}$ and $\hat{\boldsymbol \beta}_{\mathrm{OLS}}$ depends on the number of clusters in which the eigenvalues of the regressor covariance matrix are grouped.
翻訳日:2023-12-05 17:30:35 公開日:2023-12-03
# diface: 拡散制御によるクロスモーダル顔認識

DiFace: Cross-Modal Face Recognition through Controlled Diffusion ( http://arxiv.org/abs/2312.01367v1 )

ライセンス: Link先を確認
Bowen Sun, Shibao Zheng(参考訳) 拡散確率モデル(DPM)は、優れた品質とリアリズムの視覚メディアを生成するのに非常に優れた能力を示した。 しかしながら、顔認識などの非生成領域におけるその可能性については、まだ十分に研究されていない。 一方で、マルチモーダル顔認識手法の広範な開発にもかかわらず、その重点は主に視覚モダリティに置かれている。 この文脈では、テキスト記述による顔認識は、アプリケーションシナリオから制限を超越するだけでなく、クロスモーダルな顔認識分野の研究の可能性を広げる、ユニークで有望なソリューションを提供する。 この道は、主に三つの側面にかかわる課題の結果、未調査で未利用のままであるというのは残念である。 1) 言語的記述の本質的不適合 2) テキストと画像の間に有意なギャップがあり, 3) データベース不足による膨大なハードルを克服するために, 確率伝達との理論的関係を確立することで, テキストによる顔認識を効果的に実現するソリューションである diface を提案する。 我々のアプローチは、幅広いタスクにまたがるdpmの可能性を解き放ち、我々の知識を最大限に活用するだけでなく、検証と識別の実験で示されるように、テキストから画像への顔認識において初めてかなりの精度を達成します。

Diffusion probabilistic models (DPMs) have exhibited exceptional proficiency in generating visual media of outstanding quality and realism. Nonetheless, their potential in non-generative domains, such as face recognition, has yet to be thoroughly investigated. Meanwhile, despite the extensive development of multi-modal face recognition methods, their emphasis has predominantly centered on visual modalities. In this context, face recognition through textual description presents a unique and promising solution that not only transcends the limitations from application scenarios but also expands the potential for research in the field of cross-modal face recognition. It is regrettable that this avenue remains unexplored and underutilized, a consequence from the challenges mainly associated with three aspects: 1) the intrinsic imprecision of verbal descriptions; 2) the significant gaps between texts and images; and 3) the immense hurdle posed by insufficient databases.To tackle this problem, we present DiFace, a solution that effectively achieves face recognition via text through a controllable diffusion process, by establishing its theoretical connection with probability transport. Our approach not only unleashes the potential of DPMs across a broader spectrum of tasks but also achieves, to the best of our knowledge, a significant accuracy in text-to-image face recognition for the first time, as demonstrated by our experiments on verification and identification.
翻訳日:2023-12-05 17:29:46 公開日:2023-12-03
# 非線形CT再構成のための拡散後方サンプリング

Diffusion Posterior Sampling for Nonlinear CT Reconstruction ( http://arxiv.org/abs/2312.01464v1 )

ライセンス: Link先を確認
Shudong Li, Matthew Tivnan, Yuan Shen, J. Webster Stayman(参考訳) 拡散モデルはCTの再構成と復元における画像生成のための強力なディープラーニングツールとして実証されてきた。 近年,高画質CT画像の高画質化のために,スコアベース拡散前の拡散を確率モデルと組み合わせた拡散後サンプリングが用いられている。 この技術は、1回で教師なしのCT事前トレーニングを可能にするので魅力的であり、任意のデータモデルに組み込むことができる。 しかし、現在の手法は画像の再構成や復元にX線CT物理の線形モデルにのみ依存している。 伝送トモグラフィー再構成問題を線形化することは一般的であるが、これは真および本質的に非線形フォワードモデルに対する近似である。 拡散後サンプリングによる非線形CT画像再構成の逆問題を解決する手法を提案する。 先行スコア関数推定器を訓練することにより,従来の無条件拡散モデルを実装し,これと非線形物理モデルから導出した測定度スコア関数を組み合わせたベイズ則を適用し,逆時間拡散過程のサンプリングに使用可能な後方スコア関数に到達する。 このプラグ・アンド・プレイ法は, 一般化された非線形CT画像再構成を, 追加の訓練を必要とせず, 異なる前方モデルで複数のCTシステムに組み込むことができる。 本研究では, 高速化処理のための順序付きサブセット変種を含むこの再構成を行うアルゴリズムを開発し, 事前の教師なしトレーニングを用いて, 完全サンプル化低線量データとスパースビュージオメトリの両方でその手法を実証する。

Diffusion models have been demonstrated as powerful deep learning tools for image generation in CT reconstruction and restoration. Recently, diffusion posterior sampling, where a score-based diffusion prior is combined with a likelihood model, has been used to produce high quality CT images given low-quality measurements. This technique is attractive since it permits a one-time, unsupervised training of a CT prior; which can then be incorporated with an arbitrary data model. However, current methods only rely on a linear model of x-ray CT physics to reconstruct or restore images. While it is common to linearize the transmission tomography reconstruction problem, this is an approximation to the true and inherently nonlinear forward model. We propose a new method that solves the inverse problem of nonlinear CT image reconstruction via diffusion posterior sampling. We implement a traditional unconditional diffusion model by training a prior score function estimator, and apply Bayes rule to combine this prior with a measurement likelihood score function derived from the nonlinear physical model to arrive at a posterior score function that can be used to sample the reverse-time diffusion process. This plug-and-play method allows incorporation of a diffusion-based prior with generalized nonlinear CT image reconstruction into multiple CT system designs with different forward models, without the need for any additional training. We develop the algorithm that performs this reconstruction, including an ordered-subsets variant for accelerated processing and demonstrate the technique in both fully sampled low dose data and sparse-view geometries using a single unsupervised training of the prior.
翻訳日:2023-12-05 17:24:29 公開日:2023-12-03
# Toeplitz および Fej\'er-Riesz 作用素系に対するテンソル円錐の圏関係と二部絡み合い

Categorical relations and bipartite entanglement in tensor cones for Toeplitz and Fej\'er-Riesz operator systems ( http://arxiv.org/abs/2312.01462v1 )

ライセンス: Link先を確認
Douglas Farenick(参考訳) 本稿では, 操作系テンソル積の基本錐から生じるテンソル円錐の分離性と絡み合いについて, ナミオカとフェルプスの意味で理解することを目的とする。 ここで特に興味深いのは、トープリッツ作用素系(toeplitz operator system)とフェイヤー・リース作用素系(fej\'er-riesz operator systems)であり、それぞれトープリッツ行列の作用素系とローラン多項式(英語版)(三角多項式)であり、双対性を通じて作用素系圏に関係している。 本稿では,toeplitz および fej\'er-riesz 作用素系の c$^*$-nuclearity と,インジェクティブ作用素系とのテンソル化における一意な作用素系構造について述べる。 この研究の結果には2つの独立した関心がある。 (i)Fej\'er-Riesz作用素系の線型写像が完全に正となるような行列の基準 (ii) $n\times n$ toeplitz 行列の正線型写像に対する完全正の拡張定理をアーブリタリー・フォン・ノイマン代数に拡張し、2\times 2$ toeplitz 行列に対するhaagerup の同様の拡張定理が高次元のトープリッツ行列に対して成り立つことを示す。

The present paper aims to understand separability and entanglement in tensor cones, in the sense of Namioka and Phelps, that arise from the base cones of operator system tensor products. Of particular interest here are the Toeplitz and Fej\'er-Riesz operator systems, which are, respectively, operator systems of Toeplitz matrices and Laurent polynomials (that is, trigonometric polynomials), and which are related in the operator system category through duality. Some notable categorical relationships established in this paper are the C$^*$-nuclearity of Toeplitz and Fej\'er-Riesz operator systems, as well as their unique operator system structures when tensoring with injective operator systems. Among the results of this study are two of independent interest: (i) a matrix criterion, similar to the one involving the Choi matrix, for a linear map of the Fej\'er-Riesz operator system to be completely positive; (ii) a completely positive extension theorem for positive linear maps of $n\times n$ Toeplitz matrices into arbritary von Neumann algebras, thereby showing that a similar extension theorem of Haagerup for $2\times 2$ Toeplitz matrices holds for Toeplitz matrices of higher dimension.
翻訳日:2023-12-05 17:24:02 公開日:2023-12-03
# self-ensembled lesion fusion を用いた多発性硬化性病変分節モデルの構築

Towards an accurate and generalizable multiple sclerosis lesion segmentation model using self-ensembled lesion fusion ( http://arxiv.org/abs/2312.01460v1 )

ライセンス: Link先を確認
Jinwei Zhang, Lianrui Zuo, Blake E. Dewey, Samuel W. Remedios, Dzung L. Pham, Aaron Carass and Jerry L. Prince(参考訳) マルチコントラスト磁気共鳴画像を用いた多発性硬化症 (MS) 病変の自動切除は, 手動による除線よりも効率と再現性が向上する。 改良型U-Netアーキテクチャを用いた最先端自動MS病変分割法 しかし、文献では、その性能を最大化するために、専用のアーキテクチャの変更が常に求められていた。 さらに, コントラスト変動と画像アーティファクトを有する多種多様なテストデータセットに対して, 最適性能の手法が一般化可能であることが証明されていない。 本研究では,よく知られたU-Netアーキテクチャを用いて,精度よく一般化可能なMS病変分割モデルを構築した。 isbi 2015 msセグメンテーションチャレンジデータを用いて, 優れた性能を達成しただけでなく, 様々な自己センブルパラメータの選択に対してロバスト性を示した。 さらに,文献で広く使用されているバッチ正規化ではなく,インスタンス正規化を応用して,ISBIチャレンジデータに基づいてトレーニングされたモデルは,異なるスキャナーからの臨床検査データセットに基づいてよく一般化された。

Automatic multiple sclerosis (MS) lesion segmentation using multi-contrast magnetic resonance (MR) images provides improved efficiency and reproducibility compared to manual delineation. Current state-of-the-art automatic MS lesion segmentation methods utilize modified U-Net-like architectures. However, in the literature, dedicated architecture modifications were always required to maximize their performance. In addition, the best-performing methods have not proven to be generalizable to diverse test datasets with contrast variations and image artifacts. In this work, we developed an accurate and generalizable MS lesion segmentation model using the well-known U-Net architecture without further modification. A novel test-time self-ensembled lesion fusion strategy is proposed that not only achieved the best performance using the ISBI 2015 MS segmentation challenge data but also demonstrated robustness across various self-ensemble parameter choices. Moreover, equipped with instance normalization rather than batch normalization widely used in literature, the model trained on the ISBI challenge data generalized well on clinical test datasets from different scanners.
翻訳日:2023-12-05 17:23:18 公開日:2023-12-03
# コンテキストバンディットにおけるオフポリシー評価のための辺縁密度比

Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits ( http://arxiv.org/abs/2312.01457v1 )

ライセンス: Link先を確認
Muhammad Faaiz Taufiq, Arnaud Doucet, Rob Cornish, Jean-Francois Ton(参考訳) 文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。 しかし、現在のOPE手法であるIPW(Inverse Probability Weighting)やDouubly Robust(DR)推定器(Douubly Robust)は、特にターゲットと行動ポリシーの重複が低い場合や大きなアクションとコンテキスト空間において、高い分散に悩まされている。 本稿では,文脈的包帯に対する新たなOPE推定器であるMarginal Ratio (MR) 推定器を紹介する。 厳密な理論解析により, 分散低減の観点から, 従来のipw法やdr法と比較してmr推定器の利点を示す。 さらに、MR推定器と最先端のMarginalized Inverse Propensity Score(MIPS)推定器との接続を確立し、MRがMIPS推定器の一般化されたファミリー間で低い分散を達成することを証明した。 さらに, 因果推論設定におけるmr推定器の有用性を解説し, 平均治療効果(ate)の推定における性能の向上を示す。 人工および実世界のデータセットに関する実験は、我々の理論的知見を裏付け、OPEにおけるMR推定器の実用的利点を強調した。

Off-Policy Evaluation (OPE) in contextual bandits is crucial for assessing new policies using existing data without costly experimentation. However, current OPE methods, such as Inverse Probability Weighting (IPW) and Doubly Robust (DR) estimators, suffer from high variance, particularly in cases of low overlap between target and behavior policies or large action and context spaces. In this paper, we introduce a new OPE estimator for contextual bandits, the Marginal Ratio (MR) estimator, which focuses on the shift in the marginal distribution of outcomes $Y$ instead of the policies themselves. Through rigorous theoretical analysis, we demonstrate the benefits of the MR estimator compared to conventional methods like IPW and DR in terms of variance reduction. Additionally, we establish a connection between the MR estimator and the state-of-the-art Marginalized Inverse Propensity Score (MIPS) estimator, proving that MR achieves lower variance among a generalized family of MIPS estimators. We further illustrate the utility of the MR estimator in causal inference settings, where it exhibits enhanced performance in estimating Average Treatment Effects (ATE). Our experiments on synthetic and real-world datasets corroborate our theoretical findings and highlight the practical advantages of the MR estimator in OPE for contextual bandits.
翻訳日:2023-12-05 17:22:49 公開日:2023-12-03
# 形式保証付き確率制御系における構成政策学習

Compositional Policy Learning in Stochastic Control Systems with Formal Guarantees ( http://arxiv.org/abs/2312.01456v1 )

ライセンス: Link先を確認
{\DJ}or{\dj}e \v{Z}ikeli\'c (1), Mathias Lechner (2), Abhinav Verma (3), Krishnendu Chatterjee (1), Thomas A. Henzinger (1) ((1) Institute of Science and Technology Austria, (2) Massachusetts Institute of Technology, (3) The Pennsylvania State University)(参考訳) 強化学習は複雑な制御タスクのためのニューラルネットワークポリシーの学習に有望な結果をもたらす。 しかし、こうした政策の行動に関する正式な保証がないことは、その展開に障害となる。 本稿では,確率的環境下でニューラルネットワークポリシの構成を学習するための新しい手法と,その動作に関する仕様が所望の確率で満たされることを保証する形式的証明を提案する。 検証可能なRLに関する以前の研究とは異なり、我々のアプローチはSpectRLで提供される論理仕様の構成特性を利用して確率的リーチ・アビド仕様のグラフを学習する。 正式な保証は、グラフのサブタスクに対するリーチアビドスーパーマーチンチャル(RASM)とともにニューラルネットワークポリシを学習し、それらをグローバルポリシに構成することで提供される。 また、複数のエッジポリシを持つ複雑なタスクに対して許容可能な確率的しきい値を持つ構成ポリシーを見つける必要があるRASMによる到達回避確率に関する以前の研究と比較して、より低い境界を導出する。 提案手法のプロトタイプを実装し,確率的9室環境で評価する。

Reinforcement learning has shown promising results in learning neural network policies for complicated control tasks. However, the lack of formal guarantees about the behavior of such policies remains an impediment to their deployment. We propose a novel method for learning a composition of neural network policies in stochastic environments, along with a formal certificate which guarantees that a specification over the policy's behavior is satisfied with the desired probability. Unlike prior work on verifiable RL, our approach leverages the compositional nature of logical specifications provided in SpectRL, to learn over graphs of probabilistic reach-avoid specifications. The formal guarantees are provided by learning neural network policies together with reach-avoid supermartingales (RASM) for the graph's sub-tasks and then composing them into a global policy. We also derive a tighter lower bound compared to previous work on the probability of reach-avoidance implied by a RASM, which is required to find a compositional policy with an acceptable probabilistic threshold for complex tasks with multiple edge policies. We implement a prototype of our approach and evaluate it on a Stochastic Nine Rooms environment.
翻訳日:2023-12-05 17:22:03 公開日:2023-12-03
# D-Bot:大規模言語モデルを用いたデータベース診断システム

D-Bot: Database Diagnosis System using Large Language Models ( http://arxiv.org/abs/2312.01454v1 )

ライセンス: Link先を確認
Xuanhe Zhou, Guoliang Li, Zhaoyan Sun, Zhiyuan Liu, Weize Chen, Jianming Wu, Jiesi Liu, Ruohang Feng, Guoyang Zeng(参考訳) データベース管理者(DBA)は、データベースシステムの管理、保守、最適化において重要な役割を果たす。 しかし、DBAが大量のデータベースを管理し、タイムリーに応答する(多くのオンラインケースでは、何時間も待たない)ことは、困難で面倒である。 さらに、既存の経験的手法は限定的な診断シナリオのみをサポートしており、データベースのバージョン更新の診断ルールを更新するのに手間がかかる。 近年の大規模言語モデル (LLM) は様々な分野で大きな可能性を示している。 そこで本研究では,LDMに基づくデータベース診断システムであるD-Botを提案する。診断文書から知識を自動取得し,許容時間(例えば,DBAの時間と比較すると10分未満)で合理的かつ十分に確立された診断報告(根本原因と解決策の同定)を生成する。 D-Botのテクニックには (i)文書からのオフラインの知識抽出 (ii)自動プロンプト生成(例えば、知識マッチング、ツール検索) (iii)木探索アルゴリズムを用いた根因解析、及び (iv)複数の根因を有する複雑な異常に対する協調機構 実ベンチマーク(6つの典型的なアプリケーション 539 の異常を含む)上で D-Bot を検証した結果、D-Bot は目に見えない異常の根本原因を効果的に解析し、GPT-4 のような従来の手法やバニラモデルよりも著しく優れていることが示された。

Database administrators (DBAs) play an important role in managing, maintaining and optimizing database systems. However, it is hard and tedious for DBAs to manage a large number of databases and give timely response (waiting for hours is intolerable in many online cases). In addition, existing empirical methods only support limited diagnosis scenarios, which are also labor-intensive to update the diagnosis rules for database version updates. Recently large language models (LLMs) have shown great potential in various fields. Thus, we propose D-Bot, an LLM-based database diagnosis system that can automatically acquire knowledge from diagnosis documents, and generate reasonable and well-founded diagnosis report (i.e., identifying the root causes and solutions) within acceptable time (e.g., under 10 minutes compared to hours by a DBA). The techniques in D-Bot include (i) offline knowledge extraction from documents, (ii) automatic prompt generation (e.g., knowledge matching, tool retrieval), (iii) root cause analysis using tree search algorithm, and (iv) collaborative mechanism for complex anomalies with multiple root causes. We verify D-Bot on real benchmarks (including 539 anomalies of six typical applications), and the results show that D-Bot can effectively analyze the root causes of unseen anomalies and significantly outperforms traditional methods and vanilla models like GPT-4.
翻訳日:2023-12-05 17:21:05 公開日:2023-12-03
# 深層学習時代のフォベーション

Foveation in the Era of Deep Learning ( http://arxiv.org/abs/2312.01450v1 )

ライセンス: Link先を確認
George Killick, Paul Henderson, Paul Siebert and Gerardo Aragon-Camarasa(参考訳) 本稿では,フェーブ付きセンサを用いた視覚シーンへの積極的に参加する課題に取り組む。 本稿では,グラフ畳み込みネットワークを利用して焦点画像を処理するエンドツーエンドの微分可能焦点画像アーキテクチャと,焦点画像サンプリングのための簡易かつ効果的な定式化を提案する。 我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。 本研究では,様々な画像データセットについて詳細な実験を行い,提案手法の性能とフォベーテッドビジョンに対する従来の手法との比較を行い,フォベーションの程度やネットワークのフィクスレーション数など,異なる選択の影響が物体認識性能に与える影響を計測した。 我々のモデルは最先端のCNNと、同等のパラメータと所定のピクセルや計算予算の視覚アーキテクチャより優れています。

In this paper, we tackle the challenge of actively attending to visual scenes using a foveated sensor. We introduce an end-to-end differentiable foveated active vision architecture that leverages a graph convolutional network to process foveated images, and a simple yet effective formulation for foveated image sampling. Our model learns to iteratively attend to regions of the image relevant for classification. We conduct detailed experiments on a variety of image datasets, comparing the performance of our method with previous approaches to foveated vision while measuring how the impact of different choices, such as the degree of foveation, and the number of fixations the network performs, affect object recognition performance. We find that our model outperforms a state-of-the-art CNN and foveated vision architectures of comparable parameters and a given pixel or computation budget
翻訳日:2023-12-05 17:20:21 公開日:2023-12-03
# 駆動型透明量子グラフ

Driven transparent quantum graphs ( http://arxiv.org/abs/2312.01448v1 )

ライセンス: Link先を確認
J.R. Yusupov, M. Ehrhardt, Kh.Sh. Matyokubov and D.U. Matrasulov(参考訳) 本稿では,透過頂点を持つ量子グラフの概念を,グラフが外部の時間に依存しない場と相互作用する場合を考える。 特に、量子グラフにおける透明境界条件の問題に対処し、ある直線上の定常シュロディンガー方程式に対する透明境界条件に関する以前の研究に基づいて構築する。 境界条件下で頂点を(重)連続性とキルヒホフ則で透明にする物理的に関連する制約は、散乱法と時間非依存シュロディンガー方程式に対する透明境界条件の2つの方法を用いて導出される。 後者は、透明境界条件の概念を、駆動量子グラフ上の時間非依存のシュロディンガー方程式に拡張することで導かれる。 また、量子グラフの固有値と固有関数はトポロジーだけでなく、外部場が関与するポテンシャルの形状(型)にもどのように影響するかについても論じる。

In this paper, we discuss the concept of quantum graphs with transparent vertices by considering the case where the graph interacts with an external time-independent field. In particular, we address the problem of transparent boundary conditions for quantum graphs, building on previous work on transparent boundary conditions for the stationary Schrodinger equation on a line. Physically relevant constraints making the vertex transparent under boundary conditions in the form of (weight) continuity and Kirchhoff rules are derived using two methods, the scattering approach and transparent boundary conditions for the time-independent Schrodinger equation. The latter is derived by extending the transparent boundary condition concept to the time-independent Schrodinger equation on driven quantum graphs. We also discuss how the eigenvalues and eigenfunctions of a quantum graph are influenced not only by its topology, but also by the shape(type) of a potential when an external field is involved.
翻訳日:2023-12-05 17:20:04 公開日:2023-12-03
# 変圧器によるホームネットワーク問題の分類

Classification of Home Network Problems with Transformers ( http://arxiv.org/abs/2312.01445v1 )

ライセンス: Link先を確認
Jeremias D\"otterl, Zahra Hemmati Fard(参考訳) 本稿では,ping, dig,ipといったネットワークツールのテキスト出力に基づいて,10の共通ホームネットワーク問題を識別できる分類器を提案する。 当社のディープラーニングモデルでは,ツール出力をトークンシーケンスに分割するために,特定のプリトケナライザを備えたエンコーダのみのトランスフォーマーアーキテクチャを用いています。 トランスフォーマーの使用は、ネットワーク問題分類に関する関連する作業と我々のアプローチを区別する。 本モデルは,本実験で高い精度を達成し,ホームネットワークにおけるトランスフォーマベース問題分類の可能性を示す。

We propose a classifier that can identify ten common home network problems based on the raw textual output of networking tools such as ping, dig, and ip. Our deep learning model uses an encoder-only transformer architecture with a particular pre-tokenizer that we propose for splitting the tool output into token sequences. The use of transformers distinguishes our approach from related work on network problem classification, which still primarily relies on non-deep-learning methods. Our model achieves high accuracy in our experiments, demonstrating the high potential of transformer-based problem classification for the home network.
翻訳日:2023-12-05 17:19:47 公開日:2023-12-03
# 内部を覗く:ビデオからドライバーの意図を予測

Looking Inside Out: Anticipating Driver Intent From Videos ( http://arxiv.org/abs/2312.01444v1 )

ライセンス: Link先を確認
Yung-chi Kung, Arthur Zhang, Junmin Wang, Joydeep Biswas(参考訳) 運転者の意図を予測することは、人間と機械のさまざまなレベルの車両が道路を共有している場合に重要な課題である。 ドライバーの意図は、ドライバーが危険な操作を試みている場合に車両を取り巻く警告など、道路安全を改善するために利用することができる。 本研究では, in-cabinと外部カメラデータを利用して, 将来の運転行動予測における最先端(sota)性能を向上させる新しい手法を提案する。 既存手法と比較して,外部カメラデータから対象と道路レベルの特徴を明示的に抽出し,運転者の意図を予測する上で重要な特徴を示す。 手作りの機能をトランスとLSTMアーキテクチャの両方の入力として使用することにより、インキャビンと外部機能を併用することで、インキャビンのみを使用するよりもパフォーマンスが向上することを示す。 さらに、我々のモデルは、既存のアプローチよりも正確により早くドライバーの操縦を予測し、精度は87.5%、平均予測時間は4.35秒前である。 モデル設定とトレーニングスクリプトをhttps://github.com/ykung83/Driver-Intent-Predictionでリリースします。

Anticipating driver intention is an important task when vehicles of mixed and varying levels of human/machine autonomy share roadways. Driver intention can be leveraged to improve road safety, such as warning surrounding vehicles in the event the driver is attempting a dangerous maneuver. In this work, we propose a novel method of utilizing in-cabin and external camera data to improve state-of-the-art (SOTA) performance in predicting future driver actions. Compared to existing methods, our approach explicitly extracts object and road-level features from external camera data, which we demonstrate are important features for predicting driver intention. Using our handcrafted features as inputs for both a transformer and an LSTM-based architecture, we empirically show that jointly utilizing in-cabin and external features improves performance compared to using in-cabin features alone. Furthermore, our models predict driver maneuvers more accurately and earlier than existing approaches, with an accuracy of 87.5% and an average prediction time of 4.35 seconds before the maneuver takes place. We release our model configurations and training scripts on https://github.com/ykung83/Driver-Intent-Prediction
翻訳日:2023-12-05 17:19:38 公開日:2023-12-03
# 術前視覚トランスフォーマーとbertを用いた病理組織像の自動レポート生成

Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT ( http://arxiv.org/abs/2312.01435v1 )

ライセンス: Link先を確認
Saurav Sengupta, Donald E. Brown(参考訳) 病理組織学の深層学習は、疾患の分類、画像分割などに有効である。 しかし,病理組織像の高分解能化により,最先端の手法による画像とテキストの融合が課題となっている。 病理画像の自動レポート生成はそのような課題である。 In this work, we show that using an existing pre-trained Vision Transformer in a two-step process of first using it to encode 4096x4096 sized patches of the Whole Slide Image (WSI) and then using it as the encoder and a pre-trained Bidirectional Encoder Representations from Transformers (BERT) model for language modeling-based decoder for report generation, we can build a fairly performant and portable report generation mechanism that takes into account the whole of the high resolution image, instead of just the patches. 本手法は,画像の特徴を記述したキャプションを生成・評価するだけでなく,その画像を組織型や患者の性別に分類する上でも有効である。 我々のベストパフォーマンスモデルは、組織型分類における79.98%の正確さと、組織由来の患者の性別分類における66.36%の正確さを達成し、我々のキャプション生成タスクにおけるbleu-4スコアは0.5818である。

Deep learning for histopathology has been successfully used for disease classification, image segmentation and more. However, combining image and text modalities using current state-of-the-art methods has been a challenge due to the high resolution of histopathology images. Automatic report generation for histopathology images is one such challenge. In this work, we show that using an existing pre-trained Vision Transformer in a two-step process of first using it to encode 4096x4096 sized patches of the Whole Slide Image (WSI) and then using it as the encoder and a pre-trained Bidirectional Encoder Representations from Transformers (BERT) model for language modeling-based decoder for report generation, we can build a fairly performant and portable report generation mechanism that takes into account the whole of the high resolution image, instead of just the patches. Our method allows us to not only generate and evaluate captions that describe the image, but also helps us classify the image into tissue types and the gender of the patient as well. Our best performing model achieves a 79.98% accuracy in Tissue Type classification and 66.36% accuracy in classifying the sex of the patient the tissue came from, with a BLEU-4 score of 0.5818 in our caption generation task.
翻訳日:2023-12-05 17:19:17 公開日:2023-12-03
# 確率核間の統合輸送距離の高速双対部分勾配最適化

Fast Dual Subgradient Optimization of the Integrated Transportation Distance Between Stochastic Kernels ( http://arxiv.org/abs/2312.01432v1 )

ライセンス: Link先を確認
Zhengqi Lin and Andrzej Ruszczynski(参考訳) 統合輸送距離であるワッサーシュタイン計量の一般化はマルコフ系の確率核間の新しい距離を確立する。 このメトリックは効率的な近似手法の基礎となり、元のシステムのカーネルを限られた濃度の離散的サポートを持つカーネルに置き換えることができる。 本稿では,計算コストの高い行列演算を必要とせずに,これらの近似カーネルを高速かつ効率的に構築できる専用デュアルアルゴリズムを提案する。 最後に,本手法の有効性を実例で示すとともに,本手法の有効性を実証する。 この進歩は、カーネルで表される確率システムの合理化分析と操作に新たな可能性をもたらす。

A generalization of the Wasserstein metric, the integrated transportation distance, establishes a novel distance between probability kernels of Markov systems. This metric serves as the foundation for an efficient approximation technique, enabling the replacement of the original system's kernel with a kernel with a discrete support of limited cardinality. To facilitate practical implementation, we present a specialized dual algorithm capable of constructing these approximate kernels quickly and efficiently, without requiring computationally expensive matrix operations. Finally, we demonstrate the efficacy of our method through several illustrative examples, showcasing its utility in practical scenarios. This advancement offers new possibilities for the streamlined analysis and manipulation of stochastic systems represented by kernels.
翻訳日:2023-12-05 17:18:58 公開日:2023-12-03
# d$^2$st-adapter : 数発動作認識のための異方性と変形可能な時空間アダプター

D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition ( http://arxiv.org/abs/2312.01431v1 )

ライセンス: Link先を確認
Wenjie Pei, Qizhong Tan, Guangming Lu, Jiandong Tian(参考訳) 大規模な事前学習された画像モデルを数発のアクション認識に適用することは、頑健な特徴抽出器を学習するための効果的かつ効率的な戦略であることが証明されている。 典型的な微調整に基づく適応パラダイムは、少数の学習シナリオにおいて過剰に適合しがちであり、ビデオデータの時間的特徴を学習するためのモデリング柔軟性がほとんどない。 本研究では,空間的特徴と時間的特徴をアンタングル的に符号化するデュアルパスアーキテクチャで設計された,小ショット動作認識のための新しいアダプタチューニングフレームワークであるDisentangled-and-Deformable Spatio-Temporal Adapter(D$^2$ST-Adapter)を提案する。 さらに、D$^2$ST-AdapterのコアコンポーネントとしてDeformable Spatio-Temporal Attentionモジュールを考案し、対応する経路における空間的特徴と時間的特徴の両方をモデル化し、軽量な設計を維持しながら、グローバルな3次元時空間における特徴のエンコードを可能にする。 プレトレーニングされたResNetとViTの両方における本手法のインスタンス化による広範囲な実験は、数発のアクション認識のための最先端の手法よりも優れていることを示す。 本手法は,時間的ダイナミクスが行動認識に重要なシナリオに特に適している。

Adapting large pre-trained image models to few-shot action recognition has proven to be an effective and efficient strategy for learning robust feature extractors, which is essential for few-shot learning. Typical fine-tuning based adaptation paradigm is prone to overfitting in the few-shot learning scenarios and offers little modeling flexibility for learning temporal features in video data. In this work we present the Disentangled-and-Deformable Spatio-Temporal Adapter (D$^2$ST-Adapter), a novel adapter tuning framework for few-shot action recognition, which is designed in a dual-pathway architecture to encode spatial and temporal features in a disentangled manner. Furthermore, we devise the Deformable Spatio-Temporal Attention module as the core component of D$^2$ST-Adapter, which can be tailored to model both spatial and temporal features in corresponding pathways, allowing our D$^2$ST-Adapter to encode features in a global view in 3D spatio-temporal space while maintaining a lightweight design. Extensive experiments with instantiations of our method on both pre-trained ResNet and ViT demonstrate the superiority of our method over state-of-the-art methods for few-shot action recognition. Our method is particularly well-suited to challenging scenarios where temporal dynamics are critical for action recognition.
翻訳日:2023-12-05 17:18:48 公開日:2023-12-03
# トランスフォーマーはミオピック法では解釈できない:境界ダイク文法を用いたケーススタディ

Transformers are uninterpretable with myopic methods: a case study with bounded Dyck grammars ( http://arxiv.org/abs/2312.01429v1 )

ライセンス: Link先を確認
Kaiyue Wen, Yuchen Li, Bingbin Liu, Andrej Risteski(参考訳) 解釈可能性法は、トレーニングされたモデル(例えばTransofmer)によって実装されたアルゴリズムを理解することを目的として、重量行列や注意パターンなどのモデルの様々な側面を調べる。 本研究では,理論的な結果と注意深く制御された合成データ実験を組み合わせることで,ネットワーク全体を考慮せず,モデルの個々の部分のみに焦点を当てた手法を批判的に捉える。 我々は(有界な)Dyck言語を学ぶための単純な合成セットを考える。 理論的には、この課題を(実際にあるいは概ね)解くモデルの集合は、形式言語(パンピング補題)のアイデアに由来する構造的特徴付けを満たす。 特に,ネットワークの機能を維持しつつ,単一レイヤの注意パターンを ‘nearly randomized'' にすることができる。 モデルのアーキテクチャを厳しく制約した後でも、標準的なトレーニングを通じて、非常に異なるソリューションに到達することが可能です。 これにより、変圧器内の個々の頭部や重量行列の検査に基づく解釈可能性クレームを誤解させることができる。

Interpretability methods aim to understand the algorithm implemented by a trained model (e.g., a Transofmer) by examining various aspects of the model, such as the weight matrices or the attention patterns. In this work, through a combination of theoretical results and carefully controlled experiments on synthetic data, we take a critical view of methods that exclusively focus on individual parts of the model, rather than consider the network as a whole. We consider a simple synthetic setup of learning a (bounded) Dyck language. Theoretically, we show that the set of models that (exactly or approximately) solve this task satisfy a structural characterization derived from ideas in formal languages (the pumping lemma). We use this characterization to show that the set of optima is qualitatively rich; in particular, the attention pattern of a single layer can be ``nearly randomized'', while preserving the functionality of the network. We also show via extensive experiments that these constructions are not merely a theoretical artifact: even after severely constraining the architecture of the model, vastly different solutions can be reached via standard training. Thus, interpretability claims based on inspecting individual heads or weight matrices in the Transformer can be misleading.
翻訳日:2023-12-05 17:18:21 公開日:2023-12-03
# 一様精度原子間ポテンシャル学習のための不確かさバイアス分子動力学

Uncertainty-biased molecular dynamics for learning uniformly accurate interatomic potentials ( http://arxiv.org/abs/2312.01416v1 )

ライセンス: Link先を確認
Viktor Zaverkin, David Holzm\"uller, Henrik Christiansen, Federico Errica, Francesco Alesiani, Makoto Takamoto, Mathias Niepert, and Johannes K\"astner(参考訳) 機械学習型原子間ポテンシャル(MLIP)を訓練するための簡潔で包括的なデータセットを効率的に作成することは、未探索の問題である。 バイアスドまたは偏りのない分子動力学(md)シミュレーションを使用して候補プールを生成するアクティブラーニング(al)は、この目標に対処しようとしている。 しかし、既存のバイアスとバイアスのないmdシミュレーションは、信頼性の低い予測が行われる構成空間の領域であるレアイベントまたは外挿領域を見逃しがちである。 同時に両方の地域を探索することは、一様精度のMLIPを開発するために必要である。 本研究では,MLIPのエネルギー不確実性に偏らされたMDシミュレーションが,システムの遷移温度と圧力を知ることなく,外挿領域や稀な事象を効果的に捕捉することを示した。 自動微分を活用し,バイアス応力の概念を導入することにより,バイアス・フォース駆動型mdシミュレーションを強化する。 また,計算コストの低いアンサンブルベース不確実性法と比較して,mlipの精度が同等あるいは優れたmlipが得られるように,スケッチ勾配特徴から得られるアンサンブルフリーの不確かさのキャリブレーションを適用した。 提案する不確実性駆動型ALアプローチを用いて、アラニンジペプチドとMIL-53(Al)の2つのベンチマークシステムのためのMLIPを開発する。 従来のMDシミュレーションで訓練されたMLIPと比較して、提案したデータ生成法で訓練されたMLIPは、両方の原子系の関連する構成空間をより正確に表現する。

Efficiently creating a concise but comprehensive data set for training machine-learned interatomic potentials (MLIPs) is an under-explored problem. Active learning (AL), which uses either biased or unbiased molecular dynamics (MD) simulations to generate candidate pools, aims to address this objective. Existing biased and unbiased MD simulations, however, are prone to miss either rare events or extrapolative regions -- areas of the configurational space where unreliable predictions are made. Simultaneously exploring both regions is necessary for developing uniformly accurate MLIPs. In this work, we demonstrate that MD simulations, when biased by the MLIP's energy uncertainty, effectively capture extrapolative regions and rare events without the need to know \textit{a priori} the system's transition temperatures and pressures. Exploiting automatic differentiation, we enhance bias-forces-driven MD simulations by introducing the concept of bias stress. We also employ calibrated ensemble-free uncertainties derived from sketched gradient features to yield MLIPs with similar or better accuracy than ensemble-based uncertainty methods at a lower computational cost. We use the proposed uncertainty-driven AL approach to develop MLIPs for two benchmark systems: alanine dipeptide and MIL-53(Al). Compared to MLIPs trained with conventional MD simulations, MLIPs trained with the proposed data-generation method more accurately represent the relevant configurational space for both atomic systems.
翻訳日:2023-12-05 17:18:03 公開日:2023-12-03
# 事前学習型言語モデルにおけるタグ付けバイアス:現状と下層表現型社会

Tackling Bias in Pre-trained Language Models: Current Trends and Under-represented Societies ( http://arxiv.org/abs/2312.01509v1 )

ライセンス: Link先を確認
Vithya Yogarajan, Gillian Dobbie, Te Taka Keegan, Rostam J. Neuwirth(参考訳) 現在および将来のイノベーションにおける事前訓練言語モデル(LLM)の利点と能力は、あらゆる社会にとって不可欠である。 しかしながら、llmの導入と使用にはバイアスと差別が伴い、平等、多様性、公平性に関する懸念が生じ、対処しなければならない。 LLMの理解と認知、緩和戦略の開発は不可欠であるが、社会的ニーズに対する一般的な仮定は、表現不足の社会や先住民に対する不利をもたらす可能性がある。 さらに、現在進行中の規制や法律の修正案や変更案は、バイアス問題に取り組む研究能力にも影響を与えている。 本研究は, LLMにおけるバイアスの特定と緩和に使用される手法の現在の傾向と限界を総合的に分析し, バイアスの対処方法の概要を指標, ベンチマークデータセット, 緩和戦略に分類する。 この調査の重要性と新規性は、過疎社会の視点を探求することである。 偏見問題に対処する現在のプラクティスは、表現不足の社会のニーズに対処するために単に"プラグイン"することはできない、と我々は主張する。 我々はニュージーランドの例を用いて、既成の社会に既存の技術を採用するための要件を提示する。

The benefits and capabilities of pre-trained language models (LLMs) in current and future innovations are vital to any society. However, introducing and using LLMs comes with biases and discrimination, resulting in concerns about equality, diversity and fairness, and must be addressed. While understanding and acknowledging bias in LLMs and developing mitigation strategies are crucial, the generalised assumptions towards societal needs can result in disadvantages towards under-represented societies and indigenous populations. Furthermore, the ongoing changes to actual and proposed amendments to regulations and laws worldwide also impact research capabilities in tackling the bias problem. This research presents a comprehensive survey synthesising the current trends and limitations in techniques used for identifying and mitigating bias in LLMs, where the overview of methods for tackling bias are grouped into metrics, benchmark datasets, and mitigation strategies. The importance and novelty of this survey are that it explores the perspective of under-represented societies. We argue that current practices tackling the bias problem cannot simply be 'plugged in' to address the needs of under-represented societies. We use examples from New Zealand to present requirements for adopting existing techniques to under-represented societies.
翻訳日:2023-12-05 17:10:47 公開日:2023-12-03
# CityGen:無限かつコントロール可能な3Dシティレイアウトジェネレーション

CityGen: Infinite and Controllable 3D City Layout Generation ( http://arxiv.org/abs/2312.01508v1 )

ライセンス: Link先を確認
Jie Deng, Wenhao Chai, Jianshu Guo, Qixuan Huang, Wenhao Hu, Jenq-Neng Hwang, Gaoang Wang(参考訳) 都市のレイアウト生成は近年大きな注目を集めている。 このタスクの目的は、道路、建物、植生、その他の都市インフラなどの要素を含む、都市のシーンのレイアウトを自動的に生成することである。 従来の3次元都市レイアウト生成にVAEやGANを使用していた手法は、限られた多様性と制限された対話性を提供し、ユーザーはレイアウトの一部を選択的に再生することができ、カスタマイズを大幅に制限する。 本稿では,無限の多様かつ制御可能な3次元都市レイアウト生成のための新しいエンドツーエンドフレームワークであるCityGenを提案し,まず,地域レイアウトを無限の都市レイアウトに拡張するためのアウトペイントパイプラインを提案する。 そして,マルチスケール拡散モデルを用いて,多様かつ制御可能な局所的意味的レイアウトパッチを生成する。 大規模な実験により、CityGenはFIDおよびKIDの下での最先端(SOTA)性能を達成し、無限かつ制御可能な3D都市レイアウトを生成することを示した。 CityGenは、スマートシティ、都市計画、デジタルシミュレーションなどの分野で、有望な適用性を示す。

City layout generation has recently gained significant attention. The goal of this task is to automatically generate the layout of a city scene, including elements such as roads, buildings, vegetation, as well as other urban infrastructures. Previous methods using VAEs or GANs for 3D city layout generation offer limited diversity and constrained interactivity, only allowing users to selectively regenerate parts of the layout, which greatly limits customization. In this paper, we propose CityGen, a novel end-to-end framework for infinite, diverse and controllable 3D city layout generation.First, we propose an outpainting pipeline to extend the local layout to an infinite city layout. Then, we utilize a multi-scale diffusion model to generate diverse and controllable local semantic layout patches. The extensive experiments show that CityGen achieves state-of-the-art (SOTA) performance under FID and KID in generating an infinite and controllable 3D city layout. CityGen demonstrates promising applicability in fields like smart cities, urban planning, and digital simulation.
翻訳日:2023-12-05 17:10:25 公開日:2023-12-03
# Learn2Extend: 混合モデルでそれらの統計特性を保持することでシーケンスを拡張する

Learn2Extend: Extending sequences by retaining their statistical properties with mixture models ( http://arxiv.org/abs/2312.01507v1 )

ライセンス: Link先を確認
Dimitris Vartziotis, George Dasoulas, Florian Pausinger(参考訳) 本稿では,実数列の一般有限列を実数列の範囲内で拡張し,その固有な統計特性を機械学習を用いて維持するという課題に対処する。 我々の焦点は、これらの点集合のギャップ分布と対相関関数を保存することである。 本稿では,点過程に応用した深層学習の進歩を生かして,有限列の拡張に自動回帰的 \textit{Sequence Extension Mixture Model} (SEMM) を用いることを,強度関数の代わりに条件密度を直接推定することによって検討する。 本研究ではポアソン,局所的魅力,局所的忌避列を含む多種類の点過程について比較実験を行い,リーマン$\zeta$関数零点の予測についてケーススタディを行った。 その結果,提案した混合モデルは,統計特性の保持を伴うシーケンス拡張において,従来のニューラルネットワークアーキテクチャよりも優れていた。 このようなモチベーションを前提として、配列を拡張し、特定の統計特性、すなわちギャップ分布とペア相関指標を維持する混合モデルの能力を示す。

This paper addresses the challenge of extending general finite sequences of real numbers within a subinterval of the real line, maintaining their inherent statistical properties by employing machine learning. Our focus lies on preserving the gap distribution and pair correlation function of these point sets. Leveraging advancements in deep learning applied to point processes, this paper explores the use of an auto-regressive \textit{Sequence Extension Mixture Model} (SEMM) for extending finite sequences, by estimating directly the conditional density, instead of the intensity function. We perform comparative experiments on multiple types of point processes, including Poisson, locally attractive, and locally repelling sequences, and we perform a case study on the prediction of Riemann $\zeta$ function zeroes. The results indicate that the proposed mixture model outperforms traditional neural network architectures in sequence extension with the retention of statistical properties. Given this motivation, we showcase the capabilities of a mixture model to extend sequences, maintaining specific statistical properties, i.e. the gap distribution, and pair correlation indicators.
翻訳日:2023-12-05 17:10:09 公開日:2023-12-03
# スピンスクイーズ法による対称状態の普遍制御

Universal Control of Symmetric States Using Spin Squeezing ( http://arxiv.org/abs/2312.01506v1 )

ライセンス: Link先を確認
Nir Gutman, Alexey Gorlach, Offek Tziperman, Ron Ruimy and Ido Kaminer(参考訳) 量子多体系の操作は量子科学におけるフロンティア課題である。 量子ビット間の置換に対称な絡み合った量子状態は、関心が高まる。 しかし、対称状態の生成と制御は依然として課題である。 ここでは対称状態の普遍的な制御方法を見つけ、コヒーレントな回転とスピンスクイーズのみに依存するスキームを提案する。 我々はシュロディンガー・キャットやゴッテマン・キタエフ・プレスキル状態を含む異なる対称状態を生成するためのプロトコルを提案する。 得られた対称状態は自発的放出によって進行するフォトニック状態へ転移することができ、所望の量子光状態を生成する強力なメカニズムを提供する。

The manipulation of quantum many-body systems is a frontier challenge in quantum science. Entangled quantum states that are symmetric to permutation between qubits are of growing interest. Yet, the creation and control of symmetric states has remained a challenge. Here, we find a way to universally control symmetric states, proposing a scheme that relies solely on coherent rotations and spin squeezing. We present protocols for the creation of different symmetric states including Schrodinger cat and Gottesman-Kitaev-Preskill states. The obtained symmetric states can be transferred to traveling photonic states via spontaneous emission, providing a powerful mechanism for the creation of desired quantum light states.
翻訳日:2023-12-05 17:09:48 公開日:2023-12-03
# 放射線レポート生成のための大規模マルチモーダルモデルの改良

Effectively Fine-tune to Improve Large Multimodal Models for Radiology Report Generation ( http://arxiv.org/abs/2312.01504v1 )

ライセンス: Link先を確認
Yuzhe Lu, Sungmin Hong, Yash Shah, Panpan Xu(参考訳) 医療画像から放射線レポートを書くには、高いレベルのドメイン専門知識が必要です。 放射線科医の訓練にも時間がかかり、経験の浅い放射線科医のミスを起こしやすい。 視覚と言語理解の大幅な進歩を示す生成的AIを活用することで、このタスクを自動化することがアピールされる。 特に、最近の大規模言語モデル(llm)は印象的な能力を示しており、ほぼすべての自然言語タスクに新たな最先端のパフォーマンスを設定し続けている。 視覚モデルとLLMを組み合わせたマルチモーダルタスクのアーキテクチャを提案するものも少なくないが、実際的な微調整戦略を検討するものはほとんどない。 本研究では,視覚的特徴をソフトな視覚的プロンプトとしてLLMのテキスト埋め込み空間にアライメントするための,シンプルで効果的な2段階微調整プロトコルを提案する。 OpenLLaMA-7Bのフレームワークは、ドメイン固有の事前トレーニングなしで最先端のパフォーマンスを実現した。 さらに, ソフトビジュアルプロンプトと注意機構の詳細な解析を行い, 今後の研究の方向性に光を当てる。

Writing radiology reports from medical images requires a high level of domain expertise. It is time-consuming even for trained radiologists and can be error-prone for inexperienced radiologists. It would be appealing to automate this task by leveraging generative AI, which has shown drastic progress in vision and language understanding. In particular, Large Language Models (LLM) have demonstrated impressive capabilities recently and continued to set new state-of-the-art performance on almost all natural language tasks. While many have proposed architectures to combine vision models with LLMs for multimodal tasks, few have explored practical fine-tuning strategies. In this work, we proposed a simple yet effective two-stage fine-tuning protocol to align visual features to LLM's text embedding space as soft visual prompts. Our framework with OpenLLaMA-7B achieved state-of-the-art level performance without domain-specific pretraining. Moreover, we provide detailed analyses of soft visual prompts and attention mechanisms, shedding light on future research directions.
翻訳日:2023-12-05 17:09:39 公開日:2023-12-03
# 時間的相関、コヒーレンス、ポスト選択が2光子干渉に及ぼす影響

Impact of temporal correlations, coherence, and postselection on two-photon interference ( http://arxiv.org/abs/2312.01503v1 )

ライセンス: Link先を確認
Fernando Redivo Cardoso, Jaewon Lee, Riccardo Checchinato, Jan-Heinrich Littmann, Marco De Gregorio, Sven H\"ofling, Christian Schneider, Celso J. Villas-Boas, Ana Predojevi\'c(参考訳) 2光子干渉は、量子フォトニクスの必須資源であるが、達成は容易ではない。 光子対のカスケード生成は、時間的相関を内在的に含み、2光子干渉を行う能力に悪影響を与えるため、応用を妨げる。 このような相関がデコヒーレンスと時間的ポストセレクションとどのように相互作用するかを報告し、その条件下において、時間的ポストセレクションが2光子干渉の可視性を改善する可能性があることを報告する。 本研究は、性能の重要なパラメータを特定し、最適なパフォーマンスでソースを達成するための道を示す。

Two-photon interference is an indispensable resource of quantum photonics, nevertheless, not straightforward to achieve. The cascaded generation of photon pairs intrinsically contain temporal correlations, which negatively affect the ability of such sources to perform two-photon interference, hence hindering applications. We report on how such correlation interplays with decoherence and temporal postselection, and under which conditions the temporal postselection could improve the two-photon interference visibility. Our study identifies crucial parameters of the performance and indicates the path towards achieving a source with optimal performance.
翻訳日:2023-12-05 17:09:22 公開日:2023-12-03
# グラフ埋め込みのためのノルム空間

Normed Spaces for Graph Embedding ( http://arxiv.org/abs/2312.01502v1 )

ライセンス: Link先を確認
Diaaeldin Taha, Wei Zhao, J. Maxwell Riestenberg, Michael Strube(参考訳) 離散幾何学による理論的結果は、ノルム空間が低次元の歪みに驚くほど低い理論境界を持つ有限距離空間を抽象的に埋め込むことができることを示唆している。 この理論的な洞察から着想を得た本論文では、グラフ埋め込みを学習するためのいくつかの人気のあるリーマン多様体に対するより柔軟で計算的に効率的な代替としてノルム空間を取り上げる。 ノルム空間埋め込みは、多種多様な合成および実世界のグラフ再構成ベンチマークデータセット上で、いくつかの人気のある多様体を著しく上回っているが、計算資源は大幅に少ない。 また、負、ゼロ、正の曲率を伴うグラフの族にノルム空間埋め込みの優位性を実証し、グラフのサイズが増加するにつれて、様々なグラフ構造をキャプチャするノルム空間の柔軟性をさらに強化する。 最後に,2つのグラフ埋め込みタスク,すなわちリンク予測とレコメンダシステム上でのノルム空間埋め込みの有用性を示す。 我々の研究は、幾何グラフ表現学習のためのノルム空間の可能性を強調し、新しい研究課題を提起し、有限距離空間埋め込みの分野における実験数学に有用なツールを提供する。 コードとデータを公開しています。

Theoretical results from discrete geometry suggest that normed spaces can abstractly embed finite metric spaces with surprisingly low theoretical bounds on distortion in low dimensions. In this paper, inspired by this theoretical insight, we highlight normed spaces as a more flexible and computationally efficient alternative to several popular Riemannian manifolds for learning graph embeddings. Normed space embeddings significantly outperform several popular manifolds on a large range of synthetic and real-world graph reconstruction benchmark datasets while requiring significantly fewer computational resources. We also empirically verify the superiority of normed space embeddings on growing families of graphs associated with negative, zero, and positive curvature, further reinforcing the flexibility of normed spaces in capturing diverse graph structures as graph sizes increase. Lastly, we demonstrate the utility of normed space embeddings on two applied graph embedding tasks, namely, link prediction and recommender systems. Our work highlights the potential of normed spaces for geometric graph representation learning, raises new research questions, and offers a valuable tool for experimental mathematics in the field of finite metric space embeddings. We make our code and data publically available.
翻訳日:2023-12-05 17:09:12 公開日:2023-12-03
# 文レベル頻度評価のための教師なしアプローチ:本当に参照は必要か?

Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really Need Reference? ( http://arxiv.org/abs/2312.01500v1 )

ライセンス: Link先を確認
Gopichand Kanumolu, Lokesh Madasu, Pavan Baswani, Ananya Mukherjee, Manish Shrivastava(参考訳) フルーエンシーは、すべての自然言語生成(NLG)システムにおいて重要な目標である。 広く使われている自動評価指標は、機械生成テキストの流速を捉えるのに不足している。 NLGシステムの流布度を評価することは、これらのモデルが単に入力から単語を再利用するだけでなく、抽象化も生成できるため、課題となる。 単語重複測定のような既存の基準に基づく流速評価は、しばしば人間の判断と弱い相関を示す。 本稿では,既存の教師なし手法を用いて,参照を必要とせずにテキストフラレンシを計測する。 提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。 また、他の利用可能な多言語言語モデル(LM)についても実験を行った。 モデルの性能を評価するために, 得られたフルーエンシースコアと人間の判断を関連付けて, 10のindic言語の比較分析を行った。 私たちのコードと人手による流用テストセットはhttps://github.com/AnanyaCoder/TextFluencyForIndicLanagugesで公開されています。

Fluency is a crucial goal of all Natural Language Generation (NLG) systems. Widely used automatic evaluation metrics fall short in capturing the fluency of machine-generated text. Assessing the fluency of NLG systems poses a challenge since these models are not limited to simply reusing words from the input but may also generate abstractions. Existing reference-based fluency evaluations, such as word overlap measures, often exhibit weak correlations with human judgments. This paper adapts an existing unsupervised technique for measuring text fluency without the need for any reference. Our approach leverages various word embeddings and trains language models using Recurrent Neural Network (RNN) architectures. We also experiment with other available multilingual Language Models (LMs). To assess the performance of the models, we conduct a comparative analysis across 10 Indic languages, correlating the obtained fluency scores with human judgments. Our code and human-annotated benchmark test-set for fluency is available at https://github.com/AnanyaCoder/TextFluencyForIndicLanaguges.
翻訳日:2023-12-05 17:08:51 公開日:2023-12-03
# GAPS:幾何学的、物理的、自己監督型ニューラルガードドレーピング

GAPS: Geometry-Aware, Physics-Based, Self-Supervised Neural Garment Draping ( http://arxiv.org/abs/2312.01490v1 )

ライセンス: Link先を確認
Ruochen Chen, Liming Chen, Shaifali Parashar(参考訳) 最近の神経、物理学に基づく衣服変形のモデリングは、既存の方法とは対照的に、より速く視覚的な結果をもたらす。 材料固有のパラメーターは、服の伸縮性を制御するために定式化によって使用される。 これは物理的に不可解なストレッチで非現実的な結果をもたらす。 しばしば、ドレープされた衣服は、高価な後処理によって修正されるか、さらなる不整合性ストレッチを追加するか、または体型ごとに個別のトレーニングレギュレーションを配置することにより、そのスケーラビリティを制限する。 さらに、既存の方法によって展開される欠陥のあるスキン処理は、ゆるい服に不正な結果をもたらす。 本稿では,衝突を意識した既存の定式化に幾何的制約を導入し,可能な限り衣服の不拡張を課す。 そこで我々は,大面積の体域を覆いながら,ドレープした衣服が伸びる現実的な結果を得た。 さらに,すべての着物,特にゆるい着物に対して有効な体温密度尺度を定め,幾何学的ウェアスキンニング法を提案する。

Recent neural, physics-based modeling of garment deformations allows faster and visually aesthetic results as opposed to the existing methods. Material-specific parameters are used by the formulation to control the garment inextensibility. This delivers unrealistic results with physically implausible stretching. Oftentimes, the draped garment is pushed inside the body which is either corrected by an expensive post-processing, thus adding to further inconsistent stretching; or by deploying a separate training regime for each body type, restricting its scalability. Additionally, the flawed skinning process deployed by existing methods produces incorrect results on loose garments. In this paper, we introduce a geometrical constraint to the existing formulation that is collision-aware and imposes garment inextensibility wherever possible. Thus, we obtain realistic results where draped clothes stretch only while covering bigger body regions. Furthermore, we propose a geometry-aware garment skinning method by defining a body-garment closeness measure which works for all garment types, especially the loose ones.
翻訳日:2023-12-05 17:08:35 公開日:2023-12-03
# ADT:異常検出のためのエージェントベースの動的閾値

ADT: Agent-based Dynamic Thresholding for Anomaly Detection ( http://arxiv.org/abs/2312.01488v1 )

ライセンス: Link先を確認
Xue Yang, Enda Howley, Micheal Schukat(参考訳) ITシステムの複雑さと規模は劇的に増加しており、現実の異常検出には多くの課題があります。 機能学習と異常スコアを目指して、ディープラーニング異常検出が登場し、大きな成功を収めた。 しかし, 異常検出の有効性に重要な要因であるにもかかわらず, しきい値問題に関する研究はほとんど行われていない。 本稿では,マルコフ決定過程として異常検出におけるしきい値のモデル化を行い,深層Qネットワークに基づくエージェントベース動的しきい値(ADT)フレームワークを提案する。 提案手法は動的しきい値を必要とする多くのシステムに統合できる。 本研究では,自動エンコーダを用いて特徴表現を取得し,複雑な入力データに対する異常スコアを生成する。 adtはオートエンコーダからの異常スコアを利用してしきい値を適応的に調整でき、異常検出性能が大幅に向上する。 adtの特性は、3つの実世界のデータセットで実験を行い、ベンチマークと比較し、しきい値化能力、データ効率のよい学習、安定性、堅牢性を示す。 異常検出における最適しきい値制御における強化学習の有効性を検証する。

The complexity and scale of IT systems are increasing dramatically, posing many challenges to real-world anomaly detection. Deep learning anomaly detection has emerged, aiming at feature learning and anomaly scoring, which has gained tremendous success. However, little work has been done on the thresholding problem despite it being a critical factor for the effectiveness of anomaly detection. In this paper, we model thresholding in anomaly detection as a Markov Decision Process and propose an agent-based dynamic thresholding (ADT) framework based on a deep Q-network. The proposed method can be integrated into many systems that require dynamic thresholding. An auto-encoder is utilized in this study to obtain feature representations and produce anomaly scores for complex input data. ADT can adjust thresholds adaptively by utilizing the anomaly scores from the auto-encoder and significantly improve anomaly detection performance. The properties of ADT are studied through experiments on three real-world datasets and compared with benchmarks, hence demonstrating its thresholding capability, data-efficient learning, stability, and robustness. Our study validates the effectiveness of reinforcement learning in optimal thresholding control in anomaly detection.
翻訳日:2023-12-05 17:08:16 公開日:2023-12-03
# openvoice: 汎用的な音声クローン

OpenVoice: Versatile Instant Voice Cloning ( http://arxiv.org/abs/2312.01479v1 )

ライセンス: Link先を確認
Zengyi Qin, Wenliang Zhao, Xumin Yu and Xin Sun(参考訳) OpenVoiceは,参照話者からの短い音声クリップだけで音声を再現し,複数の言語で音声を生成する,汎用的な音声クローニング手法である。 OpenVoiceは、この分野における以下のオープンな課題に対処する上で、大きな進歩を示している。 1)柔軟な音声スタイル制御。 OpenVoiceは、感情、アクセント、リズム、ポーズ、イントネーションを含む音声スタイルのきめ細かい制御を可能にし、参照話者のトーンカラーを再現する。 音声スタイルは、参照話者のスタイルによって直接コピーされ、制約されない。 以前のアプローチでは、クローン後の音声スタイルを柔軟に操作する能力がなかった。 2)ゼロショットクロスリンガル音声クローン。 openvoiceは、大規模話者訓練セットに含まれない言語に対して、ゼロショットのクロスリンガル音声クローンを実現する。 すべての言語に対して大規模なマルチリンガル(MSML)データセットを必要とする従来のアプローチとは異なり、OpenVoiceは、その言語のための大規模なスピーカートレーニングデータなしで、音声を新しい言語にクローンすることができる。 OpenVoiceは計算効率も高く、商用のAPIよりも何倍もコストがかかる。 この分野のさらなる研究を促進するために、ソースコードとトレーニングモデルを公開アクセス可能にしました。 デモサイトでも質的な結果を提供しています。 OpenVoiceは2023年5月から10月にかけて全世界で何千万回も利用され、MyShell.aiのバックエンドとして機能した。

We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the following open challenges in the field: 1) Flexible Voice Style Control. OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. The voice styles are not directly copied from and constrained by the style of the reference speaker. Previous approaches lacked the ability to flexibly manipulate voice styles after cloning. 2) Zero-Shot Cross-Lingual Voice Cloning. OpenVoice achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. Unlike previous approaches, which typically require extensive massive-speaker multi-lingual (MSML) dataset for all languages, OpenVoice can clone voices into a new language without any massive-speaker training data for that language. OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. To foster further research in the field, we have made the source code and trained model publicly accessible. We also provide qualitative results in our demo website. Prior to its public release, our internal version of OpenVoice was used tens of millions of times by users worldwide between May and October 2023, serving as the backend of MyShell.ai.
翻訳日:2023-12-05 17:07:57 公開日:2023-12-03
# ベクトル埋め込みを持つ文脈エンハンス関係作用素

Context-Enhanced Relational Operators with Vector Embeddings ( http://arxiv.org/abs/2312.01476v1 )

ライセンス: Link先を確認
Viktor Sanca, Manos Chatzakis, Anastasia Ailamaki(参考訳) データ収集、値抽出、およびデータ処理パイプラインにおけるリレーショナルとコンテキストに富んだマルチモーダルソースからの洞察の組み合わせは、従来のリレーショナルDBMSにとっての課題である。 リレーショナル演算子は宣言的で最適化可能なクエリ仕様を許すが、コンテキストのキャプチャや分析には適さないデータ変換に限られる。 一方、表現学習モデルは、文脈に富んだデータを埋め込みにマッピングし、マシン自動化されたコンテキスト処理を可能にする。 この二分法を橋渡しするために,関係演算子と結合可能な埋め込み演算子を提案する。 これにより、リレーショナル代数と対応する論理的および物理的最適化と代数的同値性を持つハイブリッドリレーショナルおよびコンテキストリッチなベクトルデータ処理が可能となる。 ベクトルデータ処理とモデル・オペレータの相互作用を調査し,e-join演算子の特性について検討する。 文字列埋め込みの例を用いて,ベクトル埋め込みを用いた関係結合演算子上でのコンテキスト強調処理の実現を実証する。 論理的から物理的まで、全体最適化の重要性は、実行時間を大幅に改善する順に示される。

Collecting data, extracting value, and combining insights from relational and context-rich multi-modal sources in data processing pipelines presents a challenge for traditional relational DBMS. While relational operators allow declarative and optimizable query specification, they are limited to data transformations unsuitable for capturing or analyzing context. On the other hand, representation learning models can map context-rich data into embeddings, allowing machine-automated context processing but requiring imperative data transformation integration with the analytical query. To bridge this dichotomy, we present a context-enhanced relational join and introduce an embedding operator composable with relational operators. This enables hybrid relational and context-rich vector data processing, with algebraic equivalences compatible with relational algebra and corresponding logical and physical optimizations. We investigate model-operator interaction with vector data processing and study the characteristics of the E-join operator. Using an example of string embeddings, we demonstrate enabling hybrid context-enhanced processing on relational join operators with vector embeddings. The importance of holistic optimization, from logical to physical, is demonstrated in an order of magnitude execution time improvement.
翻訳日:2023-12-05 17:07:32 公開日:2023-12-03
# フリープレイにおける本質的リワードとしての正規性

Regularity as Intrinsic Reward for Free Play ( http://arxiv.org/abs/2312.01473v1 )

ライセンス: Link先を確認
Cansu Sancaktar, Justus Piater, Georg Martius(参考訳) 本研究は本質的強化学習のための新しい報奨信号として正規性を提案する。 子どもの発達からインスピレーションを得て、構造と秩序への努力は、不確実性に基づく内在的な報酬に好まれないタスクのサブスペースへの探索を導くのに役立つと仮定する。 Intrinsic Reward (RaIR) として正規性を一般化した定式化により,モデルに基づく強化学習の運用が可能となった。 合成環境では、この規則性目標を追求することで生じる多くの構造化パターンを紹介します。 また,多目的ロボット操作環境において,本手法の強みを示す。 我々は、RaIRをフリープレイに組み込んで、それを用いて、本質的な報酬として、モデルの認識の不確実性を補う。 フリープレイ中に塔やその他のレギュラー構造の自律的な構築を目撃し、組立作業におけるゼロショットダウンストリームタスクのパフォーマンスを大幅に改善する。

We propose regularity as a novel reward signal for intrinsically-motivated reinforcement learning. Taking inspiration from child development, we postulate that striving for structure and order helps guide exploration towards a subspace of tasks that are not favored by naive uncertainty-based intrinsic rewards. Our generalized formulation of Regularity as Intrinsic Reward (RaIR) allows us to operationalize it within model-based reinforcement learning. In a synthetic environment, we showcase the plethora of structured patterns that can emerge from pursuing this regularity objective. We also demonstrate the strength of our method in a multi-object robotic manipulation environment. We incorporate RaIR into free play and use it to complement the model's epistemic uncertainty as an intrinsic reward. Doing so, we witness the autonomous construction of towers and other regular structures during free play, which leads to a substantial improvement in zero-shot downstream task performance on assembly tasks.
翻訳日:2023-12-05 17:07:13 公開日:2023-12-03
# BenchMARL: マルチエージェント強化学習のベンチマーク

BenchMARL: Benchmarking Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2312.01472v1 )

ライセンス: Link先を確認
Matteo Bettini, Amanda Prorok, Vincent Moens(参考訳) マルチエージェント強化学習(MARL)の分野は現在再現性危機に直面している。 標準化されたレポートのソリューションはこの問題に対処するために提案されているが、最先端の強化学習(RL)実装を活用しながら、標準化と再現性を実現するベンチマークツールがまだ存在しない。 本稿では,異なるアルゴリズム,モデル,環境をまたいだ標準化ベンチマークを可能にするため,最初のMARLトレーニングライブラリであるBenchMARLを紹介する。 BenchMARLはTorchRLをバックエンドとして使用しており、MARL PyTorchユーザの幅広いコミュニティに対処しながら、高いパフォーマンスと最先端の実装を維持できる。 その設計は体系的な構成とレポートを可能にし、ユーザーは単純な1行入力から複雑なベンチマークを作成し、実行することができる。 benchmarlはgithubでオープンソースである。https://github.com/facebookresearch/benchmarl

The field of Multi-Agent Reinforcement Learning (MARL) is currently facing a reproducibility crisis. While solutions for standardized reporting have been proposed to address the issue, we still lack a benchmarking tool that enables standardization and reproducibility, while leveraging cutting-edge Reinforcement Learning (RL) implementations. In this paper, we introduce BenchMARL, the first MARL training library created to enable standardized benchmarking across different algorithms, models, and environments. BenchMARL uses TorchRL as its backend, granting it high performance and maintained state-of-the-art implementations while addressing the broad community of MARL PyTorch users. Its design enables systematic configuration and reporting, thus allowing users to create and run complex benchmarks from simple one-line inputs. BenchMARL is open-sourced on GitHub: https://github.com/facebookresearch/BenchMARL
翻訳日:2023-12-05 17:06:57 公開日:2023-12-03
# 自律運転におけるLiDAR-Camera核融合モデルの対向ロバスト性探索

Exploring Adversarial Robustness of LiDAR-Camera Fusion Model in Autonomous Driving ( http://arxiv.org/abs/2312.01468v1 )

ライセンス: Link先を確認
Bo Yang, Xiaoyu Ji, Xiaoyu Ji, Xiaoyu Ji, Xiaoyu Ji(参考訳) 本研究は,3次元物体検出におけるLiDAR-camera融合モデルの対角的ロバスト性を評価する。 そこで本研究では,車上における物理的制約点数に制限を加えただけで,融合モデルにより車体を検出不能にする攻撃手法を提案する。 実験結果から,画像データチャネルの変更がなくても,LiDARデータチャネルを操作するだけで融合モデルを欺くことができることがわかった。 この発見は、自動運転分野における安全上の懸念を引き起こす。 さらに, 対向点数, 前方車とLiDAR車との距離, 様々な角度要因が攻撃成功率に与える影響について検討した。 我々は、自動運転車の安全性を高めるための洞察とガイダンスを提供することで、マルチセンサーの堅牢性の理解に寄与できると考えている。

Our study assesses the adversarial robustness of LiDAR-camera fusion models in 3D object detection. We introduce an attack technique that, by simply adding a limited number of physically constrained adversarial points above a car, can make the car undetectable by the fusion model. Experimental results reveal that even without changes to the image data channel, the fusion model can be deceived solely by manipulating the LiDAR data channel. This finding raises safety concerns in the field of autonomous driving. Further, we explore how the quantity of adversarial points, the distance between the front-near car and the LiDAR-equipped car, and various angular factors affect the attack success rate. We believe our research can contribute to the understanding of multi-sensor robustness, offering insights and guidance to enhance the safety of autonomous driving.
翻訳日:2023-12-05 17:06:42 公開日:2023-12-03
# 常に変化する世界におけるロバストコンピュータビジョン:分散シフトに対処するための技術調査

Robust Computer Vision in an Ever-Changing World: A Survey of Techniques for Tackling Distribution Shifts ( http://arxiv.org/abs/2312.01540v1 )

ライセンス: Link先を確認
Eashan Adhikarla, Kai Zhang, Jun Yu, Lichao Sun, John Nicholson and Brian D. Davison(参考訳) AIアプリケーションは、ますます一般大衆に注目を集めている。 コンピュータビジョンモデルに関する理論的な仮定と、それらのモデルが現実世界に展開する際に直面する現実との間には、顕著なギャップがある。 このギャップの重大な理由の1つは、分散シフトと呼ばれる難しい問題である。 分散シフトは、データの複雑さ、データセットサイズ、アプリケーションタイプによって異なります。 本稿では,このような顕著なギャップの同定について論じ,分布シフトの概念とその重要性について考察する。 本稿では,様々な分散シフトの詳細な概要と,その相違を解明し,それに対応するデータ中心領域の領域における技術を探究する。 データ収集段階からマシンラーニングモデルをトレーニング段階から最終モデルデプロイメント段階まで、マシンラーニングパイプラインのすべてのフェーズにおいて、分散シフトが発生する可能性がある。 その結果、消費者向けに公開されているコンピュータビジョンアプリケーションのための機械学習技術の全体的な堅牢性に対する懸念が高まる。 異なるディープラーニングモデルはそれぞれ、特定のタイプのデータやタスク、アーキテクチャパイプラインに対応しており、データ前処理や機能抽出のバリエーションが堅牢性にどのように影響するかを強調している。 データ拡張戦略(幾何学、合成、学習など)、モデル一般化の促進におけるその役割の実証、およびトレーニングメカニズム(転送学習、ゼロショットなど)は、データ中心の手法の傘下にある。 これらのコンポーネントはそれぞれ、分散シフトに対するモデルロバスト性強化に一意に寄与するために、ニューラルネットワークの不可欠な部分を形成します。 我々は、隠れ階層化とスプリアス相関のシフトを緩和するために作られた多数のaiモデルを比較して比較する。

AI applications are becoming increasingly visible to the general public. There is a notable gap between the theoretical assumptions researchers make about computer vision models and the reality those models face when deployed in the real world. One of the critical reasons for this gap is a challenging problem known as distribution shift. Distribution shifts tend to vary with complexity of the data, dataset size, and application type. In our paper, we discuss the identification of such a prominent gap, exploring the concept of distribution shift and its critical significance. We provide an in-depth overview of various types of distribution shifts, elucidate their distinctions, and explore techniques within the realm of the data-centric domain employed to address them. Distribution shifts can occur during every phase of the machine learning pipeline, from the data collection stage to the stage of training a machine learning model to the stage of final model deployment. As a result, it raises concerns about the overall robustness of the machine learning techniques for computer vision applications that are deployed publicly for consumers. Different deep learning models each tailored for specific type of data and tasks, architectural pipelines; highlighting how variations in data preprocessing and feature extraction can impact robustness., data augmentation strategies (e.g. geometric, synthetic and learning-based); demonstrating their role in enhancing model generalization, and training mechanisms (e.g. transfer learning, zero-shot) fall under the umbrella of data-centric methods. Each of these components form an integral part of the neural-network we analyze contributing uniquely to strengthening model robustness against distribution shifts. We compare and contrast numerous AI models that are built for mitigating shifts in hidden stratification and spurious correlations, ...
翻訳日:2023-12-05 17:01:42 公開日:2023-12-03
# グラフ表現学習のためのリカレント距離符号化ニューラルネットワーク

Recurrent Distance-Encoding Neural Networks for Graph Representation Learning ( http://arxiv.org/abs/2312.01538v1 )

ライセンス: Link先を確認
Yuhui Ding, Antonio Orvieto, Bobby He, Thomas Hofmann(参考訳) 反復的な1ホップメッセージパッシングに基づくグラフニューラルネットワークは、遠隔ノードからの情報を効果的に活用するのに苦労していることが示されている。 逆にグラフ変換器は、各ノードが他のすべてのノードに直接参加できるようにするが、高い計算複雑性に悩まされ、グラフ帰納バイアスを焼くにはアドホックな位置エンコーディングに頼る必要がある。 本稿では,これらの課題を解決するための新しいアーキテクチャを提案する。 提案手法は,逐次データを用いた深層状態空間モデルによって提供される長距離モデルにおける近年のブレークスルーに起因している。 対象ノードに対して最短距離で他のノードを集約し,その近傍構造の自然なエンコーディングを提供するために,並列化可能な線形リカレントネットワークを用いる。 位置符号化を必要とせず,様々なベンチマークにおける最先端グラフトランスフォーマと比較して,計算量を大幅に削減したモデルの性能が極めて高いことを実証的に示した。 さらに,理論上は1ホップのメッセージパッシングニューラルネットワークよりも表現力が高いことを示す。

Graph neural networks based on iterative one-hop message passing have been shown to struggle in harnessing information from distant nodes effectively. Conversely, graph transformers allow each node to attend to all other nodes directly, but suffer from high computational complexity and have to rely on ad-hoc positional encoding to bake in the graph inductive bias. In this paper, we propose a new architecture to reconcile these challenges. Our approach stems from the recent breakthroughs in long-range modeling provided by deep state-space models on sequential data: for a given target node, our model aggregates other nodes by their shortest distances to the target and uses a parallelizable linear recurrent network over the chain of distances to provide a natural encoding of its neighborhood structure. With no need for positional encoding, we empirically show that the performance of our model is highly competitive compared with that of state-of-the-art graph transformers on various benchmarks, at a drastically reduced computational complexity. In addition, we show that our model is theoretically more expressive than one-hop message passing neural networks.
翻訳日:2023-12-05 17:01:15 公開日:2023-12-03
# フェデレーション学習の可能性の解き放つ:深部生成潜伏者によるデータセット蒸留のシンフォニー

Unlocking the Potential of Federated Learning: The Symphony of Dataset Distillation via Deep Generative Latents ( http://arxiv.org/abs/2312.01537v1 )

ライセンス: Link先を確認
Yuqi Jia and Saeed Vahidian and Jingwei Sun and Jianyi Zhang and Vyacheslav Kungurtsev and Neil Zhenqiang Gong and Yiran Chen(参考訳) データの不均一性は、連邦学習(FL)に重大な課題をもたらす。 近年,これらの課題を緩和するために,データセット蒸留技術が導入され,クライアントレベルで実施されている。 本稿では,サーバ側で高効率なflデータセット蒸留フレームワークを提案し,クライアントのプライバシを向上しつつ,ローカルデバイスにおける計算と通信の要求を大幅に削減する。 ローカルデバイス上でデータセットの蒸留を行い、サーバに合成データをアップロードする従来の戦略とは異なり、この手法により、事前訓練された深層生成モデルからの事前知識を活用して、ヘテロジニアスモデルアーキテクチャから本質的なデータ表現を合成することができる。 このプロセスにより、ローカルデバイスはより小さなサロゲートモデルをトレーニングし、サーバ上のより大きなグローバルモデルのトレーニングを可能にし、リソース利用を効果的に最小化する。 我々は,不均質なデータセット上での完全集中型トレーニングの仮説的理想に対する過程の漸近的類似性を示す理論解析を用いて,我々の主張を裏付ける。 包括的実験から得られた実証的証拠は,本手法の優位性を示し,高度に不均一なFL環境での非データセット蒸留技術よりも40%の精度向上を実現し,既存のデータセット蒸留手法を18%超えた。 高い精度に加えて、サーバが複数の異種データ分散を訓練するのではなく、マルチモーダル分布を訓練するため、我々のフレームワークはベースラインよりも早く収束する。 私たちのコードはhttps://github.com/FedDG23/FedDG-main.gitで利用可能です。

Data heterogeneity presents significant challenges for federated learning (FL). Recently, dataset distillation techniques have been introduced, and performed at the client level, to attempt to mitigate some of these challenges. In this paper, we propose a highly efficient FL dataset distillation framework on the server side, significantly reducing both the computational and communication demands on local devices while enhancing the clients' privacy. Unlike previous strategies that perform dataset distillation on local devices and upload synthetic data to the server, our technique enables the server to leverage prior knowledge from pre-trained deep generative models to synthesize essential data representations from a heterogeneous model architecture. This process allows local devices to train smaller surrogate models while enabling the training of a larger global model on the server, effectively minimizing resource utilization. We substantiate our claim with a theoretical analysis, demonstrating the asymptotic resemblance of the process to the hypothetical ideal of completely centralized training on a heterogeneous dataset. Empirical evidence from our comprehensive experiments indicates our method's superiority, delivering an accuracy enhancement of up to 40% over non-dataset-distillation techniques in highly heterogeneous FL contexts, and surpassing existing dataset-distillation methods by 18%. In addition to the high accuracy, our framework converges faster than the baselines because rather than the server trains on several sets of heterogeneous data distributions, it trains on a multi-modal distribution. Our code is available at https://github.com/FedDG23/FedDG-main.git
翻訳日:2023-12-05 17:00:54 公開日:2023-12-03
# CalliPaint: 拡散モデルで描かれた中国の書道

CalliPaint: Chinese Calligraphy Inpainting with Diffusion Model ( http://arxiv.org/abs/2312.01536v1 )

ライセンス: Link先を確認
Qisheng Liao, Zhinuo Wang, Muhammad Abdul-Mageed, Gus Xia(参考訳) 中国書道は独特の視覚芸術の形式と見なすことができる。 近年のコンピュータビジョンの進歩は、中国書道の領域における生成モデルの発展に大きな可能性を秘めている。 それにもかかわらず、美術・教育分野において効果的に使用できる漢画画の技法は、比較的未調査のままである。 本稿では,中国の書道生成とイメージインパインティングの両方における最近の進歩を活かした新しいモデルを提案する。 提案したモデルであるCalliPaintは、説得力のある漢字を書けることを示す。

Chinese calligraphy can be viewed as a unique form of visual art. Recent advancements in computer vision hold significant potential for the future development of generative models in the realm of Chinese calligraphy. Nevertheless, methods of Chinese calligraphy inpainting, which can be effectively used in the art and education fields, remain relatively unexplored. In this paper, we introduce a new model that harnesses recent advancements in both Chinese calligraphy generation and image inpainting. We demonstrate that our proposed model CalliPaint can produce convincing Chinese calligraphy.
翻訳日:2023-12-05 17:00:27 公開日:2023-12-03
# 大規模言語モデルを用いた重症心身障害者のコミュニケーション促進

Using Large Language Models to Accelerate Communication for Users with Severe Motor Impairments ( http://arxiv.org/abs/2312.01532v1 )

ライセンス: Link先を確認
Shanqing Cai, Subhashini Venugopalan, Katie Seaver, Xiang Xiao, Katrin Tomanek, Sri Jalasutram, Meredith Ringel Morris, Shaun Kane, Ajit Narayanan, Robert L. MacDonald, Emily Kornman, Daniel Vance, Blair Casey, Steve M. Gleason, Philip Q. Nelson, Michael P. Brenner(参考訳) 重度運動障害のある人のテキスト入力を加速する方法を見つけることは、長い間研究されてきた分野である。 視線追跡キーボードなどの代替通信(aac)機器の速度ギャップを閉じることは、これらの個人にとって生活の質を改善する上で重要である。 自然言語のニューラルネットワークの最近の進歩は、AACユーザのためのテキスト入力を強化する戦略とユーザインターフェースを再考する新たな機会をもたらす。 本稿では,大規模言語モデル(llms)と高度に省略されたテキスト入力のためのユーザインタフェースを組み合わせたspeakfasterを提案する。 モバイル端末上で手動で入力する19人の非AAC参加者によるパイロット研究は、オフラインシミュレーションに従ってモータセーブの増加を示しながら、全体のタイピング速度に比較的小さな効果をもたらした。 筋萎縮性側索硬化症 (ALS) を呈する2人の眼球運動者を対象とした実験とフィールドテストにより, 文脈認識LLMのフレーズや単語予測による高価なキーストロークの大幅な削減により, 従来の基準値よりも29~60%のテキスト入力率を示した。 これらの知見は、運動障害のあるユーザのための実質的に加速されたテキスト通信のさらなる研究の基盤となり、llmをテキストベースのユーザインタフェースに適用する方向を示す。

Finding ways to accelerate text input for individuals with profound motor impairments has been a long-standing area of research. Closing the speed gap for augmentative and alternative communication (AAC) devices such as eye-tracking keyboards is important for improving the quality of life for such individuals. Recent advances in neural networks of natural language pose new opportunities for re-thinking strategies and user interfaces for enhanced text-entry for AAC users. In this paper, we present SpeakFaster, consisting of large language models (LLMs) and a co-designed user interface for text entry in a highly-abbreviated form, allowing saving 57% more motor actions than traditional predictive keyboards in offline simulation. A pilot study with 19 non-AAC participants typing on a mobile device by hand demonstrated gains in motor savings in line with the offline simulation, while introducing relatively small effects on overall typing speed. Lab and field testing on two eye-gaze typing users with amyotrophic lateral sclerosis (ALS) demonstrated text-entry rates 29-60% faster than traditional baselines, due to significant saving of expensive keystrokes achieved through phrase and word predictions from context-aware LLMs. These findings provide a strong foundation for further exploration of substantially-accelerated text communication for motor-impaired users and demonstrate a direction for applying LLMs to text-based user interfaces.
翻訳日:2023-12-05 17:00:18 公開日:2023-12-03
# SANeRF-HQ: 高品質なNeRF用セグメンテーション

SANeRF-HQ: Segment Anything for NeRF in High Quality ( http://arxiv.org/abs/2312.01531v1 )

ライセンス: Link先を確認
Yichen Liu, Benran Hu, Chi-Keung Tang, Yu-Wing Tai(参考訳) 近年,セグメンテーションモデル (SAM) はゼロショットセグメンテーションの顕著な能力を示し,NeRF (Neural Radiance Fields) は新規なビュー合成以上の様々な3次元問題の解法として人気を集めている。 これらの2つの手法を3Dセグメンテーションに組み込む試みは、当初はあったが、複雑なシナリオでオブジェクトを正確に一貫したセグメンテーションするという課題に直面している。 本稿では,高品質なシーンの高品質な3Dセグメンテーションを実現するために,SANeRF-HQ(Segment Anything for NeRF in High Quality)を提案する。 SANeRF-HQはSAMをユーザからのプロンプトによって誘導されるオープンワールドオブジェクトセグメンテーションに利用し、NeRFを利用して異なる視点から情報を収集する。 上記の課題を克服するために、集約中のセグメンテーション境界の精度を高めるために密度場とRGB類似性を用いる。 セグメンテーションの精度を重視し,高品質な接地構造が利用可能あるいは手動でアノテートされた複数のNeRFデータセット上で定量的に評価を行った。 SANeRF-HQは、NeRFオブジェクトセグメンテーションにおける従来の最先端メソッドよりも大幅な品質向上を示し、オブジェクトローカライゼーションの柔軟性を高め、複数のビューにまたがるより一貫性のあるオブジェクトセグメンテーションを可能にする。 詳細はhttps://lyclyc52.github.io/SANeRF-HQ/で確認できる。

Recently, the Segment Anything Model (SAM) has showcased remarkable capabilities of zero-shot segmentation, while NeRF (Neural Radiance Fields) has gained popularity as a method for various 3D problems beyond novel view synthesis. Though there exist initial attempts to incorporate these two methods into 3D segmentation, they face the challenge of accurately and consistently segmenting objects in complex scenarios. In this paper, we introduce the Segment Anything for NeRF in High Quality (SANeRF-HQ) to achieve high quality 3D segmentation of any object in a given scene. SANeRF-HQ utilizes SAM for open-world object segmentation guided by user-supplied prompts, while leveraging NeRF to aggregate information from different viewpoints. To overcome the aforementioned challenges, we employ density field and RGB similarity to enhance the accuracy of segmentation boundary during the aggregation. Emphasizing on segmentation accuracy, we evaluate our method quantitatively on multiple NeRF datasets where high-quality ground-truths are available or manually annotated. SANeRF-HQ shows a significant quality improvement over previous state-of-the-art methods in NeRF object segmentation, provides higher flexibility for object localization, and enables more consistent object segmentation across multiple views. Additional information can be found at https://lyclyc52.github.io/SANeRF-HQ/.
翻訳日:2023-12-05 16:59:49 公開日:2023-12-03
# 時間変化特徴設定のためのアクティブ特徴獲得手法の評価

Evaluation of Active Feature Acquisition Methods for Time-varying Feature Settings ( http://arxiv.org/abs/2312.01530v1 )

ライセンス: Link先を確認
Henrik von Kleist, Alireza Zamanian, Ilya Shpitser, Narges Ahmidi(参考訳) 機械学習の手法は、入力機能が無償で利用できると仮定することが多い。 しかし、機能の取得が高価または有害な分野である医療のような領域では、機能の取得コストと予測値とのバランスをとる必要がある。 取得する機能を決定するためにAIエージェントを訓練するタスクは、アクティブ機能取得(AFA)と呼ばれる。 AFAエージェントをデプロイすることで,買収戦略を効果的に変更し,流通シフトを引き起こす。 この分散シフトの下でAFAエージェントを安全にデプロイするために、アクティブな特徴取得性能評価(AFAPE)の問題を示す。 AFAPEについて検討する 一 買収が基礎となる特徴値に影響を及ぼさないという直接的効果(NDE)の仮定 二 振り返り特徴取得の決定は、観察された特徴に基づいてのみ行われるという、観測不能な確証(NUC)の仮定。 NUCの仮定ではオフライン強化学習を適用でき、NDEの仮定ではデータ手法が欠落している。 NUC と NDE が成り立つと、より弱い正の仮定を必要とする新しい半オフライン強化学習フレームワークが提案され、よりデータ効率のよい推定器が生成される。 直接法(DM)、逆確率重み付け(IPW)、二重強化学習(DRL)の3つの新しい推定手法を紹介する。

Machine learning methods often assume input features are available at no cost. However, in domains like healthcare, where acquiring features could be expensive or harmful, it is necessary to balance a feature's acquisition cost against its predictive value. The task of training an AI agent to decide which features to acquire is called active feature acquisition (AFA). By deploying an AFA agent, we effectively alter the acquisition strategy and trigger a distribution shift. To safely deploy AFA agents under this distribution shift, we present the problem of active feature acquisition performance evaluation (AFAPE). We examine AFAPE under i) a no direct effect (NDE) assumption, stating that acquisitions don't affect the underlying feature values; and ii) a no unobserved confounding (NUC) assumption, stating that retrospective feature acquisition decisions were only based on observed features. We show that one can apply offline reinforcement learning under the NUC assumption and missing data methods under the NDE assumption. When NUC and NDE hold, we propose a novel semi-offline reinforcement learning framework, which requires a weaker positivity assumption and yields more data-efficient estimators. We introduce three novel estimators: a direct method (DM), an inverse probability weighting (IPW), and a double reinforcement learning (DRL) estimator.
翻訳日:2023-12-05 16:59:20 公開日:2023-12-03
# T3D:ビジョンランゲージによる3次元医用画像理解を目指して

T3D: Towards 3D Medical Image Understanding through Vision-Language Pre-training ( http://arxiv.org/abs/2312.01529v1 )

ライセンス: Link先を確認
Che Liu, Cheng Ouyang, Yinda Chen, Cesar C\'esar Quilodr\'an-Casas, Lei Ma, Jie Fu, Yike Guo, Anand Shah, Wenjia Bai, Rossella Arcucci(参考訳) 下流分析のための3次元医用画像のエキスパートアノテーションは資源集約的であり、臨床応用における課題を提起する。 visual self-supervised learning (vssl) は、視覚の不変性を学ぶのに有効であるが、医学からドメイン知識を取り入れることを無視している。 医用知識を視覚表現学習に取り入れるため,視覚言語事前学習(VLP)は2次元画像に有望な結果を示した。 しかし、GPUハードウェアの制約と、ハードウェアの制約に対する直感的な解決策であるダウンサンプリングによる重要な詳細の損失により、既存のVLPアプローチが高解像度の3D医療画像に適用されると、一般的には非現実的になる。 上記の制限に対処するため,高解像度の3D医療画像用に設計された最初のVLPフレームワークであるT3Dを紹介する。 T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (\lowerromannumeral{1}) テキストインフォームド・コントラスト学習; (\lowerromannumeral{2}) テキストインフォームド・イメージ復元。 これらの課題は、高解像度の3次元医用画像から3次元視覚表現を学習し、詳細な解剖学的テキストによるダウンサンプルボリュームの強制アライメントを通じて情報を歪めることなく、放射線医学レポートから臨床知識を統合することに焦点を当てている。 T3Dでは、臓器や腫瘍の分節化といったタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れています。 これは3次元医用画像解析のための表現学習におけるt3dの可能性を示す。 すべてのデータとコードは、受け入れ次第利用できる。

Expert annotation of 3D medical image for downstream analysis is resource-intensive, posing challenges in clinical applications. Visual self-supervised learning (vSSL), though effective for learning visual invariance, neglects the incorporation of domain knowledge from medicine. To incorporate medical knowledge into visual representation learning, vision-language pre-training (VLP) has shown promising results in 2D image. However, existing VLP approaches become generally impractical when applied to high-resolution 3D medical images due to GPU hardware constraints and the potential loss of critical details caused by downsampling, which is the intuitive solution to hardware constraints. To address the above limitations, we introduce T3D, the first VLP framework designed for high-resolution 3D medical images. T3D incorporates two text-informed pretext tasks: (\lowerromannumeral{1}) text-informed contrastive learning; (\lowerromannumeral{2}) text-informed image restoration. These tasks focus on learning 3D visual representations from high-resolution 3D medical images and integrating clinical knowledge from radiology reports, without distorting information through forced alignment of downsampled volumes with detailed anatomical text. Trained on a newly curated large-scale dataset of 3D medical images and radiology reports, T3D significantly outperforms current vSSL methods in tasks like organ and tumor segmentation, as well as disease classification. This underlines T3D's potential in representation learning for 3D medical image analysis. All data and code will be available upon acceptance.
翻訳日:2023-12-05 16:58:58 公開日:2023-12-03
# NovoMol: PDGFR{\alpha}受容体を用いた経口生化学的医薬品設計とバリデーションのためのリカレントニューラルネットワーク

NovoMol: Recurrent Neural Network for Orally Bioavailable Drug Design and Validation on PDGFR{\alpha} Receptor ( http://arxiv.org/abs/2312.01527v1 )

ライセンス: Link先を確認
Ishir Rao(参考訳) 薬物候補の長期スケジュールと低い成功率により、医薬品産業における臨床試験の生産性が制限される。 有望なデ・ノヴォの薬物設計技術は、より広い化学空間を探索し、新しい分子を効率的に生成し、治療を改善することで、この問題を解決するのに役立つ。 しかし、承認された経口薬で見られる分子特性の最適化は依然として課題であり、novoの使用を制限する。 本研究では, 経口バイオアベイラビリティの高い薬物分子を大量生産し, 臨床治験時間の効率を高めるために, リカレントニューラルネットワークを用いた新しいnovo法であるNovoMolを提案する。 分子は望ましい形質に最適化され、薬物類似度(QED)を定量的に推定した。 qedの口腔内バイオアベイラビリティ閾値を満たした生成分子がニューラルネットワークの再トレーニングに使用され、5回のトレーニングサイクルの後、生成分子の76%がこの厳格な閾値を越え、96%が伝統的に使用されている5のリピンスキーの法則を満たした。 その後、訓練されたモデルは、がん関連PDGFR{\alpha}受容体の特定の薬物候補を生成するために使用され、生成した候補の44%は、現在の最先端薬であるイマチニブ(-9.4 kcal/molの受容体結合親和性を持つ)よりも結合親和性が高い。 NovoMolは、有望な薬物候補を臨床試験のために提供する、時間/費用効率のAIベースのde novoメソッドを提供する。

Longer timelines and lower success rates of drug candidates limit the productivity of clinical trials in the pharmaceutical industry. Promising de novo drug design techniques help solve this by exploring a broader chemical space, efficiently generating new molecules, and providing improved therapies. However, optimizing for molecular characteristics found in approved oral drugs remains a challenge, limiting de novo usage. In this work, we propose NovoMol, a novel de novo method using recurrent neural networks to mass-generate drug molecules with high oral bioavailability, increasing clinical trial time efficiency. Molecules were optimized for desirable traits and ranked using the quantitative estimate of drug-likeness (QED). Generated molecules meeting QED's oral bioavailability threshold were used to retrain the neural network, and, after five training cycles, 76% of generated molecules passed this strict threshold and 96% passed the traditionally used Lipinski's Rule of Five. The trained model was then used to generate specific drug candidates for the cancer-related PDGFR{\alpha} receptor and 44% of generated candidates had better binding affinity than the current state-of-the-art drug, Imatinib (with a receptor binding affinity of -9.4 kcal/mol), and the best-generated candidate at -12.9 kcal/mol. NovoMol provides a time/cost-efficient AI-based de novo method offering promising drug candidates for clinical trials.
翻訳日:2023-12-05 16:58:32 公開日:2023-12-03
# Code Swarm: 変換ルールセットの自動導出に基づくコード生成ツール

Code Swarm: A Code Generation Tool Based on the Automatic Derivation of Transformation Rule Set ( http://arxiv.org/abs/2312.01524v1 )

ライセンス: Link先を確認
Hina Mahmood, Atif Aftab Jilani, Abdul Rauf(参考訳) システム設計モデルからのソフトウェアコードの自動生成は、過去数年間、活発に研究されてきた研究領域である。 ソフトウェアモデルからコードを生成する作業を容易かつ自動化するために、現在、多くのツールが利用可能である。 私たちの知る限りでは、既存のソフトウェアツールはモデルからコードへの変換プロセスを実行するために明示的に定義された変換ルールセットに依存しています。 本稿では,swarmベースのアプローチを用いてシステム設計モデルから実装コードを自動的に生成する,cods(code swarm)という新しいツールを提案する。 特にCodSは、以前に解決されたモデル間変換の例を利用して、ソフトウェアシステムのクラスとステートモデルからJavaコードを生成することができる。 我々のツールは、設計者がASL(Action Specification Language)を使用して入力モデルに振る舞いのアクションを指定できるようにします。 我々は,本ツールの実験検証を行うために,エレベータ制御システム(ecs)のインダストリアルケーススタディを用いた。 その結果,CodSが生成したコードは入力設計モデルと一致していることがわかった。 CodSは、明示的な変換ルールセットや言語メタモデル情報を入力として取ることなく、自動コード生成プロセスを実行し、既存の自動コード生成ツールと区別する。

Automatic generation of software code from system design models remains an actively explored research area for the past several years. A number of tools are currently available to facilitate and automate the task of generating code from software models. To the best of our knowledge, existing software tools rely on an explicitly defined transformation rule set to perform the model-to-code transformation process. In this paper, we introduce a novel tool named Code Swarm, abbreviated as CodS, that automatically generates implementation code from system design models by utilizing a swarm-based approach. Specifically, CodS is capable of generating Java code from the class and state models of the software system by making use of the previously solved model-to-code transformation examples. Our tool enables the designers to specify behavioural actions in the input models using the Action Specification Language (ASL). We use an industrial case study of the Elevator Control System (ECS) to perform the experimental validation of our tool. Our results indicate that the code generated by CodS is correct and consistent with the input design models. CodS performs the process of automatic code generation without taking the explicit transformation rule set or languages metamodels information as input, which distinguishes it from all the existing automatic code generation tools.
翻訳日:2023-12-05 16:57:59 公開日:2023-12-03
# Symnoise: 対称雑音による言語モデルの微調整

SymNoise: Advancing Language Model Fine-tuning with Symmetric Noise ( http://arxiv.org/abs/2312.01523v1 )

ライセンス: Link先を確認
Arjun Singh, Abhay Kumar Yadav(参考訳) 本稿では,埋め込みプロセスに対称雑音を組み込む言語モデルのための新しい微調整手法を提案する。 本手法は,局所曲率をより厳密に制御し,現行手法NEFTuneよりも優れた性能を示すことにより,モデルの機能を向上することを目的とする。 アルパカを用いてLLaMA-2-7Bモデルを微調整すると、標準技術は29.79%のスコアをAlpacaEvalで得る。 しかし、我々のアプローチであるSymNoiseは、対称雑音埋め込みを用いて、このスコアを69.04%に向上させた。 これは最先端の方法であるneftune~(64.69%)よりも6.7%改善されている。 さらに、さまざまなモデルや、Evol-Instruct、ShareGPT、OpenPlatypusといったより強力なベースライン命令データセットでテストする場合、SymNoiseはNEFTuneを一貫して上回る。 neftuneを含む現在の文献は、言語モデルの微調整におけるノイズベースの戦略の適用に関するより深い研究の重要性を強調している。 われわれのアプローチであるSymNoiseは、この方向に向けた重要なステップであり、既存の最先端手法に対する顕著な改善を示している。

In this paper, we introduce a novel fine-tuning technique for language models, which involves incorporating symmetric noise into the embedding process. This method aims to enhance the model's function by more stringently regulating its local curvature, demonstrating superior performance over the current method, NEFTune. When fine-tuning the LLaMA-2-7B model using Alpaca, standard techniques yield a 29.79% score on AlpacaEval. However, our approach, SymNoise, increases this score significantly to 69.04%, using symmetric noisy embeddings. This is a 6.7% improvement over the state-of-the-art method, NEFTune~(64.69%). Furthermore, when tested on various models and stronger baseline instruction datasets, such as Evol-Instruct, ShareGPT, OpenPlatypus, SymNoise consistently outperforms NEFTune. The current literature, including NEFTune, has underscored the importance of more in-depth research into the application of noise-based strategies in the fine-tuning of language models. Our approach, SymNoise, is another significant step towards this direction, showing notable improvement over the existing state-of-the-art method.
翻訳日:2023-12-05 16:57:40 公開日:2023-12-03
# G2D:ビジョンランゲージ事前学習による地球から高密度放射線画像表現学習

G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training ( http://arxiv.org/abs/2312.01522v1 )

ライセンス: Link先を確認
Che Liu, Cheng Ouyang, Sibo Cheng, Anand Shah, Wenjia Bai, Rossella Arcucci(参考訳) 近年,医用視覚言語プレトレーニング(VLP)は,医用画像とそのペアラジオグラフィーレポートからグローバルな視覚表現を学習するための大きな進歩を遂げている。 しかし、現実の医療画像処理は通常、視覚的特徴の細かな粒度を必要とする。 これらのタスクには、視覚的ローカライゼーションタスク(セマンティックセグメンテーション、オブジェクト検出など)と視覚的グラウンドタスクが含まれる。 しかし、現在の医療用VLP法は、主に画像パッチと局所的な視覚的特徴学習のための個々のテキストトークン間のブルートフォースアライメントに焦点を当てており、下流の高密度予測タスクに最適である。 本研究では,既存の医療用VLPアプローチと比較して,学習対象の粒度と精度を著しく向上する,新しいVLPフレームワークである「textbf{G}lobal to \textbf{D}enseレベル表現学習(G2D)」を提案する。 特に、G2Dは、大域的な視覚言語アライメントと平行な擬分節タスクを通じて、密集した意味的な画像表現を学習する。 特筆すべきは、擬似セグメンテーションターゲットの生成は、パラメータフリープロセッサでVLP中に得られた、追加のトレーニング可能なパラメータを発生させないことである。 g2dは、6つの医療画像タスクと25の疾患、特にセマンティックセグメンテーションにおいて優れた性能を達成している。 このタスクでは、g2dはトレーニングデータのわずか1\%で微調整された場合でも、これらのモデルで使用される100\%に対してピアモデルを上回る。 コードは受理後にリリースされます。

Recently, medical vision-language pre-training (VLP) has reached substantial progress to learn global visual representation from medical images and their paired radiology reports. However, medical imaging tasks in real world usually require finer granularity in visual features. These tasks include visual localization tasks (e.g., semantic segmentation, object detection) and visual grounding task. Yet, current medical VLP methods face challenges in learning these fine-grained features, as they primarily focus on brute-force alignment between image patches and individual text tokens for local visual feature learning, which is suboptimal for downstream dense prediction tasks. In this work, we propose a new VLP framework, named \textbf{G}lobal to \textbf{D}ense level representation learning (G2D) that achieves significantly improved granularity and more accurate grounding for the learned features, compared to existing medical VLP approaches. In particular, G2D learns dense and semantically-grounded image representations via a pseudo segmentation task parallel with the global vision-language alignment. Notably, generating pseudo segmentation targets does not incur extra trainable parameters: they are obtained on the fly during VLP with a parameter-free processor. G2D achieves superior performance across 6 medical imaging tasks and 25 diseases, particularly in semantic segmentation, which necessitates fine-grained, semantically-grounded image features. In this task, G2D surpasses peer models even when fine-tuned with just 1\% of the training data, compared to the 100\% used by these models. The code will be released upon acceptance.
翻訳日:2023-12-05 16:57:21 公開日:2023-12-03
# フォトニッククイディット媒介エンタングルメント生成における誤差相関

Error Correlations in Photonic Qudit-Mediated Entanglement Generation ( http://arxiv.org/abs/2312.01519v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Niv Bharos, Liubov Markovich, Johannes Borregaard(参考訳) 分散ネットワークノード間の絡み合いの生成は、量子インターネットの前提条件である。 高次元フォトニックquditに基づくエンタングルメント分散プロトコルにより、複数のエンタングルペアを同時に生成することができ、クビットレジスタの必要なコヒーレンス時間を大幅に削減することができる。 しかし、現在の方式では高速光スイッチが必要であり、これは実験的に難しい。 さらに、キュービットプロトコルと比較して、quditプロトコルにおける生成した絡み合ったペア間の高い誤差相関が研究されていない。 我々は、光スイッチの必要性を完全に回避し、現在の実験システムでよりアクセスしやすいquditによる絡み合いプロトコルを提案する。 さらに、同時に生成された絡み合いペア間の誤差相関量を定量化し、絡み合い除去アルゴリズムとテレポーテーションに基づく量子誤差補正の効果を分析する。 最適化された浄化方式は相関誤差を効率よく補正できるが,ここで検討した量子誤り訂正符号は非相関誤差モデルよりも悪い性能を示す。

Generating entanglement between distributed network nodes is a prerequisite for the quantum internet. Entanglement distribution protocols based on high-dimensional photonic qudits enable the simultaneous generation of multiple entangled pairs, which can significantly reduce the required coherence time of the qubit registers. However, current schemes require fast optical switching, which is experimentally challenging. In addition, the higher degree of error correlation between the generated entangled pairs in qudit protocols compared to qubit protocols has not been studied in detail. We propose a qudit-mediated entangling protocol that completely circumvents the need for optical switches, making it more accessible for current experimental systems. Furthermore, we quantify the amount of error correlation between the simultaneously generated entangled pairs and analyze the effect on entanglement purification algorithms and teleportation-based quantum error correction. We find that optimized purification schemes can efficiently correct the correlated errors, while the quantum error correction codes studied here perform worse than for uncorrelated error models.
翻訳日:2023-12-05 16:56:43 公開日:2023-12-03
# 大きい方が良いとは限らない: 音声事前学習における文脈サイズの影響

Bigger is not Always Better: The Effect of Context Size on Speech Pre-Training ( http://arxiv.org/abs/2312.01515v1 )

ライセンス: Link先を確認
Sean Robertson and Ewan Dunbar(参考訳) 一般にASR(Automatic Speech Recognition)の文献では、より広いコンテキストウインドウにアクセスできるモデルの方が優れていると仮定されている。 しかし、教師なし設定でこれが真である可能性のある多くの理由は、教師なし学習の場合に必ずしも受け継がれるわけではない。 自己教師付き学習を用いて,高品質な事前学習音響モデルを実現するために,文脈がどの程度必要かを検討する。 主に、トレーニングや推論中にモデルに表示されるコンテキストの量を正確に制御できるように適応するコントラスト予測符号化(CPC)について検討する。 結果のモデル表現における電話の識別性は、先行する文脈の40~ms程度でピークに達し、コンテキストが多すぎると表現の質が大幅に低下する(約320ms以上)。 驚くことに、このパターンは、事前学習された表現をフリーズ入力機能として使用する場合、教師付きASRにも転送される。 我々の結果は、様々な下流タスクをより促進するために、現在の上流アーキテクチャの設計の変更の可能性を示している。

It has been generally assumed in the automatic speech recognition (ASR) literature that it is better for models to have access to wider context windows. Yet, many of the potential reasons this might be true in the supervised setting do not necessarily transfer over to the case of unsupervised learning. We investigate how much context is necessary to achieve high-quality pre-trained acoustic models using self-supervised learning. We principally investigate contrastive predictive coding (CPC), which we adapt to be able to precisely control the amount of context visible to the model during training and inference. We find that phone discriminability in the resulting model representations peaks at around 40~ms of preceding context, and that having too much context (beyond around 320 ms) substantially degrades the quality of the representations. Surprisingly, we find that this pattern also transfers to supervised ASR when the pre-trained representations are used as frozen input features. Our results point to potential changes in the design of current upstream architectures to better facilitate a variety of downstream tasks.
翻訳日:2023-12-05 16:56:17 公開日:2023-12-03
# SoK: データ権利の理想と現実のギャップ

SoK: The Gap Between Data Rights Ideals and Reality ( http://arxiv.org/abs/2312.01511v1 )

ライセンス: Link先を確認
Yujin Kwon, Ella Corren, Gonzalo Munilla Garrido, Chris Hoofnagle, Dawn Song(参考訳) 情報経済が急成長するにつれて、彼らはイノベーションと経済の富を解き放ち、市民の自由と個人、企業、政府間の権力のダイナミクスを変える新たな脅威を提起する。 立法府は、個人にデータに対する権限を与えるプライバシー法に反応している。 これらの法律は通常、データ収集者(企業や政府)の要求を行うために「データ対象者」(個人)の権利を作る。 欧州連合(EU)の一般データ保護規則(GDPR)は、これを例示し、データ対象に広範なデータ権限を与える。 しかし、問題は残る:これらの権利に基づくプライバシー法は、個人にデータよりも効果的に権限を与えるのか? 本論文は,201の学際的実証研究,ニュース記事,ブログ投稿をレビューすることで,これらのアプローチを精査する。 権利割当の有効性に関する重要な質問を15つ挙げる。 この文献は、権利に基づくフレームワークの有効性に関する矛盾する結果をしばしば提示するが、一般的にはそれらの制限を強調している。 我々は、これらのフレームワークにコミットする政策立案者およびコンピュータサイエンス(cs)グループに推奨し、代替プライバシ規制アプローチを提案します。

As information economies burgeon, they unlock innovation and economic wealth while posing novel threats to civil liberties and altering power dynamics between individuals, companies, and governments. Legislatures have reacted with privacy laws designed to empower individuals over their data. These laws typically create rights for "data subjects" (individuals) to make requests of data collectors (companies and governments). The European Union General Data Protection Regulation (GDPR) exemplifies this, granting extensive data rights to data subjects, a model embraced globally. However, the question remains: do these rights-based privacy laws effectively empower individuals over their data? This paper scrutinizes these approaches by reviewing 201 interdisciplinary empirical studies, news articles, and blog posts. We pinpoint 15 key questions concerning the efficacy of rights allocations. The literature often presents conflicting results regarding the effectiveness of rights-based frameworks, but it generally emphasizes their limitations. We offer recommendations to policymakers and Computer Science (CS) groups committed to these frameworks, and suggest alternative privacy regulation approaches.
翻訳日:2023-12-05 16:55:45 公開日:2023-12-03
# 非分離バイナリ分類の再検討と異常検出への応用

Revisiting Non-separable Binary Classification and its Applications in Anomaly Detection ( http://arxiv.org/abs/2312.01541v1 )

ライセンス: Link先を確認
Matthew Lau, Ismaila Seck, Athanasios P Meliopoulos, Wenke Lee and Eugene Ndiaye(参考訳) XORを線形に分類できないことは、多くのディープラーニングを動機付けている。 我々は、この古い問題を再考し、XORの線形分類が実際に可能であることを示す。 ハーフスペース間でデータを分離する代わりに、SVMの目的に適応し、マージン内または外にあるデータを区別する、わずかに異なるパラダイム、平等分離を提案する。 分類器は、滑らかな近似でニューラルネットワークパイプラインに統合できます。 その性質から,同値分離が異常検出に適していることを示唆する。 この概念を定式化するために、分類器が異常検出のための閉決定領域を形成する能力に関する定量的尺度である閉包数を導入する。 この二項分類と異常検出の理論的関係から, 教師付き異常検出実験の仮説を検証し, 同一性分離が目に見える異常と見えない異常の両方を検出することを示した。

The inability to linearly classify XOR has motivated much of deep learning. We revisit this age-old problem and show that linear classification of XOR is indeed possible. Instead of separating data between halfspaces, we propose a slightly different paradigm, equality separation, that adapts the SVM objective to distinguish data within or outside the margin. Our classifier can then be integrated into neural network pipelines with a smooth approximation. From its properties, we intuit that equality separation is suitable for anomaly detection. To formalize this notion, we introduce closing numbers, a quantitative measure on the capacity for classifiers to form closed decision regions for anomaly detection. Springboarding from this theoretical connection between binary classification and anomaly detection, we test our hypothesis on supervised anomaly detection experiments, showing that equality separation can detect both seen and unseen anomalies.
翻訳日:2023-12-05 16:44:07 公開日:2023-12-03
# 分布整合蒸留によるワンステップ拡散

One-step Diffusion with Distribution Matching Distillation ( http://arxiv.org/abs/2311.18828v2 )

ライセンス: Link先を確認
Tianwei Yin, Micha\"el Gharbi, Richard Zhang, Eli Shechtman, Fredo Durand, William T. Freeman, Taesung Park(参考訳) 拡散モデルは高品質な画像を生成するが、数十の前方通過を必要とする。 本稿では,拡散モデルを画像品質に最小限の影響を与えるワンステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。 我々は,2つのスコア関数,1つのターゲット分布,および1つのステップ生成器によって生成される合成分布の差として勾配を表現可能な近似KL分散を最小化することにより,拡散モデルと分布レベルで一致したワンステップ画像生成装置を強制する。 スコア関数は、各分布で個別に訓練された2つの拡散モデルとしてパラメータ化される。 多段拡散出力の大規模構造に適合する簡単な回帰損失を組み合わせることで,imagenet 64x64では2.62 fid,ゼロショットcoco-30kでは11.49 fidとなり,安定拡散に匹敵するほど高速である。 FP16推論を用いて,最新のハードウェア上で20FPSで画像を生成する。

Diffusion models generate high-quality images but require dozens of forward passes. We introduce Distribution Matching Distillation (DMD), a procedure to transform a diffusion model into a one-step image generator with minimal impact on image quality. We enforce the one-step image generator match the diffusion model at distribution level, by minimizing an approximate KL divergence whose gradient can be expressed as the difference between 2 score functions, one of the target distribution and the other of the synthetic distribution being produced by our one-step generator. The score functions are parameterized as two diffusion models trained separately on each distribution. Combined with a simple regression loss matching the large-scale structure of the multi-step diffusion outputs, our method outperforms all published few-step diffusion approaches, reaching 2.62 FID on ImageNet 64x64 and 11.49 FID on zero-shot COCO-30k, comparable to Stable Diffusion but orders of magnitude faster. Utilizing FP16 inference, our model generates images at 20 FPS on modern hardware.
翻訳日:2023-12-05 12:02:28 公開日:2023-12-03
# 離散量子ウォークにおける$\epsilon$-Uniform Mixing

$\epsilon$-Uniform Mixing in Discrete Quantum Walks ( http://arxiv.org/abs/2311.18797v2 )

ライセンス: Link先を確認
Hanmeng Zhan(参考訳) 離散量子ウォークが、ある頂点の出射する弧の均一な重ね合わせから始まっていることから、全てのアークに対してエントリが同じ絶対値を持つ状態に任意に近づくことができるかどうかを考察する。 グラフの隣接スペクトルを用いて、非二部グラフ上のこの現象を特徴づける;特に、ある関係スキームと「近傍を尊重する」状態において、それが任意に近くなると、それは初期頂点によらず起こり、グラフの隣接代数は実(正則な)ハダマール行列を含む。 そして、この現象を認める原始的強正則グラフの無限族を見つける。 我々はまた、全ての頂点で局所的に$\epsilon$-uniform混合を可能にする同時$\epsilon$-uniform混合と呼ばれるこの現象の強化に関するいくつかの結果も導出する。

We study whether a discrete quantum walk can get arbitrarily close to a state whose entries have the same absolute value over all the arcs, given that the walk starts with a uniform superposition of the outgoing arcs of some vertex. We characterize this phenomenon on non-bipartite graphs using the adjacency spectrum of the graph; in particular, if this happens in some association scheme and the state we get arbitrarily close to ``respects the neighborhood", then it happens regardless of the initial vertex, and the adjacency algebra of the graph contains a real (regular) Hadamard matrix. We then find infinite families of primitive strongly regular graphs that admit this phenomenon. We also derive some results on a strengthening of this phenomenon called simultaneous $\epsilon$-uniform mixing, which enables local $\epsilon$-uniform mixing at every vertex.
翻訳日:2023-12-05 12:01:24 公開日:2023-12-03
# alignbench: 大規模言語モデルの中国アライメントのベンチマーク

AlignBench: Benchmarking Chinese Alignment of Large Language Models ( http://arxiv.org/abs/2311.18743v2 )

ライセンス: Link先を確認
Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Zhuoer Feng, Bosi Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, Xiaohan Zhang, Lichao Sun, Hongning Wang, Jing Zhang, Minlie Huang, Yuxiao Dong, Jie Tang(参考訳) アライメントは、命令調整された大規模言語モデル(LLM)がアシスタントになるための重要なステップとなっている。 しかし、中国におけるLLMのアライメントの効果的な評価は依然として著しく欠落しており、アライメントに適した実シナリオ、オープンエンド、挑戦的、自動評価が求められている。 このギャップを埋めるために、中国語でLLMのアライメントを評価するための総合的な多次元ベンチマークであるAlignBenchを紹介する。 提案するベンチマークでは,マルチ次元LCM-as-JudgeとChain-of-Thoughtを併用し,評価として説明と最終評価を生成し,信頼性と解釈性を確保する。 さらに,GPT-4の評価能力の95%を回復する中国専用評価器LLMであるCritiqueLLMによるAlignBenchの評価を行った。 LLMの中国アライメントの評価を容易にするために、AlignBenchをCristiqueLLMで評価するための公開APIを提供する。 すべての評価コード、データ、LCM世代は \url{https://github.com/THUDM/AlignBench} で利用可能である。

Alignment has become a critical step for instruction-tuned Large Language Models (LLMs) to become helpful assistants. However, effective evaluation of alignment for emerging Chinese LLMs is still significantly lacking, calling for real-scenario grounded, open-ended, challenging and automatic evaluations tailored for alignment. To fill in this gap, we introduce AlignBench, a comprehensive multi-dimensional benchmark for evaluating LLMs' alignment in Chinese. Equipped with a human-in-the-loop data curation pipeline, our benchmark employs a rule-calibrated multi-dimensional LLM-as-Judge with Chain-of-Thought to generate explanations and final ratings as evaluations, ensuring high reliability and interpretability. Furthermore, we report AlignBench evaluated by CritiqueLLM, a dedicated Chinese evaluator LLM that recovers 95% of GPT-4's evaluation ability. We will provide public APIs for evaluating AlignBench with CritiqueLLM to facilitate the evaluation of LLMs' Chinese alignment. All evaluation codes, data, and LLM generations are available at \url{https://github.com/THUDM/AlignBench}.
翻訳日:2023-12-05 12:01:05 公開日:2023-12-03
# 長距離XY鎖の動的緩和

Dynamical relaxation of a long-range XY chain ( http://arxiv.org/abs/2311.18293v2 )

ライセンス: Link先を確認
Yu-Huang Huang, Yin-Tao Zou, and Chengxiang Ding(参考訳) クエンチに続く長距離量子XY鎖の普遍的リアルタイム緩和挙動について検討する。 我々の研究には、非臨界と臨界の両方が含まれている。 非臨界クエンチの場合、すなわち初期状態やポストクエンチハミルトニアンが平衡相転移の臨界点にない場合、コンメンシュレート相または非コンメンシュレート相へのクエンチは、それぞれ$t^{-3/2}$または$t^{-1/2}$のスケーリングを与える。 しかし、可換相と非可換相の境界線への緩衝については、スケーリング則 $t^{-\mu}$ は、短距離モデルの対応する値である $t^{-3/4}$ と異なるかもしれない。 より興味深いことに、崩壊指数である\mu$ はエネルギースペクトルの漸近挙動が異なるため、ポストクエンチハミルトニアンのパラメータの選択に依存するかもしれない。 さらに、一部のケースでは、エネルギースペクトルに反射点が現れるため、スケーリング挙動は定常位相近似による予測の範囲外である可能性がある。 臨界クエンチ、すなわち初期状態またはポストクエンチハミルトニアンが平衡相転移の臨界点にある場合、上記のスケーリング則 $t^{-\mu}$ は臨界点のエネルギースペクトルのギャップ閉包性のために変更することができる。

We study the universal real-time relaxation behaviors of a long-range quantum XY chain following a quench. Our research includes both the noncritical and critical quench. In the case of noncritical quench, i.e., neither the initial state nor the postquench Hamiltonian is at a critical point of equilibrium phase transition, a quench to the commensurate phase or incommensurate phase gives a scaling of $t^{-3/2}$ or $t^{-1/2}$, respectively, which is the same as the counterpart of the short-range XY model. However, for a quench to the boundary line between the commensurate and incommensurate phases, the scaling law $t^{-\mu}$ may be different from the $t^{-3/4}$ law of the counterpart of the short-range model. More interestingly, the decaying exponent $\mu$ may depend on the choice of the parameters of the postquench Hamiltonian because of the different asymptotic behaviors of the energy spectrum. Furthermore, in certain cases, the scaling behavior may be outside the range of predictions made by the stationary phase approximation, because an inflection point emerges in the energy spectrum. For the critical quench, i.e., the initial state or the postquench Hamiltonian is at a critical point of equilibrium phase transition, the aforementioned scaling law $t^{-\mu}$ may be changed because of the gap-closing property of the energy spectrum of the critical point.
翻訳日:2023-12-05 12:00:04 公開日:2023-12-03