このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230917となっている論文です。

PDF登録状況(公開日: 20230917)

TitleAuthorsAbstract論文公表日・翻訳日
# 差分プライバシーにおける未知領域アルゴリズムの統一型プライバシ分析フレームワーク

A Unifying Privacy Analysis Framework for Unknown Domain Algorithms in Differential Privacy ( http://arxiv.org/abs/2309.09170v1 )

ライセンス: Link先を確認
Ryan Rogers, (参考訳) ヒストグラムをリリースするための多くの既存の微分プライベートアルゴリズム、すなわち対応するラベルのカウントを様々な設定でリリースしている。 この調査の焦点は、未知のドメイン上でヒストグラムを公開するための既存の微分プライベートアルゴリズムのいくつかを再検討することである。 未知の領域でヒストグラムを解放する主な実用上の利点は、アルゴリズムが元のヒストグラムには存在しないが、仮説的近傍データセットにはヒストグラムに現れるため、欠落したラベルを埋める必要がないことである。 しかし、未知のドメイン上でヒストグラムをリリースするための微分プライベートアルゴリズムを設計する上での課題は、どの入力が使われたかを明確に示す結果が、明らかにプライバシーを侵害していることである。 目的は、差別化の結果が非常に低い確率で起こることを示すことである。 いくつかの既存アルゴリズムのプライバシー分析のための統一的なフレームワークを提案する。 さらに、我々の分析では、Bun と Steinke'16 の近似微分プライバシーを用いており、特に多くのアルゴリズムを総合システムに組み込む場合、差分プライバシーを直接使用するのではなく、プライバシー損失パラメータを改善することができる。

There are many existing differentially private algorithms for releasing histograms, i.e. counts with corresponding labels, in various settings. Our focus in this survey is to revisit some of the existing differentially private algorithms for releasing histograms over unknown domains, i.e. the labels of the counts that are to be released are not known beforehand. The main practical advantage of releasing histograms over an unknown domain is that the algorithm does not need to fill in missing labels because they are not present in the original histogram but in a hypothetical neighboring dataset could appear in the histogram. However, the challenge in designing differentially private algorithms for releasing histograms over an unknown domain is that some outcomes can clearly show which input was used, clearly violating privacy. The goal then is to show that the differentiating outcomes occur with very low probability. We present a unified framework for the privacy analyses of several existing algorithms. Furthermore, our analysis uses approximate concentrated differential privacy from Bun and Steinke'16, which can improve the privacy loss parameters rather than using differential privacy directly, especially when composing many of these algorithms together in an overall system.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-17
# ATM:攻撃木のセキュリティ特性を定量化するための論理

ATM: a Logic for Quantitative Security Properties on Attack Trees ( http://arxiv.org/abs/2309.09231v1 )

ライセンス: Link先を確認
Stefano M. Nicoletti, Milan Lopuhaä-Zwakenberg, E. Moritz Hahn, Mariëlle Stoelinga, (参考訳) 信頼性と可用性が最重要である重要なインフラストラクチャシステムは、安全に運用する必要があります。 アタックツリー(AT)は、システムの攻撃方法を評価するのに使用されるフレキシブルなモデリング言語を提供する階層図である。 ATは業界と学界の両方で広く利用されているが、その人気にもかかわらず、実践者がAT上のクエリを理解できるが強力な方法で定式化するための作業はほとんど行われていない。 本稿では,AT 上の量的セキュリティ特性を表現するロジックであるATM を提示することで,このギャップを埋める。 ATMは、"コスト"、"確率"、"スキル"を含むセキュリティメトリクスに関連するプロパティの仕様を可能にし、洞察に富んだWhat-ifシナリオの定式化を可能にする。 その可能性を示すために、ATMをCubeSATのケーススタディに適用し、攻撃者がその可用性を損なう3つの方法を示す。 本稿では、対応する攻撃ツリーのプロパティ仕様を示し、ATM-formulaeのプロパティと計算メトリクスをチェックするために、バイナリ決定図に基づく理論とアルゴリズムを提案する。

Critical infrastructure systems - for which high reliability and availability are paramount - must operate securely. Attack trees (ATs) are hierarchical diagrams that offer a flexible modelling language used to assess how systems can be attacked. ATs are widely employed both in industry and academia but - in spite of their popularity - little work has been done to give practitioners instruments to formulate queries on ATs in an understandable yet powerful way. In this paper we fill this gap by presenting ATM, a logic to express quantitative security properties on ATs. ATM allows for the specification of properties involved with security metrics that include "cost", "probability" and "skill" and permits the formulation of insightful what-if scenarios. To showcase its potential, we apply ATM to the case study of a CubeSAT, presenting three different ways in which an attacker can compromise its availability. We showcase property specification on the corresponding attack tree and we present theory and algorithms - based on binary decision diagrams - to check properties and compute metrics of ATM-formulae.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-17
# OSの分離にDéjà vuは必要ない

OSmosis: No more Déjà vu in OS isolation ( http://arxiv.org/abs/2309.09291v1 )

ライセンス: Link先を確認
Sidhartha Agrawal, Reto Achermann, Margo Seltzer, (参考訳) オペレーティングシステムはハードウェアと高レベルのソフトウェアを抽象化するレイヤを提供する。 スレッド、プロセス、コンテナ、仮想マシンなどの多くの抽象化は、分離を提供するメカニズムである。 新しいアプリケーションシナリオは、しばしば新しい分離メカニズムを導入します。 各分離メカニズムを独立した抽象化として実装することは、さまざまなタスク間で共有される状態とリソースを判断することが難しく、セキュリティ上の脆弱性とパフォーマンス上の干渉につながる。 本稿では、OSmosis、リソース共有の正確なレベルを表現する分離モデル、モデルに基づく分離機構を実装するフレームワーク、および、seL4上でのフレームワークの実装について述べる。 OSmosisモデルは、ユーザがシステムから必要なアイソレーションの度合いを判断することを可能にする。 この決定により、開発者は、分離とパフォーマンスのトレードオフに関する情報的な決定を下すことができ、フレームワークは、望まれる分離の程度でメカニズムを作成することができる。

Operating systems provide an abstraction layer between the hardware and higher-level software. Many abstractions, such as threads, processes, containers, and virtual machines, are mechanisms to provide isolation. New application scenarios frequently introduce new isolation mechanisms. Implementing each isolation mechanism as an independent abstraction makes it difficult to reason about the state and resources shared among different tasks, leading to security vulnerabilities and performance interference. We present OSmosis, an isolation model that expresses the precise level of resource sharing, a framework in which to implement isolation mechanisms based on the model, and an implementation of the framework on seL4. The OSmosis model lets the user determine the degree of isolation guarantee that they need from the system. This determination empowers developers to make informed decisions about isolation and performance trade-offs, and the framework enables them to create mechanisms with the desired degree of isolation.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-17
# 分散データによるプライバシ保護多言語コンピューティング

Privacy-Preserving Polynomial Computing Over Distributed Data ( http://arxiv.org/abs/2309.09315v1 )

ライセンス: Link先を確認
Zhiquan Tan, Dingli Yuan, Zhongyi Huang, (参考訳) 本稿では,ユーザが自身のデータと分散ソースから得られるデータを用いて多項式関数を計算しようとするシナリオを掘り下げる。 これを実現するために、ユーザは$N$の分散ワーカーの助けを借りて、分散データ上でのプライバシ保護多項式コンピューティングと呼ばれる問題を定義する。 この課題に対処するため,Lagrangeエンコーディングに基づくアプローチを提案する。 本手法は, ストラグラーやビザンチン作業員の存在に耐えるだけでなく, 安全の確保も図っている。 具体的には、たとえ$X$の労働者連合が共謀したとしても、分散ソースやユーザから派生したデータに関する知識を取得できない。

In this letter, we delve into a scenario where a user aims to compute polynomial functions using their own data as well as data obtained from distributed sources. To accomplish this, the user enlists the assistance of $N$ distributed workers, thereby defining a problem we refer to as privacy-preserving polynomial computing over distributed data. To address this challenge, we propose an approach founded upon Lagrange encoding. Our method not only possesses the ability to withstand the presence of stragglers and byzantine workers but also ensures the preservation of security. Specifically, even if a coalition of $X$ workers collude, they are unable to acquire any knowledge pertaining to the data originating from the distributed sources or the user.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-17
# 移動物体に基づく衝突のない映像合成

Moving Object Based Collision-Free Video Synopsis ( http://arxiv.org/abs/2401.02419v1 )

ライセンス: Link先を確認
Anton Jeran Ratnarajah, Sahani Goonetilleke, Dumindu Tissera, Kapilan Balagopalan, Ranga Rodrigo(参考訳) ビデオ合成は、空間的・時間的冗長性を利用して短いビデオを生成するため、監視とアーカイブのために重要である。 既存の軌道に基づくビデオ合成アルゴリズムは、複雑なエネルギー最小化アルゴリズムに含める必要のある物体管の数による複雑さのため、リアルタイムでは動作しない。 本研究では,大域的なエネルギー最小化システムとは対照的に,バッファ内のユーザ指定管数からオブジェクトフレームを抽出することにより,シナプスの各フレームを漸進的に縫合する手法を用いてリアルタイムアルゴリズムを提案する。 これはまた、ユーザが自分の追跡能力に応じて、シナプスビデオの最大オブジェクト数の閾値を設定する柔軟性を与え、視覚的に喜ぶ衝突のない要約ビデオを生成する。 屋内および屋外の6つの一般的なテストビデオを用いた実験では,提案するビデオ合成アルゴリズムが,既存の手法よりも優れたフレーム削減率を示している。

Video synopsis, summarizing a video to generate a shorter video by exploiting the spatial and temporal redundancies, is important for surveillance and archiving. Existing trajectory-based video synopsis algorithms will not able to work in real time, because of the complexity due to the number of object tubes that need to be included in the complex energy minimization algorithm. We propose a real-time algorithm by using a method that incrementally stitches each frame of the synopsis by extracting object frames from the user specified number of tubes in the buffer in contrast to global energy-minimization based systems. This also gives flexibility to the user to set the threshold of maximum number of objects in the synopsis video according his or her tracking ability and creates collision-free summarized videos which are visually pleasing. Experiments with six common test videos, indoors and outdoors with many moving objects, show that the proposed video synopsis algorithm produces better frame reduction rates than existing approaches.
翻訳日:2024-01-15 09:58:20 公開日:2023-09-17
# 法科学ビデオ解析ソフトウェア

Forensic Video Analytic Software ( http://arxiv.org/abs/2401.02960v1 )

ライセンス: Link先を確認
Anton Jeran Ratnarajah, Sahani Goonetilleke, Dumindu Tissera, Kapilan Balagopalan, Ranga Rodrigo(参考訳) 法執行機関は証拠抽出プロセスにおいて、法医学的ビデオ分析(FVA)ソフトウェアに大きく依存している。 しかし、現在のFVAソフトウェアは複雑で時間がかかり、機器に依存し、高価である。 発展途上国は安全な避難所へのゲートウェイへのアクセスに苦慮している。 法医学という用語は、後処理による犯罪の調査に対する科学的手法の応用に関するものであるが、監視はリアルタイムフィードの密接な監視である。 最終年度のプロジェクトの目的は、学術研究論文、オンラインデータベース、法的文書の厳密かつ体系的なレビューを通じて欠点を解決する、効率的で効果的なfvaソフトウェアを開発することである。 このスコープは、複数のオブジェクト検出、複数のオブジェクト追跡、異常検出、アクティビティ認識、改ざん検出、一般および特定画像強調およびビデオ合成にまたがる。 使用される手法には、多くの機械学習技術、gpuアクセラレーション、効率的なアーキテクチャ開発、リアルタイムとポストプロセッシングの両方が含まれる。 このCNNでは、GMM、マルチスレッディング、OpenCV C++コーディングが使用された。 提案手法がもたらす意味は、特に新しいビデオ合成研究領域を通じて、FVAプロセスの高速化である。 本研究は,移動物体を用いた衝突フリービデオ合成,法科学および監視ツールアーキテクチャ,フレーム間偽造検出の3つの研究成果を得た。 結果は、ビデオ合成とスリランカの文脈に重点を置いた法医学および監視パネルの結果を含む。 主な結論は、処理能力、メモリ、リアルタイム性能と精度の妥協を克服するための最適化と効率的なアルゴリズム統合である。

Law enforcement officials heavily depend on Forensic Video Analytic (FVA) Software in their evidence extraction process. However present-day FVA software are complex, time consuming, equipment dependent and expensive. Developing countries struggle to gain access to this gateway to a secure haven. The term forensic pertains the application of scientific methods to the investigation of crime through post-processing, whereas surveillance is the close monitoring of real-time feeds. The principle objective of this Final Year Project was to develop an efficient and effective FVA Software, addressing the shortcomings through a stringent and systematic review of scholarly research papers, online databases and legal documentation. The scope spans multiple object detection, multiple object tracking, anomaly detection, activity recognition, tampering detection, general and specific image enhancement and video synopsis. Methods employed include many machine learning techniques, GPU acceleration and efficient, integrated architecture development both for real-time and postprocessing. For this CNN, GMM, multithreading and OpenCV C++ coding were used. The implications of the proposed methodology would rapidly speed up the FVA process especially through the novel video synopsis research arena. This project has resulted in three research outcomes Moving Object Based Collision Free Video Synopsis, Forensic and Surveillance Analytic Tool Architecture and Tampering Detection Inter-Frame Forgery. The results include forensic and surveillance panel outcomes with emphasis on video synopsis and Sri Lankan context. Principal conclusions include the optimization and efficient algorithm integration to overcome limitations in processing power, memory and compromise between real-time performance and accuracy.
翻訳日:2024-01-15 09:45:22 公開日:2023-09-17
# GAMMA: マスク予測によるテンプレートベースの自動プログラム修復の再検討

GAMMA: Revisiting Template-based Automated Program Repair via Mask Prediction ( http://arxiv.org/abs/2309.09308v1 )

ライセンス: Link先を確認
Quanjun Zhang, Chunrong Fang, Tongke Zhang, Bowen Yu, Weisong Sun, Zhenyu Chen(参考訳) 自動プログラム修復(APR)は人間の介入なしにソフトウェアバグを修正することを目的としており、テンプレートベースのAPRは有望な結果で広く研究されている。 しかし、テンプレートベースのaprでは、候補パッチを生成する上で重要な修正要素である適切なドナーコードを選択することが難しい。 不適切なドナーコードは、修正パターンが正しい場合でも、プラウジブルだが不正なパッチ生成を引き起こし、修理性能が制限される。 本稿ではテンプレートベースのAPRを再検討し、GAMMAを提案し、ドナーコード生成に大規模な事前学習言語モデルを直接活用する。 私たちのおもな洞察は、ローカルのバギーファイルでドナーコードを検索するのではなく、コンテキストコードスニペットとclozeタスクによる修正パターンに基づいて、正しいコードトークンを直接予測できるということです。 具体的には、(1)GAMAは、最先端のテンプレートベースのAPR技術(TBar)から様々な修正テンプレートを改訂し、それらをマスクパターンに変換する。 2) GAMMAはトレーニング済みの言語モデルを採用して,マスク付きコードの正しいコードを予測する。 実験の結果、ガンマは欠陥4j-v1.2の82のバグを正しく修復し、20.59\% (14のバグ) と26.15\% (17のバグ)の改善を達成した。 さらに、ガンマは追加の欠陥である4j-v2.0とquixbugsから45のバグと22のバグを修復する。 また、CodeBERTベースのGAMMAやChatGPTベースのGAMMAでは、Defects4J-v1.2の80と67のバグを修正でき、GAMMAのスケーラビリティを示している。 全体として、本研究は、修正パターンの上に正しいパッチを生成するために事前訓練されたモデルを採用する有望な未来を強調している。

Automated program repair (APR) aims to fix software bugs without human intervention and template-based APR has been widely investigated with promising results. However, it is challenging for template-based APR to select the appropriate donor code, which is an important repair ingredient for generating candidate patches. Inappropriate donor code may cause plausible but incorrect patch generation even with correct fix patterns, limiting the repair performance. In this paper, we aim to revisit template-based APR, and propose GAMMA, to directly leverage large pre-trained language models for donor code generation. Our main insight is that instead of retrieving donor code in the local buggy file, we can directly predict the correct code tokens based on the context code snippets and repair patterns by a cloze task. Specifically, (1) GAMMA revises a variety of fix templates from state-of-the-art template-based APR techniques (i.e., TBar) and transforms them into mask patterns. (2) GAMMA adopts a pre-trained language model to predict the correct code for masked code as a fill-in-the-blank task. The experimental results demonstrate that GAMMA correctly repairs 82 bugs on Defects4J-v1.2, which achieves 20.59\% (14 bugs) and 26.15\% (17 bugs) improvement over the previous state-of-the-art template-based approach TBar and learning-based one Recoder. Furthermore, GAMMA repairs 45 bugs and 22 bugs from the additional Defects4J-v2.0 and QuixBugs, indicating the generalizability of GAMMA in addressing the dataset overfitting issue. We also prove that adopting other pre-trained language models can provide substantial advancement, e.g., CodeBERT-based and ChatGPT-based GAMMA is able to fix 80 and 67 bugs on Defects4J-v1.2, indicating the scalability of GAMMA. Overall, our study highlights the promising future of adopting pre-trained models to generate correct patches on top of fix patterns.
翻訳日:2023-10-23 07:30:35 公開日:2023-09-17
# デジタル双生児による組込みソフトウェア開発:中小規模企業における具体的な要件

Embedded Software Development with Digital Twins: Specific Requirements for Small and Medium-Sized Enterprises ( http://arxiv.org/abs/2309.09216v1 )

ライセンス: Link先を確認
Alexander Barbie and Wilhelm Hasselbring(参考訳) 産業4.0への転換は、組み込みソフトウェアシステムの開発方法を変える。 デジタル双子はコスト効率の良いソフトウェア開発とメンテナンス戦略の可能性を秘めている。 コスト削減と開発サイクルの高速化により、中小企業(中小企業)は新しいスマート製品で成長するチャンスがある。 現在の開発プロセスについて、中小企業にインタビューした。 本稿では,これらのインタビューの最初の結果を紹介する。 最初の結果は、適切なツールの欠如により、リアルタイムな要件が、これまでは、ソフトウェア・イン・ザ・ループ開発アプローチを妨げていることを示している。 セキュリティ/安全に関する懸念とハードウェアのアクセシビリティが主な障害である。 ハードウェアへの一時的なアクセスだけが、シミュレーション/エミュレータに基づいたSoftware-in-the-Loop開発アプローチにつながる。 しかし、これは可能なすべてのユースケースにおいてではない。 すべてのインタビュアーは、品質とカスタマイズに関して、Software-in-the-Loopアプローチとデジタルツインの可能性を見ることができる。 エンジニアを説得するためにある程度の努力を要する理由の1つは、組み込みコミュニティ、特に中小企業の保守的な性質である。

The transformation to Industry 4.0 changes the way embedded software systems are developed. Digital twins have the potential for cost-effective software development and maintenance strategies. With reduced costs and faster development cycles, small and medium-sized enterprises (SME) have the chance to grow with new smart products. We interviewed SMEs about their current development processes. In this paper, we present the first results of these interviews. First results show that real-time requirements prevent, to date, a Software-in-the-Loop development approach, due to a lack of proper tooling. Security/safety concerns, and the accessibility of hardware are the main impediments. Only temporary access to the hardware leads to Software-in-the-Loop development approaches based on simulations/emulators. Yet, this is not in all use cases possible. All interviewees see the potential of Software-in-the-Loop approaches and digital twins with regard to quality and customization. One reason it will take some effort to convince engineers, is the conservative nature of the embedded community, particularly in SMEs.
翻訳日:2023-10-23 07:29:53 公開日:2023-09-17
# Rely-guarantee氏が並列リアクティブシステムについて語る: PiCoreフレームワーク、言語統合、アプリケーション

Rely-guarantee Reasoning about Concurrent Reactive Systems: The PiCore Framework, Languages Integration and Applications ( http://arxiv.org/abs/2309.09148v1 )

ライセンス: Link先を確認
Yongwang Zhao, David Sanan(参考訳) rely-guaranteeアプローチは、並列オペレーティングシステム、割り込み駆動制御システム、ビジネスプロセスシステムなど、同時応答システム(CRS)の構成検証のための有望な方法である。 しかし、異種反応パターン、抽象レベルの違い、現実のCRSの複雑さといった仕様は、いまだ頼りのアプローチに挑戦している。 この記事では、CRSの正式な仕様と検証のための依存型推論フレームワークであるPiCoreを提案する。 我々は,crssの反応的側面の仕様と論理をイベント振る舞いから切り離すために,複雑な反応構造とその依拠的証明システムをサポートするイベント仕様言語を設計した。 PiCoreは、Relied-guaranteeインターフェースを使用して、言語とそのRelied-guaranteeシステムのイベント動作をパラメータ化し、Relied-guaranteeアダプタを通じて、サードパーティ言語を容易に統合することができる。 この設計により、仕様や証明の変更なしに既存の2つの言語とそれらの信頼保証証明システムを統合することに成功した。 PiCoreは、Zephyr RTOSにおける並列メモリ管理の正式な検証と標準化されたBusiness Process Execution Language(BPEL)のPiCoreへの変換という、2つの実世界のケーススタディに適用されている。

The rely-guarantee approach is a promising way for compositional verification of concurrent reactive systems (CRSs), e.g. concurrent operating systems, interrupt-driven control systems and business process systems. However, specifications using heterogeneous reaction patterns, different abstraction levels, and the complexity of real-world CRSs are still challenging the rely-guarantee approach. This article proposes PiCore, a rely-guarantee reasoning framework for formal specification and verification of CRSs. We design an event specification language supporting complex reaction structures and its rely-guarantee proof system to detach the specification and logic of reactive aspects of CRSs from event behaviours. PiCore parametrizes the language and its rely-guarantee system for event behaviour using a rely-guarantee interface and allows to easily integrate 3rd-party languages via rely-guarantee adapters. By this design, we have successfully integrated two existing languages and their rely-guarantee proof systems without any change of their specification and proofs. PiCore has been applied to two real-world case studies, i.e. formal verification of concurrent memory management in Zephyr RTOS and a verified translation for a standardized Business Process Execution Language (BPEL) to PiCore.
翻訳日:2023-10-23 07:29:38 公開日:2023-09-17
# コンカレントシステムにおける情報フローセキュリティのイベントベース構成推論

Event-based Compositional Reasoning of Information-Flow Security for Concurrent Systems ( http://arxiv.org/abs/2309.09141v1 )

ライセンス: Link先を確認
Yongwang Zhao, David Sanan, Fuyuan Zhang, Yang Liu(参考訳) 並列システムにおける情報フローセキュリティ(IFS)の高保証は困難である。 並列システムの形式的検証に有望な方法は rely-guarantee メソッドである。 しかし、IFSの既存の構成推論アプローチは、言語ベースのIFSに集中している。 マルチコアオペレーティングシステムカーネルのようなシステムレベルのセキュリティには適用されないことが多く、アクションの秘密性も考慮すべきである。 一方、confluent-guaranteeメソッドに関する既存の研究は、基本的に並列プログラミング言語の上に構築されており、並列システムのセマンティクスを単純な方法で完全に捉えることはできない。 本稿では,コンカレントシステムに対する状態行動に基づくIFSの形式的検証を行うため,IFSに対する信頼保証に基づくコンポジション推論手法を提案する。 最初に '`Event'' を並行言語に組み込んで言語を設計し、その言語のIFSセマンティクスを提供する。 プリミティブ要素として、イベントはモデリングシステムの非常に優れたフレームワークを提供しており、私たちの言語では必ずしもアトミックではない。 IFS の構成的推論には、イベント UC 上の新しい形態の巻き戻し条件 (UC) を定義するために、Depended-guarantee 仕様を用いる。 言語に依存した証明システムとイベントUCの健全性により、イベントUCは並列システムのIFSを暗示する。 このような方法で、従来のUCにおける行動の原子性制約を緩和し、個別の事象に対する独立したセキュリティ証明によってシステムのセキュリティ証明を退避できるIFSの構成的推論方法を提供する。 最後に,Isabelle/HOL のアプローチを機械化し,産業標準 ARINC 653 による研究事例として,Isabelle/HOL の正式な仕様と IFS によるマルチコア分離カーネルの証明を開発する。

High assurance of information-flow security (IFS) for concurrent systems is challenging. A promising way for formal verification of concurrent systems is the rely-guarantee method. However, existing compositional reasoning approaches for IFS concentrate on language-based IFS. It is often not applicable for system-level security, such as multicore operating system kernels, in which secrecy of actions should also be considered. On the other hand, existing studies on the rely-guarantee method are basically built on concurrent programming languages, by which semantics of concurrent systems cannot be completely captured in a straightforward way. In order to formally verify state-action based IFS for concurrent systems, we propose a rely-guarantee-based compositional reasoning approach for IFS in this paper. We first design a language by incorporating ``Event'' into concurrent languages and give the IFS semantics of the language. As a primitive element, events offer an extremely neat framework for modeling system and are not necessarily atomic in our language. For compositional reasoning of IFS, we use rely-guarantee specification to define new forms of unwinding conditions (UCs) on events, i.e., event UCs. By a rely-guarantee proof system of the language and the soundness of event UCs, we have that event UCs imply IFS of concurrent systems. In such a way, we relax the atomicity constraint of actions in traditional UCs and provide a compositional reasoning way for IFS in which security proof of systems can be discharged by independent security proof on individual events. Finally, we mechanize the approach in Isabelle/HOL and develop a formal specification and its IFS proof for multicore separation kernels as a study case according to an industrial standard -- ARINC 653.
翻訳日:2023-10-23 07:29:15 公開日:2023-09-17
# コンカレントメモリ管理に関する従属者推論--正しさ、安全性、セキュリティ

Rely-guarantee Reasoning about Concurrent Memory Management: Correctness, Safety and Security ( http://arxiv.org/abs/2309.09997v1 )

ライセンス: Link先を確認
Yongwang Zhao, David Sanan(参考訳) 並列オペレーティングシステム(OS)の形式的検証は、特に複雑なデータ構造と割り当てアルゴリズムによる動的メモリ管理の検証が困難である。 メモリ管理の誤った仕様と実装は、システムクラッシュや悪用可能な攻撃につながる可能性がある。 本稿では, 機能的正当性, 安全性, セキュリティなど, 総合的な特性セットに関する, 実世界のOS向け並列メモリ管理の最初の正式な仕様と機構的証明を示す。 最も高い保証評価レベルを達成するために、我々はzephyr rtos buddy memory managementの詳細な形式仕様を開発し、仕様とソースコードの検証を容易にするcコードに密接に従う。 従属保証に基づく構成検証技術は, 形式モデル上で適用されている。 セキュリティ特性の形式的検証を支援するため,信頼度保証フレームワークであるPiCoreを,整合性のための構成的推論アプローチにより拡張する。 設計のセキュリティ検証は完全性を維持することを示しているが、機能特性の検証にはいくつかの問題がある。 これらの検証問題は、プロパティを壊す設計ラインに対応するソースコードを検査した後、ZephyrのC実装で3つのバグを見つけるように変換される。

Formal verification of concurrent operating systems (OSs) is challenging, in particular the verification of the dynamic memory management due to its complex data structures and allocation algorithm. An incorrect specification and implementation of the memory management may lead to system crashes or exploitable attacks. This article presents the first formal specification and mechanized proof of a concurrent memory management for a real-world OS concerning a comprehensive set of properties, including functional correctness, safety and security. To achieve the highest assurance evaluation level, we develop a fine-grained formal specification of the Zephyr RTOS buddy memory management, which closely follows the C code easing validation of the specification and the source code. The rely-guarantee-based compositional verification technique has been enforced over the formal model. To support formal verification of the security property, we extend our rely-guarantee framework PiCore by a compositional reasoning approach for integrity. Whilst the security verification of the design shows that it preserves the integrity property, the verification of the functional properties shows several problems. These verification issues are translated into finding three bugs in the C implementation of Zephyr, after inspecting the source code corresponding to the design lines breaking the properties.
翻訳日:2023-10-23 07:21:52 公開日:2023-09-17
# red teaming generative ai/nlp, bb84 quantum cryptography protocol, nistが承認する量子耐性暗号アルゴリズム

Red Teaming Generative AI/NLP, the BB84 quantum cryptography protocol and the NIST-approved Quantum-Resistant Cryptographic Algorithms ( http://arxiv.org/abs/2310.04425v1 )

ライセンス: Link先を確認
Petar Radanliev, David De Roure, Omar Santos(参考訳) 現代のデジタル時代において、量子コンピューティングと人工知能(AI)の収束はサイバーの風景を再構築し、前例のない機会と潜在的な脆弱性を導入している。この研究は5年間にわたって、この収束のサイバーセキュリティへの影響を深く掘り下げ、特にAI/自然言語処理(NLP)モデルと量子暗号プロトコル、特にBB84メソッドと特定のNIST承認アルゴリズムに焦点を当てている。 研究は、pythonとc++を主要な計算ツールとして活用し、量子セキュリティ対策の堅牢性を評価するために、潜在的なサイバー攻撃をシミュレートする"レッドチーム"アプローチを採用している。 12ヶ月にわたる予備的な研究により、この研究は拡張され、理論的な洞察を実世界のサイバーセキュリティソリューションに翻訳することを目的としている。 オックスフォード大学の技術地区にあるこの研究は、最先端のインフラと豊かな共同環境から恩恵を受けている。 この研究の目標は、デジタル世界が量子化されたオペレーションに移行するにつれて、AIによるサイバー脅威に対して回復力を維持することである。 この研究は、反復テスト、フィードバック統合、継続的な改善を通じて、より安全で量子可能なデジタルの未来を育むことを目的としている。 この発見は広く普及することを目的としており、知識がアカデミアとグローバルコミュニティに恩恵をもたらすことを保証し、量子テクノロジーの責任感と安全性を強調している。

In the contemporary digital age, Quantum Computing and Artificial Intelligence (AI) convergence is reshaping the cyber landscape, introducing unprecedented opportunities and potential vulnerabilities.This research, conducted over five years, delves into the cybersecurity implications of this convergence, with a particular focus on AI/Natural Language Processing (NLP) models and quantum cryptographic protocols, notably the BB84 method and specific NIST-approved algorithms. Utilising Python and C++ as primary computational tools, the study employs a "red teaming" approach, simulating potential cyber-attacks to assess the robustness of quantum security measures. Preliminary research over 12 months laid the groundwork, which this study seeks to expand upon, aiming to translate theoretical insights into actionable, real-world cybersecurity solutions. Located at the University of Oxford's technology precinct, the research benefits from state-of-the-art infrastructure and a rich collaborative environment. The study's overarching goal is to ensure that as the digital world transitions to quantum-enhanced operations, it remains resilient against AI-driven cyber threats. The research aims to foster a safer, quantum-ready digital future through iterative testing, feedback integration, and continuous improvement. The findings are intended for broad dissemination, ensuring that the knowledge benefits academia and the global community, emphasising the responsible and secure harnessing of quantum technology.
翻訳日:2023-10-15 14:47:39 公開日:2023-09-17
# 回避のための中水準表現としての視覚予測

Visual Forecasting as a Mid-level Representation for Avoidance ( http://arxiv.org/abs/2310.07724v1 )

ライセンス: Link先を確認
Hsuan-Kung Yang, Tsung-Chih Chiang, Ting-Ru Liu, Chun-Wei Huang, Jou-Min Liu, Chun-Yi Lee(参考訳) 動的物体を持つ環境におけるナビゲーションの課題は、自律エージェントの研究における中心的な課題である。 予測手法は約束を守るが、正確な状態情報に依存しているため、実際の実装では実用的ではない。 本研究は,視覚予測を革新的な代替手段として提示する。 直感的な視覚的手がかりを導入することにより、動的物体の将来の軌跡を投影し、エージェント知覚を改善し、予測行動を可能にする。 本研究は,(1)境界ボックスのシーケンス,(2)拡張経路の2つの異なる予測情報伝達戦略を探索する。 提案する視覚予測戦略を検証するために,unityエンジンを用いたシミュレーション環境における評価を開始し,実用性と有効性を評価する実世界シナリオに拡張する。 その結果,動的環境におけるナビゲーションと障害物回避のための有望なソリューションとしての視覚予測の有効性が確認された。

The challenge of navigation in environments with dynamic objects continues to be a central issue in the study of autonomous agents. While predictive methods hold promise, their reliance on precise state information makes them less practical for real-world implementation. This study presents visual forecasting as an innovative alternative. By introducing intuitive visual cues, this approach projects the future trajectories of dynamic objects to improve agent perception and enable anticipatory actions. Our research explores two distinct strategies for conveying predictive information through visual forecasting: (1) sequences of bounding boxes, and (2) augmented paths. To validate the proposed visual forecasting strategies, we initiate evaluations in simulated environments using the Unity engine and then extend these evaluations to real-world scenarios to assess both practicality and effectiveness. The results confirm the viability of visual forecasting as a promising solution for navigation and obstacle avoidance in dynamic environments.
翻訳日:2023-10-15 14:17:00 公開日:2023-09-17
# 複雑な医療意思決定におけるヒューマン・aiコラボレーションの再考--敗血症診断における事例研究

Rethinking Human-AI Collaboration in Complex Medical Decision Making: A Case Study in Sepsis Diagnosis ( http://arxiv.org/abs/2309.12368v1 )

ライセンス: Link先を確認
Shao Zhang, Jianing Yu, Xuhai Xu, Changchang Yin, Yuxuan Lu, Bingsheng Yao, Melanie Tory, Lace M. Padilla, Jeffrey Caterino, Ping Zhang, Dakuo Wang(参考訳) 今日の医学的意思決定支援のためのaiシステムは、しばしば研究論文のベンチマークデータセットで成功するが、実際のデプロイメントでは失敗する。 本研究は、臨床医から高い不確実性を伴う早期診断を必要とする急性期感染症である敗血症の意思決定に焦点を当てる。 我々の目標は、臨床専門家が敗血症早期診断のためのより良い判断を下すのを支援するAIシステムの設計要件を検討することである。 この研究は、なぜ臨床専門家が既存のaiによる敗血症予測モジュールを電気的健康記録(ehr)システムで放棄するのかという調査から始まった。 人間中心のAIシステムは、最終決定のみに焦点を当てるのではなく、医療意思決定プロセスの中間段階(仮説の生成やデータ収集など)で人間の専門家を支援する必要がある、と我々は主張する。 そこで我々は,最先端のaiアルゴリズムに基づくsepsislabを構築し,今後の敗血症開発予測に拡張し,予測の不確かさを可視化し,その不確実性を低減するために実行可能な提案(つまり,追加的な検査結果が収集できる)を提案する。 提案システムを用いた6名の臨床医によるヒューリスティック評価により,sepsislabはai支援敗血症診断の今後に向けて有望な人間とaiのコラボレーションパラダイムを実現することを実証した。

Today's AI systems for medical decision support often succeed on benchmark datasets in research papers but fail in real-world deployment. This work focuses on the decision making of sepsis, an acute life-threatening systematic infection that requires an early diagnosis with high uncertainty from the clinician. Our aim is to explore the design requirements for AI systems that can support clinical experts in making better decisions for the early diagnosis of sepsis. The study begins with a formative study investigating why clinical experts abandon an existing AI-powered Sepsis predictive module in their electrical health record (EHR) system. We argue that a human-centered AI system needs to support human experts in the intermediate stages of a medical decision-making process (e.g., generating hypotheses or gathering data), instead of focusing only on the final decision. Therefore, we build SepsisLab based on a state-of-the-art AI algorithm and extend it to predict the future projection of sepsis development, visualize the prediction uncertainty, and propose actionable suggestions (i.e., which additional laboratory tests can be collected) to reduce such uncertainty. Through heuristic evaluation with six clinicians using our prototype system, we demonstrate that SepsisLab enables a promising human-AI collaboration paradigm for the future of AI-assisted sepsis diagnosis and other high-stakes medical decision making.
翻訳日:2023-10-01 12:33:02 公開日:2023-09-17
# 公開アイテム特徴を用いたプライベートマトリックス因子化

Private Matrix Factorization with Public Item Features ( http://arxiv.org/abs/2309.11516v1 )

ライセンス: Link先を確認
Mihaela Curmei, Walid Krichene, Li Zhang, Mukund Sundararajan(参考訳) 我々は,公開項目の機能にアクセス可能なプライベートレコメンデーションモデルをトレーニングする際の問題点を考察する。 差別化プライバシ(DP)によるトレーニングは、推奨品質の損失を犠牲にして、強力なプライバシー保証を提供する。 トレーニング中にパブリックなアイテム機能を組み込むことで、品質の低下を緩和できることを示します。 本稿では、ユーザフィードバック行列(センシティブなデータを表す)と、一般に利用可能な(非センシティブな)アイテム情報をエンコードするアイテム特徴行列の2つの行列を同時に分解する、集合行列分解(CMF)に基づく一般的なアプローチを提案する。 この方法は概念的にはシンプルで、チューニングが簡単で、非常にスケーラブルです。 1)分類項目の特徴,(2)公開資料から得られた項目と項目の類似性,(3)公開ユーザからのフィードバックなど,さまざまな種類の公開項目データに適用することができる。 さらに、これらのデータモダリティを集合的に利用して、公開データを完全に活用することができる。 提案手法を標準DPレコメンデーションベンチマークで評価した結果,公開項目の特徴を用いることで,プライベートモデルと非プライベートモデルとの間の品質ギャップが著しく狭まることがわかった。 プライバシーの制約が厳しくなるにつれて、モデルは推奨のためにパブリックな側面の機能に大きく依存する。 これにより、協調フィルタリングからアイテムベースのコンテクストレコメンデーションへの移行が円滑になる。

We consider the problem of training private recommendation models with access to public item features. Training with Differential Privacy (DP) offers strong privacy guarantees, at the expense of loss in recommendation quality. We show that incorporating public item features during training can help mitigate this loss in quality. We propose a general approach based on collective matrix factorization (CMF), that works by simultaneously factorizing two matrices: the user feedback matrix (representing sensitive data) and an item feature matrix that encodes publicly available (non-sensitive) item information. The method is conceptually simple, easy to tune, and highly scalable. It can be applied to different types of public item data, including: (1) categorical item features; (2) item-item similarities learned from public sources; and (3) publicly available user feedback. Furthermore, these data modalities can be collectively utilized to fully leverage public data. Evaluating our method on a standard DP recommendation benchmark, we find that using public item features significantly narrows the quality gap between private models and their non-private counterparts. As privacy constraints become more stringent, models rely more heavily on public side features for recommendation. This results in a smooth transition from collaborative filtering to item-based contextual recommendations.
翻訳日:2023-09-22 18:23:54 公開日:2023-09-17
# シークエンシャルレコメンデーションにおける差分プライバシーを目指して:ノイズの多いグラフニューラルネットワークアプローチ

Towards Differential Privacy in Sequential Recommendation: A Noisy Graph Neural Network Approach ( http://arxiv.org/abs/2309.11515v1 )

ライセンス: Link先を確認
Wentao Hu, Hui Fang(参考訳) さまざまなオンラインプラットフォームで高名なプライバシー侵害の頻度が高まる中、ユーザはプライバシに対する懸念が高まっている。 パーソナライズされたサービスを提供するオンラインプラットフォームの中核的なコンポーネントであるレコメンダシステムは、プライバシー保護に大きな注目を集めている。 プライバシ保護の黄金の標準として、ディファレンシャルプライバシはレコメンダシステムにおけるプライバシを保護するために広く採用されている。 しかし、既存の微分プライベートリコメンダシステムは静的相互作用と独立相互作用のみを考慮するため、振る舞いが動的で依存的な逐次レコメンデーションには適用できない。 一方、機密性の高いユーザー機能のプライバシーリスクにはほとんど注意が払われていない。 本稿では,これらの制約に対処するために,ノイズの多いグラフニューラルネットワークアプローチ(dipsgnn)を用いた,差分プライベートなシーケンシャルレコメンデーションフレームワークを提案する。 私たちの知識を最大限に活用するために、我々は、依存する相互作用を伴うシーケンシャルなレコメンデーションにおいて、初めて差分プライバシーを達成する。 具体的には、DIPSGNNでは、まず機密性の高いユーザ機能を保護するために、断片的なメカニズムを活用します。 そこで我々は,アグリゲーション摂動機構に基づくグラフニューラルネットワークのアグリゲーションステップにキャリブレーションノイズを革新的に付加する。 そしてこのノイズの多いグラフニューラルネットワークは、順次依存するインタラクションを保護し、ユーザの好みを同時にキャプチャする。 広汎な実験は、プライバシーと精度のバランスの良さの観点から、最先端の微分プライベートレコメンデータシステムよりも優れていることを示す。

With increasing frequency of high-profile privacy breaches in various online platforms, users are becoming more concerned about their privacy. And recommender system is the core component of online platforms for providing personalized service, consequently, its privacy preservation has attracted great attention. As the gold standard of privacy protection, differential privacy has been widely adopted to preserve privacy in recommender systems. However, existing differentially private recommender systems only consider static and independent interactions, so they cannot apply to sequential recommendation where behaviors are dynamic and dependent. Meanwhile, little attention has been paid on the privacy risk of sensitive user features, most of them only protect user feedbacks. In this work, we propose a novel DIfferentially Private Sequential recommendation framework with a noisy Graph Neural Network approach (denoted as DIPSGNN) to address these limitations. To the best of our knowledge, we are the first to achieve differential privacy in sequential recommendation with dependent interactions. Specifically, in DIPSGNN, we first leverage piecewise mechanism to protect sensitive user features. Then, we innovatively add calibrated noise into aggregation step of graph neural network based on aggregation perturbation mechanism. And this noisy graph neural network can protect sequentially dependent interactions and capture user preferences simultaneously. Extensive experiments demonstrate the superiority of our method over state-of-the-art differentially private recommender systems in terms of better balance between privacy and accuracy.
翻訳日:2023-09-22 18:23:33 公開日:2023-09-17
# Lazy OCO: 切り替え予算によるオンライン凸最適化

Lazy OCO: Online Convex Optimization on a Switching Budget ( http://arxiv.org/abs/2102.03803v7 )

ライセンス: Link先を確認
Uri Sherman, Tomer Koren(参考訳) 我々はオンライン凸最適化の変種を調査し、プレイヤーは$t$ラウンドを通して最大$s$倍の期待値で決定を切り替えることができる。 同様の問題は、離散的な決定セットの設定の事前作業や、より最近の連続的な設定では、適応的な敵のみに対処されている。 本研究では,このギャップを埋めて計算効率の高いアルゴリズムを,より広く普及し,一般凸損失に対してo(t/s)$,強凸損失に対してo(t/s^2)$という後悔の限度を確立することを目的とする。 さらに,確率的 i.i.d.~losses に対して,一般的な凸設定と強い凸設定の両方において,乗算的$\log t$ factor のオーバーヘッドのみで $\log t$ スイッチを実行する単純なアルゴリズムを提案する。 最後に、我々はアルゴリズムを、考慮すべきいくつかのケースにおいて上界に一致する下界で補完する。

We study a variant of online convex optimization where the player is permitted to switch decisions at most $S$ times in expectation throughout $T$ rounds. Similar problems have been addressed in prior work for the discrete decision set setting, and more recently in the continuous setting but only with an adaptive adversary. In this work, we aim to fill the gap and present computationally efficient algorithms in the more prevalent oblivious setting, establishing a regret bound of $O(T/S)$ for general convex losses and $\widetilde O(T/S^2)$ for strongly convex losses. In addition, for stochastic i.i.d.~losses, we present a simple algorithm that performs $\log T$ switches with only a multiplicative $\log T$ factor overhead in its regret in both the general and strongly convex settings. Finally, we complement our algorithms with lower bounds that match our upper bounds in some of the cases we consider.
翻訳日:2023-09-22 02:56:30 公開日:2023-09-17
# 大規模言語モデルから得られた確率に基づく特許請求の範囲測定のための新しいアプローチ

A novel approach to measuring patent claim scope based on probabilities obtained from (large) language models ( http://arxiv.org/abs/2309.10003v1 )

ライセンス: Link先を確認
S\'ebastien Ragot(参考訳) 本研究は,特許クレームの範囲を,このクレームに含まれる自己情報の相互性として測定することを提案する。 情報理論の根底にあるこのアプローチは、稀な概念が通常の概念よりも情報的なものであるという仮定に基づいている。 自己情報はそのクレームの発生確率から算出され、その確率は言語モデルに従って算出される。 最も単純なモデル(各単語または文字が一様分布から引き出される)から中間モデル(平均語または文字の周波数を使用する)から、大きな言語モデル(GPT2)まで、5つの言語モデルが検討されている。 興味深いことに、最も単純な言語モデルは、以前の作品で既に使われている指標である単語や文字の相互数にスコープ測度を還元する。 異なる発明に向けられた9つの特許クレームに適用され、各シリーズのクレームは徐々に範囲を縮小する。 言語モデルの性能は、いくつかのアドホックテストに対して評価される。 モデルが洗練すればするほど、結果は良くなる。 gpt2モデルは、単語と文字の周波数に基づいてモデルを上回る。

This work proposes to measure the scope of a patent claim as the reciprocal of the self-information contained in this claim. Grounded in information theory, this approach is based on the assumption that a rare concept is more informative than a usual concept, inasmuch as it is more surprising. The self-information is calculated from the probability of occurrence of that claim, where the probability is calculated in accordance with a language model. Five language models are considered, ranging from the simplest models (each word or character is drawn from a uniform distribution) to intermediate models (using average word or character frequencies), to a large language model (GPT2). Interestingly, the simplest language models reduce the scope measure to the reciprocal of the word or character count, a metric already used in previous works. Application is made to nine series of patent claims directed to distinct inventions, where the claims in each series have a gradually decreasing scope. The performance of the language models is then assessed with respect to several ad hoc tests. The more sophisticated the model, the better the results. The GPT2 model outperforms models based on word and character frequencies, which are themselves ahead of models based on word and character counts.
翻訳日:2023-09-20 18:29:51 公開日:2023-09-17
# 勾配流方程式に対するエネルギー安定ニューラルネットワーク

Energy stable neural network for gradient flow equations ( http://arxiv.org/abs/2309.10002v1 )

ライセンス: Link先を確認
Ganghua Fan, Tianyu Jin, Yuan Lan, Yang Xiang, Luchan Zhang(参考訳) 本稿では,勾配流方程式を解くためのエネルギー安定ネットワーク(EStable-Net)を提案する。 ニューラルネットワークEStable-Netの解更新スキームは、勾配流方程式の補助変数に基づく等価形式に着想を得たものである。 EStable-Netは、勾配流方程式の進化過程における特性と一致するニューラルネットワークに沿った離散エネルギーの減少を可能にする。 ニューラルネットワークのestable-netのアーキテクチャはいくつかのエネルギー減衰ブロックで構成されており、各ブロックの出力は勾配流方程式の進化過程の中間状態として解釈できる。 この設計は、安定で効率的で解釈可能なネットワーク構造を提供する。 数値実験の結果,ネットワークは高精度で安定した予測を実現できることがわかった。

In this paper, we propose an energy stable network (EStable-Net) for solving gradient flow equations. The solution update scheme in our neural network EStable-Net is inspired by a proposed auxiliary variable based equivalent form of the gradient flow equation. EStable-Net enables decreasing of a discrete energy along the neural network, which is consistent with the property in the evolution process of the gradient flow equation. The architecture of the neural network EStable-Net consists of a few energy decay blocks, and the output of each block can be interpreted as an intermediate state of the evolution process of the gradient flow equation. This design provides a stable, efficient and interpretable network structure. Numerical experimental results demonstrate that our network is able to generate high accuracy and stable predictions.
翻訳日:2023-09-20 18:29:29 公開日:2023-09-17
# CaSAR: コンタクト対応骨格行動認識

CaSAR: Contact-aware Skeletal Action Recognition ( http://arxiv.org/abs/2309.10001v1 )

ライセンス: Link先を確認
Junan Lin, Zhichao Sun, Enjie Cao, Taein Kwon, Mahdi Rad, Marc Pollefeys(参考訳) エゴセントリックな視点からの骨格的行動認識は、AR/VRメガネのインターフェースや、限られたリソースを持つ人間とロボットのインタラクションのようなアプリケーションにとって重要である。 既存の骨格行動認識のアプローチのほとんどは、手関節の3d座標と8角形の物体境界箱を入力として使用するが、手と物体が空間的文脈の中でどのように相互作用するかを捉えていない。 本稿では,CaSAR(Contact-Aware Skeletal Action Recognition)と呼ばれる新しいフレームワークを提案する。 空間情報を包含する手・物間相互作用の新しい表現を用いる。 1)手関節が対象物と合致する接点 2)手関節が物体から遠く離れており,現在の動作にほとんど関与していない遠点。 我々のフレームワークは、アクションシーケンスの各フレームのオブジェクトに触れたり、遠ざかったりする方法を学び、この情報を使ってアクションクラスを予測することができる。 提案手法は,H2OとFPHAの2つの公開データセットに対して,それぞれ91.3%,98.4%の最先端精度を実現する。

Skeletal Action recognition from an egocentric view is important for applications such as interfaces in AR/VR glasses and human-robot interaction, where the device has limited resources. Most of the existing skeletal action recognition approaches use 3D coordinates of hand joints and 8-corner rectangular bounding boxes of objects as inputs, but they do not capture how the hands and objects interact with each other within the spatial context. In this paper, we present a new framework called Contact-aware Skeletal Action Recognition (CaSAR). It uses novel representations of hand-object interaction that encompass spatial information: 1) contact points where the hand joints meet the objects, 2) distant points where the hand joints are far away from the object and nearly not involved in the current action. Our framework is able to learn how the hands touch or stay away from the objects for each frame of the action sequence, and use this information to predict the action class. We demonstrate that our approach achieves the state-of-the-art accuracy of 91.3% and 98.4% on two public datasets, H2O and FPHA, respectively.
翻訳日:2023-09-20 18:29:18 公開日:2023-09-17
# 文書埋め込みと次元減少を用いたテキストデータの共変量ドリフトの検出

Detecting covariate drift in text data using document embeddings and dimensionality reduction ( http://arxiv.org/abs/2309.10000v1 )

ライセンス: Link先を確認
Vinayak Sodar, Ankit Sekseria(参考訳) テキスト分析モデルの信頼性と性能を維持するためには,テキストデータ中の共変ドリフトの検出が不可欠である。 本研究では,テキストデータ中の共変量ドリフトを識別するための異なる文書埋め込み,次元低減手法,ドリフト検出手法の有効性について検討する。 本稿では,3つの一般的な文書埋め込みについて検討する。Latent semantic Analysis (LSA) とDoc2Vec と BERT は,主成分分析 (PCA) を使わずに次元化を行う。 トレーニングデータ分布とテストデータ分布の相違を定量化するために,kolmogorov-smirnov (ks) 統計と最大平均不一致 (mmd) 検定をドリフト検出法として用いた。 実験の結果, 組込み法, 次元縮小法, ドリフト検出法の組み合わせが, コ変量ドリフトの検出において他の手法よりも優れていることがわかった。 本研究は,テキストデータにおける共変量ドリフトに対処する効果的なアプローチの洞察を提供することにより,信頼性の高いテキスト解析モデルの進歩に寄与する。

Detecting covariate drift in text data is essential for maintaining the reliability and performance of text analysis models. In this research, we investigate the effectiveness of different document embeddings, dimensionality reduction techniques, and drift detection methods for identifying covariate drift in text data. We explore three popular document embeddings: term frequency-inverse document frequency (TF-IDF) using Latent semantic analysis(LSA) for dimentionality reduction and Doc2Vec, and BERT embeddings, with and without using principal component analysis (PCA) for dimensionality reduction. To quantify the divergence between training and test data distributions, we employ the Kolmogorov-Smirnov (KS) statistic and the Maximum Mean Discrepancy (MMD) test as drift detection methods. Experimental results demonstrate that certain combinations of embeddings, dimensionality reduction techniques, and drift detection methods outperform others in detecting covariate drift. Our findings contribute to the advancement of reliable text analysis models by providing insights into effective approaches for addressing covariate drift in text data.
翻訳日:2023-09-20 18:29:02 公開日:2023-09-17
# カテゴリーレベル3次元物体知覚のための最適ポーズと形状推定

Optimal Pose and Shape Estimation for Category-level 3D Object Perception ( http://arxiv.org/abs/2104.08383v4 )

ライセンス: Link先を確認
Jingnan Shi, Heng Yang, Luca Carlone(参考訳) カテゴリーレベルの知覚問題を考えると、与えられたカテゴリーのオブジェクト(例えば車)を3dセンサーデータで認識し、クラス内変動にかかわらずオブジェクトのポーズと形状を再構築する必要がある(例えば、異なるカーモデルが異なる形状を持つ)。 対象のカテゴリに対して、そのカテゴリのオブジェクトを記述する潜在的なcadモデルのライブラリが与えられ、ポーズと形状推定を非凸最適化として定式化する標準的な定式化を採用するアクティブな形状モデルを考える。 第1の貢献は,ポーズと形状推定に最適な最初の解法を提供することである。 特に,回転推定は物体の翻訳と形状の推定から切り離せることを示すとともに,その効果を実証する。 (i)狭い(小さい)半定値緩和により最適な物体回転を計算でき、 (ii) 回転を考慮すれば, 変換パラメータと形状パラメータを閉形式で計算できる。 2つめのコントリビューションは、解法に外れた拒絶層を追加することで、多数の誤検出に対して堅牢にします。 この目的に向けて, 次数非凸性に基づくロバストな推定スキームで最適解法をラップする。 さらに,外乱に対する強靭性を高めるために,外乱の包絡と最大傾角計算による外乱の除去を行うカテゴリレベルの知覚において,最初のグラフ理論定式化を開発し,70%-90%の外乱に対して頑健である。 第3の貢献は、広範な実験的評価です。 シミュレーションデータセットとPASCAL3D+データセットのアブレーションスタディを提供するとともに、解法とディープラーニングキーポイント検出器を組み合わせることで、ApolloScapeデータセットにおける車両の姿勢推定における技術状況よりも、結果として得られるアプローチが改善されることを示す。

We consider a category-level perception problem, where one is given 3D sensor data picturing an object of a given category (e.g. a car), and has to reconstruct the pose and shape of the object despite intra-class variability (i.e. different car models have different shapes). We consider an active shape model, where -- for an object category -- we are given a library of potential CAD models describing objects in that category, and we adopt a standard formulation where pose and shape estimation are formulated as a non-convex optimization. Our first contribution is to provide the first certifiably optimal solver for pose and shape estimation. In particular, we show that rotation estimation can be decoupled from the estimation of the object translation and shape, and we demonstrate that (i) the optimal object rotation can be computed via a tight (small-size) semidefinite relaxation, and (ii) the translation and shape parameters can be computed in closed-form given the rotation. Our second contribution is to add an outlier rejection layer to our solver, hence making it robust to a large number of misdetections. Towards this goal, we wrap our optimal solver in a robust estimation scheme based on graduated non-convexity. To further enhance robustness to outliers, we also develop the first graph-theoretic formulation to prune outliers in category-level perception, which removes outliers via convex hull and maximum clique computations; the resulting approach is robust to 70%-90% outliers. Our third contribution is an extensive experimental evaluation. Besides providing an ablation study on a simulated dataset and on the PASCAL3D+ dataset, we combine our solver with a deep-learned keypoint detector, and show that the resulting approach improves over the state of the art in vehicle pose estimation in the ApolloScape datasets.
翻訳日:2023-09-20 02:30:58 公開日:2023-09-17
# リスクに敏感なdeep rl: 分散制約されたアクター-クリティックはグローバルに最適なポリシーを見つける

Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy ( http://arxiv.org/abs/2012.14098v2 )

ライセンス: Link先を確認
Han Zhong, Xun Deng, Ethan X. Fang, Zhuoran Yang, Zhaoran Wang, Runze Li(参考訳) 深層強化学習は様々なアプリケーションで大きな成功を収めてきたが、既存の作品の多くは、総リターンの期待値の最大化にのみ焦点を合わせ、本質的な確率性を無視している。 このような確率性はアレエータ的不確実性としても知られ、リスクの概念と密接に関連している。 本研究では,分散リスク基準を用いて平均報酬設定下で,リスクに敏感な深層強化学習を初めて研究する。 特に,長期平均報酬の期待値を最大化する政策を,平均報酬の長期分散がしきい値に上限づけられているという制約を条件として,目標とする分散制約付き政策最適化問題に焦点をあてる。 ラグランジアンとフェンシェルの双対性を利用して、元の問題を制約のないサドルポイントポリシー最適化問題に変換し、ポリシー、ラグランジュ乗算器、フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。 値関数とポリシ関数が多層オーバーパラメータ化ニューラルネットワークで表される場合、アクター・クリティカルなアルゴリズムは、サブ線形レートでグローバルに最適なポリシを求める一連のポリシーを生成することを証明します。 さらに,提案手法を2つの実データを用いて数値的に検討し,理論結果を裏付ける。

While deep reinforcement learning has achieved tremendous successes in various applications, most existing works only focus on maximizing the expected value of total return and thus ignore its inherent stochasticity. Such stochasticity is also known as the aleatoric uncertainty and is closely related to the notion of risk. In this work, we make the first attempt to study risk-sensitive deep reinforcement learning under the average reward setting with the variance risk criteria. In particular, we focus on a variance-constrained policy optimization problem where the goal is to find a policy that maximizes the expected value of the long-run average reward, subject to a constraint that the long-run variance of the average reward is upper bounded by a threshold. Utilizing Lagrangian and Fenchel dualities, we transform the original problem into an unconstrained saddle-point policy optimization problem, and propose an actor-critic algorithm that iteratively and efficiently updates the policy, the Lagrange multiplier, and the Fenchel dual variable. When both the value and policy functions are represented by multi-layer overparameterized neural networks, we prove that our actor-critic algorithm generates a sequence of policies that finds a globally optimal policy at a sublinear rate. Further, We provide numerical studies of the proposed method using two real datasets to back up the theoretical results.
翻訳日:2023-09-20 02:30:07 公開日:2023-09-17
# マルチタスク学習と複数行列決定のためのパレート最適探索

Exact Pareto Optimal Search for Multi-Task Learning and Multi-Criteria Decision-Making ( http://arxiv.org/abs/2108.00597v2 )

ライセンス: Link先を確認
Debabrata Mahapatra, Vaibhav Rajan(参考訳) 複数の非凸目的関数と目標固有重みが与えられた場合、チェビシェフ・スカラー化(CS)はエグゼクト・パレート・オプティマル(EPO)を得るためのよく知られたアプローチであり、すなわち、重みの逆によって定義される線と交差するパレート・フロント(PF)上の解である。 CS定式化を用いてEPO解を求める一階最適化器は、収束に影響を与える発振と停滞の実践的な問題に遭遇する。 さらに、PO 解で初期化されると、PF に完全に属する制御された軌道は保証されない。 これらの欠点は、マルチタスク学習(mtl)とマルチクリテリア意思決定(mcdm)法におけるモデリングの限界と計算効率の非効率につながる。 これらの欠点に対処するため,我々は新しいMOO手法 EPO Search を設計した。 EPO 探索は EPO の解に収束し,その計算効率と初期化に対する堅牢性を実証的に示す。 pf 上で初期化されると、epo 探索は pf を追跡し、線形収束率で必要な epo 解に収束することができる。 epo探索を用いた新しいアルゴリズムを開発した。pesa-epoは後方mcdmのpfを近似し、gp-epoはインタラクティブmcdmの選好誘発を行う。 EPO検索は、ディープネットワークのトレーニングに使用可能な決定変数の数と線形にスケールする。 パーソナライズドメディカル、電子商取引、水理学による実データによる実証結果は、深部MTLに対するEPO検索の有効性を示す。

Given multiple non-convex objective functions and objective-specific weights, Chebyshev scalarization (CS) is a well-known approach to obtain an Exact Pareto Optimal (EPO), i.e., a solution on the Pareto front (PF) that intersects the ray defined by the inverse of the weights. First-order optimizers that use the CS formulation to find EPO solutions encounter practical problems of oscillations and stagnation that affect convergence. Moreover, when initialized with a PO solution, they do not guarantee a controlled trajectory that lies completely on the PF. These shortcomings lead to modeling limitations and computational inefficiency in multi-task learning (MTL) and multi-criteria decision-making (MCDM) methods that utilize CS for their underlying non-convex multi-objective optimization (MOO). To address these shortcomings, we design a new MOO method, EPO Search. We prove that EPO Search converges to an EPO solution and empirically illustrate its computational efficiency and robustness to initialization. When initialized on the PF, EPO Search can trace the PF and converge to the required EPO solution at a linear rate of convergence. Using EPO Search we develop new algorithms: PESA-EPO for approximating the PF in a posteriori MCDM, and GP-EPO for preference elicitation in interactive MCDM; experiments on benchmark datasets confirm their advantages over competing alternatives. EPO Search scales linearly with the number of decision variables which enables its use for training deep networks. Empirical results on real data from personalized medicine, e-commerce and hydrometeorology demonstrate the efficacy of EPO Search for deep MTL.
翻訳日:2023-09-20 02:22:57 公開日:2023-09-17
# オンライン不正情報とオフライン抗議の比較研究

A Comparative Study of Online Disinformation and Offline Protests ( http://arxiv.org/abs/2106.11000v3 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 2021年初期、ワシントンのアメリカ合衆国議会議事堂は暴動と暴力的な攻撃で急襲された。 同様の嵐は2023年にブラジルでも発生した。 どちらの攻撃も長い一連の出来事の事例であったが、これらは偽情報の伝播を含むオンライン行動がオフラインの結果をもたらすと主張する多くの観察者にとって証拠となった。 その後間もなく、オンラインの偽情報とオフラインの暴力との関係に関する多くの論文が出版された。 政治的抗議活動の影響は明らかにされていない。 本研究は2000年から2019年の間に125か国の時系列横断検体を用いてその効果を評価する。 結果はまちまちだ。 ベイジアン多レベル回帰モデルに基づく。 (i)オンラインの偽情報とオフラインの抗議の間には効果があるが、その効果の一部は政治的二極化によるものである。 結果は欧州経済圏に属する国のサンプルで明らかになっている。 このサンプルで。 (二)国内政府、政党、政治家及び外国政府によって広められたオンライン偽情報から、オフラインの抗議活動が増加する。 さらに (iii)インターネットのシャットダウンはカウントを減少させる傾向があるが、逆説的に、政府によるソーシャルメディアのオンライン監視の欠如も減少する傾向にある。 これらの結果から, オフライン現象に対する偽情報の影響をモデル化し, 開花時偽情報研究に寄与する。 様々な政策が計画され、既に制定されているため、貢献は重要である。

In early 2021 the United States Capitol in Washington was stormed during a riot and violent attack. A similar storming occurred in Brazil in 2023. Although both attacks were instances in longer sequences of events, these have provided a testimony for many observers who had claimed that online actions, including the propagation of disinformation, have offline consequences. Soon after, a number of papers have been published about the relation between online disinformation and offline violence, among other related relations. Hitherto, the effects upon political protests have been unexplored. This paper thus evaluates such effects with a time series cross-sectional sample of 125 countries in a period between 2000 and 2019. The results are mixed. Based on Bayesian multi-level regression modeling, (i) there indeed is an effect between online disinformation and offline protests, but the effect is partially meditated by political polarization. The results are clearer in a sample of countries belonging to the European Economic Area. With this sample, (ii) offline protest counts increase from online disinformation disseminated by domestic governments, political parties, and politicians as well as by foreign governments. Furthermore, (iii) Internet shutdowns tend to decrease the counts, although, paradoxically, the absence of governmental online monitoring of social media tends to also decrease these. With these results, the paper contributes to the blossoming disinformation research by modeling the impact of disinformation upon offline phenomenon. The contribution is important due to the various policy measures planned or already enacted.
翻訳日:2023-09-20 02:22:25 公開日:2023-09-17
# place dropout: ドメイン一般化のためのプログレッシブ層別およびチャネル別ドロップアウト

PLACE dropout: A Progressive Layer-wise and Channel-wise Dropout for Domain Generalization ( http://arxiv.org/abs/2112.03676v2 )

ライセンス: Link先を確認
Jintao Guo, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) ドメイン一般化(Domain Generalization, DG)は、複数の観測されたソースドメインからジェネリックモデルを学習することを目的としている。 DGの最大の課題は、ソースとターゲットドメイン間のドメインギャップのため、モデルが必然的に過度にオーバーフィットする問題に直面していることだ。 この問題を軽減するため,中間層表現の一部を破棄することでオーバーフィッティングに抵抗するドロップアウト法が提案されている。 しかし,これらの手法のほとんどが,特定の層でのみドロップアウト操作を行うため,モデルに対する正規化効果が不十分であることがわかった。 複数の層にドロップアウトを適用すると、より強い正規化効果がもたらされるため、ソースドメインのオーバーフィッティング問題を従来のレイヤ固有のドロップアウト方法よりも適切に軽減できると我々は主張する。 そこで,本稿では,一層をランダムに選択し,そのチャネルをランダムに選択してドロップアウトを行う,dgのための新しい階層・チャネル・ドロップアウトを開発した。 特に, 提案手法は, オーバーフィッティング問題に対処するため, 様々なデータ変種を生成できる。 また, ドロップアウト法の理論解析を行い, 一般化誤差を効果的に低減できることを示す。 また,本手法を活用し,トレーニング進行に伴うドロップアウト率の向上を図り,モデルのロバスト性を高めるためのトレーニングの難易度を徐々に高めていく。 3つの標準ベンチマークデータセットに対する大規模な実験により、我々の手法はいくつかの最先端DG法より優れていることが示された。 私たちのコードはhttps://github.com/lingeringlight/placedropoutで利用可能です。

Domain generalization (DG) aims to learn a generic model from multiple observed source domains that generalizes well to arbitrary unseen target domains without further training. The major challenge in DG is that the model inevitably faces a severe overfitting issue due to the domain gap between source and target domains. To mitigate this problem, some dropout-based methods have been proposed to resist overfitting by discarding part of the representation of the intermediate layers. However, we observe that most of these methods only conduct the dropout operation in some specific layers, leading to an insufficient regularization effect on the model. We argue that applying dropout at multiple layers can produce stronger regularization effects, which could alleviate the overfitting problem on source domains more adequately than previous layer-specific dropout methods. In this paper, we develop a novel layer-wise and channel-wise dropout for DG, which randomly selects one layer and then randomly selects its channels to conduct dropout. Particularly, the proposed method can generate a variety of data variants to better deal with the overfitting issue. We also provide theoretical analysis for our dropout method and prove that it can effectively reduce the generalization error bound. Besides, we leverage the progressive scheme to increase the dropout ratio with the training progress, which can gradually boost the difficulty of training the model to enhance its robustness. Extensive experiments on three standard benchmark datasets have demonstrated that our method outperforms several state-of-the-art DG methods. Our code is available at https://github.com/lingeringlight/PLACEdropout.
翻訳日:2023-09-20 02:09:44 公開日:2023-09-17
# 量子内部エネルギーの局所的定義に関する制約

A constraint on local definitions of quantum internal energy ( http://arxiv.org/abs/2205.04457v2 )

ライセンス: Link先を確認
Luis Rodrigo Torres Neves, Frederico Brito(参考訳) 量子熱力学の最近の進歩は、1つの量子ビットの限界に近づき、相関関係、強いカップリング、非平衡環境が成立しつつある。 このようなシナリオでは、基本的な物理量を再訪する必要があることは明らかである。 本稿は、オープン量子システムの内部エネルギーの普遍的な定義が考案されるかどうかに疑問を呈し、その可能な性質の限界を設定する。 そのような定義を局所的と見なすためには、開系の還元密度作用素とその時間微分の関数として実装されるべきである。 次に、二階微分を少なくとも含むことを示し、そうでなければ「ユニバース」の既知内部エネルギーを回復することができない。 この一般的な結果の可能性を議論する。

Recent advances in quantum thermodynamics have been focusing on ever more elementary systems of interest, approaching the limit of a single qubit, with correlations, strong coupling and non-equilibrium environments coming into play. Under such scenarios, it is clear that fundamental physical quantities must be revisited. This article questions whether a universal definition of internal energy for open quantum systems may be devised, setting limits on its possible properties. We argue that, for such a definition to be regarded as local, it should be implemented as a functional of the open system's reduced density operator and its time derivatives. Then we show that it should involve at least up to the second-order derivative, otherwise failing to recover the previously-known internal energy of the "universe". Possible implications of this general result are discussed.
翻訳日:2023-09-20 02:03:08 公開日:2023-09-17
# オンデバイス学習: ニューラルネットワークに基づくフィールドトレインブルエッジAI

On-Device Learning: A Neural Network Based Field-Trainable Edge AI ( http://arxiv.org/abs/2203.01077v3 )

ライセンス: Link先を確認
Hiroki Matsutani, Mineto Tsukada, Masaaki Kondo(参考訳) 現実世界のエッジAIアプリケーションでは、ノイズ、センサーの位置/校正、時間関連の変化など、さまざまな環境要因によってその精度が影響されることが多い。 この記事では、深入りせずにこの問題に対処するために、オンデバイス学習アプローチに基づくニューラルネットワークを紹介します。 我々のアプローチは、事実上のバックプロパゲーションベースのトレーニングとは全く異なるが、ローエンドのエッジデバイス向けに調整されている。 本稿では,raspberry pi pi picoと低消費電力無線モジュールからなる無線センサノードのアルゴリズムと実装を紹介する。 回転機械の振動パターンを用いた実験により、デバイス上での学習による再学習は、低消費電力の計算と通信コストを節約しつつ、ノイズ環境における異常検出精度を大幅に向上することを示した。

In real-world edge AI applications, their accuracy is often affected by various environmental factors, such as noises, location/calibration of sensors, and time-related changes. This article introduces a neural network based on-device learning approach to address this issue without going deep. Our approach is quite different from de facto backpropagation based training but tailored for low-end edge devices. This article introduces its algorithm and implementation on a wireless sensor node consisting of Raspberry Pi Pico and low-power wireless module. Experiments using vibration patterns of rotating machines demonstrate that retraining by the on-device learning significantly improves an anomaly detection accuracy at a noisy environment while saving computation and communication costs for low power.
翻訳日:2023-09-20 02:01:35 公開日:2023-09-17
# L4KDE: KinoDynamic Treeの拡張学習

L4KDE: Learning for KinoDynamic Tree Expansion ( http://arxiv.org/abs/2203.00975v2 )

ライセンス: Link先を確認
Tin Lai, Weiming Zhi, Tucker Hermans, Fabio Ramos(参考訳) キノダイナミック計画のためのKinoDynamic Tree Expansion (L4KDE) 法について述べる。 高速探索ランダムツリー(RRT)のような木に基づく計画手法は、連続的な状態空間の運動計画において、グローバルに最適な計画を見つけるための主要なアプローチである。 これらのアプローチの中心は、拡張木(tree-expansion)であり、新しいノードを拡張木に追加する手順である。 本研究では,木系計画のキノダイナミック変種について検討し,システム力学とキネマティック制約が知られている。 新しくサンプリングされた座標を接続するノードを素早く選択することに関心があるため、既存の手法ではサンプリングされた座標に遷移するコストの低いノードを見つけるために最適化できない。 代わりに、座標間のユークリッド距離のようなメトリクスを使って、探索木に接続する候補ノードを選択する。 この問題に対処するためにL4KDEを提案する。 L4KDEはニューラルネットワークを使用してクエリ状態間の遷移コストを予測し、バッチで効率よく計算し、ほぼ確実に漸近的最適性を保証する一方で、一般的に使用されるヒューリスティックスよりもはるかに高い品質の遷移コストを見積もる。 本稿は,L4KDEが持つ様々な課題に対する性能改善を実証的に実証し,同じモデルクラスの異なるインスタンスをまたいで一般化する機能と,最新のツリーベースのモーションプランナのスイートを併用する機能について述べる。

We present the Learning for KinoDynamic Tree Expansion (L4KDE) method for kinodynamic planning. Tree-based planning approaches, such as rapidly exploring random tree (RRT), are the dominant approach to finding globally optimal plans in continuous state-space motion planning. Central to these approaches is tree-expansion, the procedure in which new nodes are added into an ever-expanding tree. We study the kinodynamic variants of tree-based planning, where we have known system dynamics and kinematic constraints. In the interest of quickly selecting nodes to connect newly sampled coordinates, existing methods typically cannot optimise to find nodes that have low cost to transition to sampled coordinates. Instead, they use metrics like Euclidean distance between coordinates as a heuristic for selecting candidate nodes to connect to the search tree. We propose L4KDE to address this issue. L4KDE uses a neural network to predict transition costs between queried states, which can be efficiently computed in batch, providing much higher quality estimates of transition cost compared to commonly used heuristics while maintaining almost-surely asymptotic optimality guarantee. We empirically demonstrate the significant performance improvement provided by L4KDE on a variety of challenging system dynamics, with the ability to generalise across different instances of the same model class, and in conjunction with a suite of modern tree-based motion planners.
翻訳日:2023-09-20 02:01:23 公開日:2023-09-17
# 最適かつロバストなカテゴリーレベル知覚:2次元および3次元意味的キーポイントによる物体のポーズと形状推定

Optimal and Robust Category-level Perception: Object Pose and Shape Estimation from 2D and 3D Semantic Keypoints ( http://arxiv.org/abs/2206.12498v3 )

ライセンス: Link先を確認
Jingnan Shi, Heng Yang, Luca Carlone(参考訳) カテゴリーレベルの知覚問題を考えると、与えられたカテゴリーのオブジェクト(例えば車)を2dまたは3dのセンサーデータで認識し、クラス内の変化にかかわらずオブジェクトの3dポーズと形状を再構築する必要がある(例えば、異なるカーモデルが異なる形状を持つ)。 我々は、オブジェクトカテゴリに対して、そのカテゴリ内のオブジェクトを記述する潜在的CADモデルのライブラリが与えられ、非凸最適化により2Dまたは3Dキーポイントからポーズと形状を推定する標準定式化を採用する。 PACE3D* と PACE2D* は,それぞれ 3D と 2D のキーポイントを用いたポーズと形状推定に最適である。 どちらの解法も厳密な(正確には)半定緩和の設計に依存している。 2つめのコントリビューションは、PACE3D#とPACE2D#という名前の、両方のソルバのアウトリアロバストバージョンを開発することです。 この目標に向けて、我々は、測定値の互換性をモデル化するために互換性ハイパーグラフを使用するprune outliersのための一般的なグラフ理論フレームワークであるrobinを提案する。 カテゴリレベルの知覚問題では、これらのハイパーグラフはキーポイント(2次元)または凸殻(3次元)の巻線順序から構築でき、多くのアウトレーヤは最大超斜め計算によってフィルタリング可能である。 最後の貢献は広範な実験的評価である。 シミュレーションデータセットとPASCAL3D+データセットのアブレーションスタディを提供するのに加えて、当社のソルバとディープキーポイント検出器を組み合わせることで、PACE3D#がApolloScapeデータセットにおける車両のポーズ推定における技術状況を改善し、そのランタイムが実用的なアプリケーションと互換性があることを示します。 コードをhttps://github.com/MIT-SPARK/PACEでリリースします。

We consider a category-level perception problem, where one is given 2D or 3D sensor data picturing an object of a given category (e.g., a car), and has to reconstruct the 3D pose and shape of the object despite intra-class variability (i.e., different car models have different shapes). We consider an active shape model, where -- for an object category -- we are given a library of potential CAD models describing objects in that category, and we adopt a standard formulation where pose and shape are estimated from 2D or 3D keypoints via non-convex optimization. Our first contribution is to develop PACE3D* and PACE2D*, the first certifiably optimal solvers for pose and shape estimation using 3D and 2D keypoints, respectively. Both solvers rely on the design of tight (i.e., exact) semidefinite relaxations. Our second contribution is to develop outlier-robust versions of both solvers, named PACE3D# and PACE2D#. Towards this goal, we propose ROBIN, a general graph-theoretic framework to prune outliers, which uses compatibility hypergraphs to model measurements' compatibility. We show that in category-level perception problems these hypergraphs can be built from the winding orders of the keypoints (in 2D) or their convex hulls (in 3D), and many outliers can be filtered out via maximum hyperclique computation. The last contribution is an extensive experimental evaluation. Besides providing an ablation study on simulated datasets and on the PASCAL3D+ dataset, we combine our solver with a deep keypoint detector, and show that PACE3D# improves over the state of the art in vehicle pose estimation in the ApolloScape datasets, and its runtime is compatible with practical applications. We release our code at https://github.com/MIT-SPARK/PACE.
翻訳日:2023-09-20 01:53:01 公開日:2023-09-17
# DeepCluE: ディープニューラルネットワークにおける多層アンサンブルによる画像クラスタリング

DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep Neural Networks ( http://arxiv.org/abs/2206.00359v2 )

ライセンス: Link先を確認
Dong Huang, Ding-Hua Chen, Xiangji Chen, Chang-Dong Wang, Jian-Huang Lai(参考訳) ディープクラスタリングは、最近、複雑なデータクラスタリングの有望なテクニックとして登場した。 例えば、最後の完全に接続された層上でK平均のクラスタリングを実行したり、クラスタリング損失を特定の層に関連付けることで、ディープクラスタリング性能を高めるために複数の層表現を併用する可能性を無視して、最終的なクラスタリングを構築または学習する。 本稿では,深層ニューラルネットワークにおける複数のレイヤのパワーを活用することで,ディープクラスタリングとアンサンブルクラスタリングのギャップを橋渡しする,アンサンブル(deepclue)アプローチによるディープクラスタリングを提案する。 具体的には、重み共有畳み込みニューラルネットワークをバックボーンとして使用し、インスタンスレベルのコントラスト学習(インスタンスプロジェクタによる)とクラスタレベルのコントラスト学習(クラスタプロジェクタによる)の両方を教師なしの方法でトレーニングする。 その後、訓練されたネットワークから特徴表現の複数の層を抽出し、さらにアンサンブルクラスタリング処理を行う。 具体的には,多層表現から多層クラスタリングを高効率クラスタリングにより生成する。 次に,複数のクラスタリングにおけるクラスタの信頼性を,その集合を重み付きクラスタ二部グラフに再変換したエントロピーベースの基準を利用して自動的に推定する。 この2部グラフを転送カットで分割することで、最終的なコンセンサスクラスタリングが得られる。 6つの画像データセットの実験結果は、最先端のディープクラスタリングアプローチに対するDeepCluEの利点を確認している。

Deep clustering has recently emerged as a promising technique for complex data clustering. Despite the considerable progress, previous deep clustering works mostly build or learn the final clustering by only utilizing a single layer of representation, e.g., by performing the K-means clustering on the last fully-connected layer or by associating some clustering loss to a specific layer, which neglect the possibilities of jointly leveraging multi-layer representations for enhancing the deep clustering performance. In view of this, this paper presents a Deep Clustering via Ensembles (DeepCluE) approach, which bridges the gap between deep clustering and ensemble clustering by harnessing the power of multiple layers in deep neural networks. In particular, we utilize a weight-sharing convolutional neural network as the backbone, which is trained with both the instance-level contrastive learning (via an instance projector) and the cluster-level contrastive learning (via a cluster projector) in an unsupervised manner. Thereafter, multiple layers of feature representations are extracted from the trained network, upon which the ensemble clustering process is further conducted. Specifically, a set of diversified base clusterings are generated from the multi-layer representations via a highly efficient clusterer. Then the reliability of clusters in multiple base clusterings is automatically estimated by exploiting an entropy-based criterion, based on which the set of base clusterings are re-formulated into a weighted-cluster bipartite graph. By partitioning this bipartite graph via transfer cut, the final consensus clustering can be obtained. Experimental results on six image datasets confirm the advantages of DeepCluE over the state-of-the-art deep clustering approaches.
翻訳日:2023-09-20 01:50:20 公開日:2023-09-17
# 画像分類におけるディープニューラルネットワークのモデル量子化に関する包括的調査

A Comprehensive Survey on Model Quantization for Deep Neural Networks in Image Classification ( http://arxiv.org/abs/2205.07877v4 )

ライセンス: Link先を確認
Babak Rokh, Ali Azarpeyvand, Alireza Khanteymoori(参考訳) 近年,Deep Neural Networks(DNN)による機械学習の進歩が注目されている。 高い精度を示す一方で、DNNは膨大な数のパラメータと計算と関連付けられ、高いメモリ使用量とエネルギー消費につながる。 その結果、制約のあるハードウェアリソースを持つデバイスにDNNをデプロイすることは、大きな課題となる。 これを解決するために、DNNアクセラレータの最適化に様々な圧縮技術が広く用いられている。 有望なアプローチは量子化であり、全精度値が低ビット幅精度で格納される。 量子化はメモリ要求を減らすだけでなく、低コスト操作を低コスト操作に置き換える。 DNN量子化はハードウェア設計における柔軟性と効率性を提供し、様々な手法で広く採用されている。 量子化は従来の研究で広く利用されてきたため、異なる量子化アプローチの理解、分析、比較を提供する統合レポートが必要である。 その結果、画像分類に焦点をあてて、量子化の概念と方法の包括的調査を行う。 本稿では,クラスタリングに基づく量子化手法について述べ,全精度値近似のためのスケールファクタパラメータの利用について検討する。 さらに,ストレートスルー推定器と量子化正規化を含む,量子化dnnのトレーニングを徹底的に検討した。 本稿では,量子化DNNにおける浮動小数点演算の低コスト化と,量子化における異なる層の感度について説明する。 さらに,数値化手法の評価指標と画像分類タスクにおける重要なベンチマークについて紹介する。 また,CIFAR-10およびImageNet上での最先端手法の精度を示す。

Recent advancements in machine learning achieved by Deep Neural Networks (DNNs) have been significant. While demonstrating high accuracy, DNNs are associated with a huge number of parameters and computations, which leads to high memory usage and energy consumption. As a result, deploying DNNs on devices with constrained hardware resources poses significant challenges. To overcome this, various compression techniques have been widely employed to optimize DNN accelerators. A promising approach is quantization, in which the full-precision values are stored in low bit-width precision. Quantization not only reduces memory requirements but also replaces high-cost operations with low-cost ones. DNN quantization offers flexibility and efficiency in hardware design, making it a widely adopted technique in various methods. Since quantization has been extensively utilized in previous works, there is a need for an integrated report that provides an understanding, analysis, and comparison of different quantization approaches. Consequently, we present a comprehensive survey of quantization concepts and methods, with a focus on image classification. We describe clustering-based quantization methods and explore the use of a scale factor parameter for approximating full-precision values. Moreover, we thoroughly review the training of a quantized DNN, including the use of a straight-through estimator and quantized regularization. We explain the replacement of floating-point operations with low-cost bitwise operations in a quantized DNN and the sensitivity of different layers in quantization. Furthermore, we highlight the evaluation metrics for quantized methods and important benchmarks in the image classification task. We also present the accuracy of the state-of-the-art methods on CIFAR-10 and ImageNet.
翻訳日:2023-09-20 01:49:17 公開日:2023-09-17
# 量子生成逆ネットワークを用いた異常ユーザ行動の検出と評価

Detection and evaluation of abnormal user behavior based on quantum generation adversarial network ( http://arxiv.org/abs/2208.09834v2 )

ライセンス: Link先を確認
Minghua Pan, Bin Wang, Xiaoling Tao, Shenggen Zheng, Haozhen Situ, Lvzhou Li(参考訳) 量子コンピューティングは、量子状態内の重ね合わせと並列性のユニークな能力を生かして、高次元データを処理する大きな可能性を秘めている。 ノイズの多い中間スケール量子(NISQ)時代を旅するにつれ、量子コンピューティングアプリケーションの探索は魅力的なフロンティアとして現れてきた。 サイバースペースセキュリティ分野における特に関心のある分野は、行動検出と評価(BDE)である。 特に、内部の異常な行動の検出と評価は、しばしば発生することや、大量の正常なデータの中で隠蔽される性質を考えると、重大な課題となる。 本稿では,内部ユーザ分析に適した新しい量子行動検出・評価アルゴリズム(QBDE)を提案する。 QBDEアルゴリズムは、量子生成適応ネットワーク(QGAN)と古典的ニューラルネットワークを組み合わせて、タスクの検出と評価を行う。 qganは、量子ジェネレータ(g_q$)と古典的な判別器(d_c$)を包含するハイブリッドアーキテクチャ上に構築されている。 パラメタライズド量子回路(PQC)として設計された$G_Q$は、古典的なニューラルネットワークである$D_C$と協力して、分析プロセスを総合的に強化する。 不均衡な正と負のサンプルの課題に対処するために、$G_Q$を用いて負のサンプルを生成する。 g_q$ と $d_c$ は勾配降下法によって最適化される。 シミュレーション実験と定量的解析により,内部ユーザ異常の検知および評価におけるQBDEアルゴリズムの有効性を検証した。 本研究は,異常行動の検出と評価に新たなアプローチを導入するだけでなく,量子アルゴリズムの新しい応用シナリオを開拓する。 このパラダイムシフトは、複雑なサイバーセキュリティ問題に取り組む量子コンピューティングの有望な展望の核となる。

Quantum computing holds tremendous potential for processing high-dimensional data, capitalizing on the unique capabilities of superposition and parallelism within quantum states. As we navigate the noisy intermediate-scale quantum (NISQ) era, the exploration of quantum computing applications has emerged as a compelling frontier. One area of particular interest within the realm of cyberspace security is Behavior Detection and Evaluation (BDE). Notably, the detection and evaluation of internal abnormal behaviors pose significant challenges, given their infrequent occurrence or even their concealed nature amidst vast volumes of normal data. In this paper, we introduce a novel quantum behavior detection and evaluation algorithm (QBDE) tailored for internal user analysis. The QBDE algorithm comprises a Quantum Generative Adversarial Network (QGAN) in conjunction with a classical neural network for detection and evaluation tasks. The QGAN is built upon a hybrid architecture, encompassing a Quantum Generator ($G_Q$) and a Classical Discriminator ($D_C$). $G_Q$, designed as a parameterized quantum circuit (PQC), collaborates with $D_C$, a classical neural network, to collectively enhance the analysis process. To address the challenge of imbalanced positive and negative samples, $G_Q$ is employed to generate negative samples. Both $G_Q$ and $D_C$ are optimized through gradient descent techniques. Through extensive simulation tests and quantitative analyses, we substantiate the effectiveness of the QBDE algorithm in detecting and evaluating internal user abnormal behaviors. Our work not only introduces a novel approach to abnormal behavior detection and evaluation but also pioneers a new application scenario for quantum algorithms. This paradigm shift underscores the promising prospects of quantum computing in tackling complex cybersecurity challenges.
翻訳日:2023-09-20 01:43:18 公開日:2023-09-17
# 加速MRIにおける適応拡散前処理

Adaptive Diffusion Priors for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2207.05876v3 )

ライセンス: Link先を確認
Alper G\"ung\"or, Salman UH Dar, \c{S}aban \"Ozt\"urk, Yilmaz Korkmaz, Gokberk Elmas, Muzaffer \"Ozbey, Tolga \c{C}ukur(参考訳) 深部mri再構成は、完全にサンプリングされたデータと一致した画像を復元するために、取得をデサンプリングする条件付きモデルで一般的に行われる。 条件付きモデルは撮像演算子の知識で訓練されるため、可変演算子間の一般化が不十分であることを示すことができる。 非条件モデルは、画像演算子に関連する領域シフトに対する信頼性を改善するために、オペレータから分離された生成イメージを学習する。 最近の拡散モデルはその高い試料忠実度から特に有望である。 それでも、静的なイメージによる推論は、亜最適に実行できる。 本稿では,mri再構成に先立つ第1回適応拡散法であるadadiffを提案し,領域シフトに対する性能と信頼性を向上させる。 adadiffは、大きな逆拡散ステップの逆写像によって訓練された効率的な拡散前処理を利用する。 訓練後、2相の再構成を行う: 訓練済みのプリエントで初期復元を行う急速拡散相と、データ抵抗損失を最小限に抑えるためにプリエントを更新することにより結果をさらに洗練する適応相。 マルチコントラスト脳MRIでは、AdaDiffはドメインシフトの下で競合する条件や非条件の手法より優れており、ドメイン内のパフォーマンスが優れているか同等であることを示す。

Deep MRI reconstruction is commonly performed with conditional models that de-alias undersampled acquisitions to recover images consistent with fully-sampled data. Since conditional models are trained with knowledge of the imaging operator, they can show poor generalization across variable operators. Unconditional models instead learn generative image priors decoupled from the operator to improve reliability against domain shifts related to the imaging operator. Recent diffusion models are particularly promising given their high sample fidelity. Nevertheless, inference with a static image prior can perform suboptimally. Here we propose the first adaptive diffusion prior for MRI reconstruction, AdaDiff, to improve performance and reliability against domain shifts. AdaDiff leverages an efficient diffusion prior trained via adversarial mapping over large reverse diffusion steps. A two-phase reconstruction is executed following training: a rapid-diffusion phase that produces an initial reconstruction with the trained prior, and an adaptation phase that further refines the result by updating the prior to minimize data-consistency loss. Demonstrations on multi-contrast brain MRI clearly indicate that AdaDiff outperforms competing conditional and unconditional methods under domain shifts, and achieves superior or on par within-domain performance.
翻訳日:2023-09-20 01:41:47 公開日:2023-09-17
# 次世代衛星ネットワークのための人工知能技術

Artificial Intelligence Techniques for Next-Generation Mega Satellite Networks ( http://arxiv.org/abs/2207.00414v3 )

ライセンス: Link先を確認
Bassel Al Homssi, Kosta Dakic, Ke Wang, Tansu Alpcan, Ben Allen, Russell Boyce, Sithamparanathan Kandeepan, Akram Al-Hourani, and Walid Saad(参考訳) 宇宙通信、特に巨大な衛星ネットワークは、宇宙打ち上げ、電子工学、処理能力、小型化の大きな進歩により、次世代ネットワークの魅力ある候補として再燃した。 しかし、巨大な衛星ネットワークは、軌道速度、衛星間リンク、短い通過時間、衛星のフットプリントなど、動的でユニークな特徴から、従来のモデルでは実際に使用できない多くの基盤的プロセスと絡み合ったプロセスに依存している。 したがって、ネットワークがリンク内で急速に変化する条件に積極的に適応できるように、新しいアプローチが必要である。 人工知能(AI)は、これらのプロセスを捕捉し、その振る舞いを分析し、ネットワーク上での効果をモデル化する経路を提供する。 本稿では,地上衛星ネットワーク,特に大規模衛星ネットワーク通信におけるai技術の適用について紹介する。 巨大な衛星ネットワークのユニークな特徴を詳述し、現在の通信インフラへの統合と相容れない課題を詳述する。 さらに、この記事では、コミュニケーションリンクのさまざまなレイヤにわたる最先端AI技術に関する洞察を提供する。 これには、高度にダイナミックなラジオチャンネル、スペクトルセンシングと分類、信号検出と復調、衛星間および衛星アクセスネットワーク最適化、ネットワークセキュリティの予測にAIを適用することが含まれる。 さらに,今後のパラダイムと,それらの機構の実用ネットワークへのマッピングについて概説する。

Space communications, particularly massive satellite networks, re-emerged as an appealing candidate for next generation networks due to major advances in space launching, electronics, processing power, and miniaturization. However, massive satellite networks rely on numerous underlying and intertwined processes that cannot be truly captured using conventionally used models, due to their dynamic and unique features such as orbital speed, inter-satellite links, short pass time, and satellite footprint, among others. Hence, new approaches are needed to enable the network to proactively adjust to the rapidly varying conditions associated within the link. Artificial intelligence (AI) provides a pathway to capture these processes, analyze their behavior, and model their effect on the network. This article introduces the application of AI techniques for integrated terrestrial satellite networks, particularly massive satellite network communications. It details the unique features of massive satellite networks, and the overarching challenges concomitant with their integration into the current communication infrastructure. Moreover, this article provides insights into state-of-the-art AI techniques across various layers of the communication link. This entails applying AI for forecasting the highly dynamic radio channel, spectrum sensing and classification, signal detection and demodulation, inter-satellite and satellite access network optimization, and network security. Moreover, future paradigms and the mapping of these mechanisms onto practical networks are outlined.
翻訳日:2023-09-20 01:40:26 公開日:2023-09-17
# Word2Vecを用いた話題の時間的分析

Temporal Analysis on Topics Using Word2Vec ( http://arxiv.org/abs/2209.11717v2 )

ライセンス: Link先を確認
Angad Sandhu, Aneesh Edara, Vishesh Narayan, Faizan Wajid, Ashok Agrawala(参考訳) 本研究では,トレンド検出と可視化の新しい手法を提案する。具体的には,話題の変化を時間とともにモデル化する。 トレンドの識別と視覚化のために現在使われているモデルが, 確率的使用量のカウントに基づいて, 単数語の人気のみを伝える場合, 本研究のアプローチは, 話題が移りつつある人気と方向性を示すものである。 この場合の方向は、選択されたコーパス内で異なるサブトピックである。 このような傾向はk平均クラスタリングとコサイン類似性を用いてトピックの動きをモデル化し、時間とともにクラスタ間の距離をグループ化する。 収束シナリオでは、トピック全体がメッシュである(トピック間のトークンは交換可能である)と推測することができる。 それとは対照的に、発散したシナリオは、各トピックのそれぞれのトークンが同じ文脈で見つからないことを意味する(単語は次第に互いに異なる)。 この方法論は20のnewsgroupsデータセットに存在する様々なメディアハウスからの記事のグループでテストされた。

The present study proposes a novel method of trend detection and visualization - more specifically, modeling the change in a topic over time. Where current models used for the identification and visualization of trends only convey the popularity of a singular word based on stochastic counting of usage, the approach in the present study illustrates the popularity and direction that a topic is moving in. The direction in this case is a distinct subtopic within the selected corpus. Such trends are generated by modeling the movement of a topic by using k-means clustering and cosine similarity to group the distances between clusters over time. In a convergent scenario, it can be inferred that the topics as a whole are meshing (tokens between topics, becoming interchangeable). On the contrary, a divergent scenario would imply that each topics' respective tokens would not be found in the same context (the words are increasingly different to each other). The methodology was tested on a group of articles from various media houses present in the 20 Newsgroups dataset.
翻訳日:2023-09-20 01:30:42 公開日:2023-09-17
# Real2Sim2Real Transferによる微分物理エンジンによるケーブル駆動ロボットの制御

Real2Sim2Real Transfer for Control of Cable-driven Robots via a Differentiable Physics Engine ( http://arxiv.org/abs/2209.06261v4 )

ライセンス: Link先を確認
Kun Wang, William R. Johnson III, Shiyang Lu, Xiaonan Huang, Joran Booth, Rebecca Kramer-Bottiglio, Mridul Aanjaneya, Kostas Bekris(参考訳) 剛体棒とフレキシブルケーブルからなるテンセグリティロボットは、高い強度と重量比と大きな変形を示し、非構造地形をナビゲートし、厳しい衝撃に耐えることができる。 しかし、それらは高次元性、複雑な力学、結合アーキテクチャのために制御が難しい。 物理ベースのシミュレーションは、実際のロボットに転送できるロコモーションポリシーを開発するための有望な道のりだ。 それでも、tensegrityロボットのモデリングは、sim2現実のギャップが大きいため、複雑な作業である。 本論では, 緊張ロボットに対するReal2Sim2Real(R2S2R)戦略について述べる。 この戦略は、実際のロボットからの限られたデータから訓練できる微分可能な物理エンジンに基づいている。 これらのデータには、様々なロボットコンポーネントの質量や形状などの物理的特性のオフライン測定や、ランダムな制御ポリシーを用いた軌道の観測が含まれる。 本物のロボットのデータにより、エンジンは反復的に洗練され、本物のロボットに直接転送可能な移動ポリシーを発見するのに使える。 R2S2Rパイプライン以外にも、この研究の重要な貢献は、接触点における非ゼロ勾配の計算、緊張度軌跡に一致する損失関数、訓練中の勾配評価の矛盾を避ける軌道分割技術などである。 R2S2Rプロセスの複数イテレーションを実3バー張力ロボットで実証し評価した。

Tensegrity robots, composed of rigid rods and flexible cables, exhibit high strength-to-weight ratios and significant deformations, which enable them to navigate unstructured terrains and survive harsh impacts. They are hard to control, however, due to high dimensionality, complex dynamics, and a coupled architecture. Physics-based simulation is a promising avenue for developing locomotion policies that can be transferred to real robots. Nevertheless, modeling tensegrity robots is a complex task due to a substantial sim2real gap. To address this issue, this paper describes a Real2Sim2Real (R2S2R) strategy for tensegrity robots. This strategy is based on a differentiable physics engine that can be trained given limited data from a real robot. These data include offline measurements of physical properties, such as mass and geometry for various robot components, and the observation of a trajectory using a random control policy. With the data from the real robot, the engine can be iteratively refined and used to discover locomotion policies that are directly transferable to the real robot. Beyond the R2S2R pipeline, key contributions of this work include computing non-zero gradients at contact points, a loss function for matching tensegrity locomotion gaits, and a trajectory segmentation technique that avoids conflicts in gradient evaluation during training. Multiple iterations of the R2S2R process are demonstrated and evaluated on a real 3-bar tensegrity robot.
翻訳日:2023-09-20 01:29:59 公開日:2023-09-17
# 仮定リーン変数の有意性テストのための予測共分散測定

The Projected Covariance Measure for assumption-lean variable significance testing ( http://arxiv.org/abs/2211.02039v3 )

ライセンス: Link先を確認
Anton Rask Lundborg, Ilmun Kim, Rajen D. Shah and Richard J. Samworth(参考訳) 変数や変数のグループの重要性をテストする $x$ 応答を予測するために$y$ を追加して covariates $z$ とすると、統計学におけるユビキタスなタスクである。 単純だが一般的なアプローチは線形モデルを特定し、x$ の回帰係数が 0 でないかどうかを調べることである。 しかし、モデルが不特定の場合、例えば、$X$が複雑な相互作用に関与している場合や、多くの偽の拒絶を引き起こす場合など、テストは力不足となる。 本研究では、条件付き平均独立性のモデルフリーなnullをテストする問題、すなわち条件付き平均の$Y$が$X$、$Z$が$X$に依存しないことを研究する。 本稿では,適応モデルやランダムフォレストなどの柔軟な非パラメトリックあるいは機械学習手法を利用して,堅牢なエラー制御と高出力を実現する,シンプルで汎用的なフレームワークを提案する。 この手順では、これらの方法を使って回帰を行い、まずデータの半分を使ってx$とz$で$y$の投射形式を推定し、その後、この投射法と残りのデータで$y$の期待条件共分散を推定する。 提案手法は一般に行われているが,この非パラメトリックテスト問題において,スプライン回帰を用いた手法のバージョンが極小最適率を達成できることを示す。 いくつかの既存手法と比較して,I型エラー制御とパワーの両面において,本手法の有効性を示す数値実験を行った。

Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
翻訳日:2023-09-20 01:22:42 公開日:2023-09-17
# モーダル論理による統計的因果関係の定式化

Formalizing Statistical Causality via Modal Logic ( http://arxiv.org/abs/2210.16751v5 )

ライセンス: Link先を確認
Yusuke Kawamoto, Tetsuya Sato, Kohei Suenaga(参考訳) 統計的因果関係を記述・説明するための形式言語を提案する。 具体的には,統計的因果関係言語(StaCL)を定義し,因果関係の条件を規定する。 staclは、クリプケモデルにおいて、異なる可能な世界における確率分布間の因果特性を表現するために介入のためにモード演算子を組み込んでいる。 確率分布,介入,因果述語に対する公理を StaCL 式を用いて定式化する。 これらの公理はパールのdo-calculusの規則を導出するのに十分表現的である。 最後に,StaCLを用いて統計的因果推論の正しさを特定・説明できることを示す。

We propose a formal language for describing and explaining statistical causality. Concretely, we define Statistical Causality Language (StaCL) for expressing causal effects and specifying the requirements for causal inference. StaCL incorporates modal operators for interventions to express causal properties between probability distributions in different possible worlds in a Kripke model. We formalize axioms for probability distributions, interventions, and causal predicates using StaCL formulas. These axioms are expressive enough to derive the rules of Pearl's do-calculus. Finally, we demonstrate by examples that StaCL can be used to specify and explain the correctness of statistical causal inference.
翻訳日:2023-09-20 01:22:12 公開日:2023-09-17
# FedALA: 個人化フェデレーション学習のための適応的ローカルアグリゲーション

FedALA: Adaptive Local Aggregation for Personalized Federated Learning ( http://arxiv.org/abs/2212.01197v4 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, Haibing Guan(参考訳) 連合学習(FL)における重要な課題は、各クライアントにおけるグローバルモデルの一般化を損なう統計的不均一性である。 そこで本研究では,クライアントモデルのグローバルモデルにおける所望情報をパーソナライズしたflで捉えることで,適応局所アグリゲーション(fedala)を用いたフェデレート学習を提案する。 fedalaの重要なコンポーネントはadaptive local aggregation(ala)モジュールで、ダウンロードされたグローバルモデルとローカルモデルを各クライアントのローカル目標に向けて適応的に集約し、各イテレーションでトレーニングする前にローカルモデルを初期化することができる。 FedALAの有効性を評価するため、コンピュータビジョンと自然言語処理領域における5つのベンチマークデータセットを用いて広範な実験を行った。 FedALAは11の最先端のベースラインを最大3.27%の精度で上回っている。 さらに、ALAモジュールを他のフェデレーション学習手法に適用し、テスト精度を最大24.19%向上させる。

A key challenge in federated learning (FL) is the statistical heterogeneity that impairs the generalization of the global model on each client. To address this, we propose a method Federated learning with Adaptive Local Aggregation (FedALA) by capturing the desired information in the global model for client models in personalized FL. The key component of FedALA is an Adaptive Local Aggregation (ALA) module, which can adaptively aggregate the downloaded global model and local model towards the local objective on each client to initialize the local model before training in each iteration. To evaluate the effectiveness of FedALA, we conduct extensive experiments with five benchmark datasets in computer vision and natural language processing domains. FedALA outperforms eleven state-of-the-art baselines by up to 3.27% in test accuracy. Furthermore, we also apply ALA module to other federated learning methods and achieve up to 24.19% improvement in test accuracy.
翻訳日:2023-09-20 01:10:38 公開日:2023-09-17
# 不均一なディファレンシャルプライバシを持つ分散行列分解

Decentralized Matrix Factorization with Heterogeneous Differential Privacy ( http://arxiv.org/abs/2212.00306v2 )

ライセンス: Link先を確認
Wentao Hu and Hui Fang(参考訳) 従来のマトリックスファクタリングは、ユーザのレコメンデーションのための集中的なデータ収集に依存しているため、特にレコメンデータが信頼できない場合には、プライバシリークのリスクが高まる可能性がある。 既存のプライベートな行列因数分解手法は、推奨者が信頼されていると仮定するか、または信頼できない推奨者を持つすべてのユーザやアイテムに対して、一様にプライバシー保護を提供することができる。 本稿では,信頼度の低いレコメンデータに対して,不均一な微分プライベート行列分解アルゴリズム(hdpmf)を提案する。 我々の知る限りでは、信頼できないレコメンデータシナリオにおいて、分散行列分解のための異種差分プライバシーを最初に達成する。 具体的には,改良されたストレッチ機構と革新的なリスケーリングスキームを用いて,プライバシと精度のトレードオフを改善する。 一方,プライバシ予算を適切に割り当てることで,ユーザ/イット内の均質なプライバシの選好を,異なるユーザ/イット間の異質なプライバシの選好を捉えることができる。 理論的分析により、hdpmfは厳密なプライバシ保証を実現しており、徹底的な実験は特に強力なプライバシ保証、高次元モデル、スパースデータセットシナリオにおいてその優位性を示している。

Conventional matrix factorization relies on centralized collection of users' data for recommendation, which might introduce an increased risk of privacy leakage especially when the recommender is untrusted. Existing differentially private matrix factorization methods either assume the recommender is trusted, or can only provide a uniform level of privacy protection for all users and items with untrusted recommender. In this paper, we propose a novel Heterogeneous Differentially Private Matrix Factorization algorithm (denoted as HDPMF) for untrusted recommender. To the best of our knowledge, we are the first to achieve heterogeneous differential privacy for decentralized matrix factorization in untrusted recommender scenario. Specifically, our framework uses modified stretching mechanism with an innovative rescaling scheme to achieve better trade off between privacy and accuracy. Meanwhile, by allocating privacy budget properly, we can capture homogeneous privacy preference within a user/item but heterogeneous privacy preference across different users/items. Theoretical analysis confirms that HDPMF renders rigorous privacy guarantee, and exhaustive experiments demonstrate its superiority especially in strong privacy guarantee, high dimension model and sparse dataset scenario.
翻訳日:2023-09-20 01:10:20 公開日:2023-09-17
# ドーナツ核を用いたパターン注目トランス

Pattern Attention Transformer with Doughnut Kernel ( http://arxiv.org/abs/2211.16961v5 )

ライセンス: Link先を確認
WenYuan Sheng(参考訳) 本稿では,新しいドーナツカーネルからなる新しいアーキテクチャであるPattern Attention Transformer(PAT)を提案する。 NLPフィールドのトークンと比較すると、コンピュータビジョンのトランスフォーマーは画像中のピクセルの高解像度処理に問題がある。 ViTでは、画像を正方形のパッチにカットする。 ViTの後継として、Swin Transformerは、モデルの最小単位として「2つの連結Swin Transformerブロック」を発生させる固定境界の存在を減らすための追加ステップを提案する。 パッチ/ウィンドウのアイデアを継承することで、downutカーネルはパッチの設計をさらに強化します。 ラインカットの境界を、センサーと更新という2つのタイプの領域に置き換える。 ドーナツカーネルはまた、正方形を超えてカーネルの形に関する新しいトピックをもたらす。 画像分類の性能を検証するため、PATは通常の八角形ドーナツカーネルのトランスフォーマーブロックを用いて設計されている。 そのアーキテクチャはより軽量で、最小のパターン注意層は各ステージに1つしかない。 同様の計算の複雑さの下で、imagenet 1kの性能は高いスループット(+10%)に達し、スウィントランス(+0.8acc1)を超える。

We present in this paper a new architecture, the Pattern Attention Transformer (PAT), that is composed of the new doughnut kernel. Compared with tokens in the NLP field, Transformer in computer vision has the problem of handling the high resolution of pixels in images. In ViT, an image is cut into square-shaped patches. As the follow-up of ViT, Swin Transformer proposes an additional step of shifting to decrease the existence of fixed boundaries, which also incurs 'two connected Swin Transformer blocks' as the minimum unit of the model. Inheriting the patch/window idea, our doughnut kernel enhances the design of patches further. It replaces the line-cut boundaries with two types of areas: sensor and updating, which is based on the comprehension of self-attention (named QKVA grid). The doughnut kernel also brings a new topic about the shape of kernels beyond square. To verify its performance on image classification, PAT is designed with Transformer blocks of regular octagon shape doughnut kernels. Its architecture is lighter: the minimum pattern attention layer is only one for each stage. Under similar complexity of computation, its performances on ImageNet 1K reach higher throughput (+10%) and surpass Swin Transformer (+0.8 acc1).
翻訳日:2023-09-20 01:09:57 公開日:2023-09-17
# フェルミオンニューラルネットワークを用いた効率的な量子適応機械学習

Efficient and quantum-adaptive machine learning with fermion neural networks ( http://arxiv.org/abs/2211.05793v3 )

ライセンス: Link先を確認
Pei-Lin Zheng, Jia-Bao Wang and Yi Zhang(参考訳) 古典的なニューラルネットワークは、機械学習アプリケーションで広く成功している。 本稿では,入力が初期層として組み込まれると,状態の局所密度や条件伝導などの物理特性が出力として機能するフェルミオンニューラルネットワーク(FNN)を提案する。 バックプロパゲーションと比較して、FNNに挑戦する機械学習ベンチマークの競合性能を付与する効率的な最適化を確立する。 fnnは、相互作用を持つハードシステムを含む量子システムにも直接適用でき、前処理や推定なしでその場分析を提供する。 機械学習に続いて、fnnはトポロジカルフェーズと創発電荷順序を正確に決定する。 量子相関は、より一般的なネットワーク接続と、消滅する勾配問題に対する洞察を与え、量子絡み合いは、解釈可能な機械学習のための新しい道を開くなど、様々な利点をもたらす。

Classical artificial neural networks have witnessed widespread successes in machine-learning applications. Here, we propose fermion neural networks (FNNs) whose physical properties, such as local density of states or conditional conductance, serve as outputs, once the inputs are incorporated as an initial layer. Comparable to back-propagation, we establish an efficient optimization, which entitles FNNs to competitive performance on challenging machine-learning benchmarks. FNNs also directly apply to quantum systems, including hard ones with interactions, and offer in-situ analysis without preprocessing or presumption. Following machine learning, FNNs precisely determine topological phases and emergent charge orders. Their quantum nature also brings various advantages: quantum correlation entitles more general network connectivity and insight into the vanishing gradient problem, quantum entanglement opens up novel avenues for interpretable machine learning, etc.
翻訳日:2023-09-20 01:08:26 公開日:2023-09-17
# 自己指導型学習に関するサーベイ:アルゴリズム,応用,将来の動向

A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends ( http://arxiv.org/abs/2301.05712v3 )

ライセンス: Link先を確認
Jie Gui, Tuo Chen, Jing Zhang, Qiong Cao, Zhenan Sun, Hao Luo, Dacheng Tao(参考訳) 深い教師付き学習アルゴリズムは通常、十分な性能を達成するために大量のラベル付きデータを必要とする。 しかし、そのようなデータの収集とラベリングのプロセスは高価で時間がかかります。 教師なし学習のサブセットである自己教師付き学習(SSL)は、ラベル付きラベルに頼ることなくラベル付きデータから識別的特徴を学習することを目的としている。 SSLは最近大きな注目を集め、多くの関連するアルゴリズムの開発につながった。 しかし、さまざまなSSL変異体の接続と進化を解明する包括的な研究が数多く存在する。 本稿では,アルゴリズム的側面,アプリケーション領域,3つの重要なトレンド,オープンな研究課題を含む多様なSSL手法のレビューを行う。 まず、ほとんどのSSLアルゴリズムの背後にあるモチベーションの詳細を紹介し、それらの共通点と相違点を比較します。 次に,画像処理,コンピュータビジョン,自然言語処理などの分野におけるsslの代表的な応用について検討する。 最後に、SSL研究で観察される3つの主要なトレンドについて論じ、残るオープンな疑問を強調します。 貴重なリソースのキュレーションされたコレクションは、https://github.com/guijiejie/sslでアクセスできる。

Deep supervised learning algorithms typically require a large volume of labeled data to achieve satisfactory performance. However, the process of collecting and labeling such data can be expensive and time-consuming. Self-supervised learning (SSL), a subset of unsupervised learning, aims to learn discriminative features from unlabeled data without relying on human-annotated labels. SSL has garnered significant attention recently, leading to the development of numerous related algorithms. However, there is a dearth of comprehensive studies that elucidate the connections and evolution of different SSL variants. This paper presents a review of diverse SSL methods, encompassing algorithmic aspects, application domains, three key trends, and open research questions. Firstly, we provide a detailed introduction to the motivations behind most SSL algorithms and compare their commonalities and differences. Secondly, we explore representative applications of SSL in domains such as image processing, computer vision, and natural language processing. Lastly, we discuss the three primary trends observed in SSL research and highlight the open questions that remain. A curated collection of valuable resources can be accessed at https://github.com/guijiejie/SSL.
翻訳日:2023-09-20 01:00:07 公開日:2023-09-17
# ポインタジェネレータネットワークとSciBERT埋め込みを用いた研究論文からのハイライト生成

Generation of Highlights from Research Papers Using Pointer-Generator Networks and SciBERT Embeddings ( http://arxiv.org/abs/2302.07729v3 )

ライセンス: Link先を確認
Tohida Rehman, Debarshi Kumar Sanyal, Samiran Chattopadhyay, Plaban Kumar Bhowmick, Partha Pratim Das(参考訳) 近年,本論文の主な知見を要約する研究論文が多数発表されている。 ハイライトは、研究者が論文のコントリビューションを正確かつ迅速に特定するのに役立つだけでなく、検索エンジンによる発見可能性を高める。 研究論文の特定の部分について,研究ハイライトを自動的に作成することを目的としている。 我々は,入力トークンをSciBERT埋め込みにエンコードする入力に,カバレッジ機構を備えたポインタジェネレータネットワークとコンテキスト埋め込み層を使用する。 我々は、ベンチマークデータセットCSPubSumでモデルをテストし、また、自動研究ハイライト生成のための新しい論文の多分野コーパスであるMixSubを提示する。 CSPubSum と MixSub の両モデルにおいて,提案モデルが関連する変種や文献で提案する他のモデルと比較して,最高の性能を達成できることを示した。 CSPubSumデータセットでは,入力が紙の抽象的な部分のみである場合に,他の部分に対して最高の性能が得られる。 ROUGE-1、ROUGE-2、ROUGE-L F1スコアは38.26、14.26、35.51、METEORスコアは32.62、BERTScore F1は86.65で、全てのベースラインを上回っている。 新しいMixSubデータセットにおいて,提案したモデル(対象カテゴリを区別せずにトレーニングコーパス全体をトレーニングした場合)は,それぞれ31.78,9.76,29.3のROUGE-1,ROUGE-2,ROUGE-L F1スコア,METEORスコア24.00,BERTScore F1,85.25のそれぞれを達成する。

Nowadays many research articles are prefaced with research highlights to summarize the main findings of the paper. Highlights not only help researchers precisely and quickly identify the contributions of a paper, they also enhance the discoverability of the article via search engines. We aim to automatically construct research highlights given certain segments of a research paper. We use a pointer-generator network with coverage mechanism and a contextual embedding layer at the input that encodes the input tokens into SciBERT embeddings. We test our model on a benchmark dataset, CSPubSum, and also present MixSub, a new multi-disciplinary corpus of papers for automatic research highlight generation. For both CSPubSum and MixSub, we have observed that the proposed model achieves the best performance compared to related variants and other models proposed in the literature. On the CSPubSum dataset, our model achieves the best performance when the input is only the abstract of a paper as opposed to other segments of the paper. It produces ROUGE-1, ROUGE-2 and ROUGE-L F1-scores of 38.26, 14.26 and 35.51, respectively, METEOR score of 32.62, and BERTScore F1 of 86.65 which outperform all other baselines. On the new MixSub dataset, where only the abstract is the input, our proposed model (when trained on the whole training corpus without distinguishing between the subject categories) achieves ROUGE-1, ROUGE-2 and ROUGE-L F1-scores of 31.78, 9.76 and 29.3, respectively, METEOR score of 24.00, and BERTScore F1 of 85.25.
翻訳日:2023-09-20 00:50:55 公開日:2023-09-17
# 効率的な運転戦略の開発 : スキルベース階層強化学習アプローチ

Developing Driving Strategies Efficiently: A Skill-Based Hierarchical Reinforcement Learning Approach ( http://arxiv.org/abs/2302.02179v2 )

ライセンス: Link先を確認
Yigit Gurses, Kaan Buyukdemirci, and Yildiray Yildiz(参考訳) 人間と自律運転者による密集した交通を運転することは、高いレベルの計画と推論を必要とする課題である。 人間ドライバーはこのタスクを快適に達成することができ、人間のドライバー戦略をモデル化するための多くの取り組みがあった。 これらの戦略は、自律運転アルゴリズムの開発や高忠実度シミュレータ作成のインスピレーションとして使用できる。 強化学習はドライバーポリシーをモデル化するための一般的なツールであるが、これらのモデルの従来のトレーニングは計算コストが高く、時間がかかる。 本稿では,この問題を解決するために,モーションプリミティブをハイレベルなアクションとして設計・使用するための,‘スキルベース’階層型駆動戦略を提案する。 これにより、振る舞いの異なる複数のモデルを必要とするアプリケーションのトレーニング時間を短縮する。 シミュレーションにより,提案手法は,ベースライン強化学習法と比較して,少ないトレーニングで高い性能を達成できるドライバモデルが得られることを示した。

Driving in dense traffic with human and autonomous drivers is a challenging task that requires high-level planning and reasoning. Human drivers can achieve this task comfortably, and there has been many efforts to model human driver strategies. These strategies can be used as inspirations for developing autonomous driving algorithms or to create high-fidelity simulators. Reinforcement learning is a common tool to model driver policies, but conventional training of these models can be computationally expensive and time-consuming. To address this issue, in this paper, we propose ``skill-based" hierarchical driving strategies, where motion primitives, i.e. skills, are designed and used as high-level actions. This reduces the training time for applications that require multiple models with varying behavior. Simulation results in a merging scenario demonstrate that the proposed approach yields driver models that achieve higher performance with less training compared to baseline reinforcement learning methods.
翻訳日:2023-09-20 00:49:54 公開日:2023-09-17
# ナビゲーションの中間レベル表現としての仮想ガイダンス

Virtual Guidance as a Mid-level Representation for Navigation ( http://arxiv.org/abs/2303.02731v2 )

ライセンス: Link先を確認
Hsuan-Kung Yang, Tsung-Chih Chiang, Ting-Ru Liu, Chun-Wei Huang, Jou-Min Liu, Chun-Yi Lee(参考訳) 自律ナビゲーションの文脈では、動的環境のエージェントに抽象的なナビゲーションキューを効果的に伝達することは、特にナビゲーション情報がマルチモーダルである場合、課題を引き起こす。 この問題に対処するために,非視覚的指示信号の視覚的表現を目的とした「仮想誘導」と呼ばれる新しい手法を提案する。 これらの視覚的な手がかりは、色付きパスまたは球面として表現され、エージェントのカメラビューにオーバーレイされ、容易に理解可能なナビゲーション指示として機能する。 本手法はシミュレーションと実環境における実験を通して評価する。 シミュレーション環境では,仮想ガイダンスは,計画経路の順守や障害物回避など,ベースラインハイブリッドアプローチよりも優れている。 さらに,実世界実験のために,テキスト入力に基づく命令を視覚的に直感的な形式に変換するための仮想指導の概念を拡張する。 本研究は,仮想ガイダンスの適応性とその効果を検証し,シミュレーションシナリオから実世界へのポリシー移行を可能にする。

In the context of autonomous navigation, effectively conveying abstract navigational cues to agents in dynamic environments poses challenges, particularly when the navigation information is multimodal. To address this issue, the paper introduces a novel technique termed "Virtual Guidance," which is designed to visually represent non-visual instructional signals. These visual cues, rendered as colored paths or spheres, are overlaid onto the agent's camera view, serving as easily comprehensible navigational instructions. We evaluate our proposed method through experiments in both simulated and real-world settings. In the simulated environments, our virtual guidance outperforms baseline hybrid approaches in several metrics, including adherence to planned routes and obstacle avoidance. Furthermore, we extend the concept of virtual guidance to transform text-prompt-based instructions into a visually intuitive format for real-world experiments. Our results validate the adaptability of virtual guidance and its efficacy in enabling policy transfer from simulated scenarios to real-world ones.
翻訳日:2023-09-20 00:41:04 公開日:2023-09-17
# マニピュレーションのためのSim-and-Real Reinforcement Learning: 合意に基づくアプローチ

Sim-and-Real Reinforcement Learning for Manipulation: A Consensus-based Approach ( http://arxiv.org/abs/2302.13423v2 )

ライセンス: Link先を確認
Wenxing Liu, Hanlin Niu, Wei Pan, Guido Herrmann, Joaquin Carrasco(参考訳) Sim-and-realトレーニングは、ロボット操作のためのsim-to-realトレーニングに代わる有望な代替手段である。 しかし、現在のsim-and-realトレーニングは、最適なポリシーへの収束が遅く、また、実世界の大きさのロボットデータも効率的ではない。 時間とハードウェアの予算が限られているため、sim-and-realトレーニングのパフォーマンスは満足できない。 本稿では,シミュレーションと実世界で同等の性能を示すマニピュレータのピック・アンド・プレースタスクのためのコンセンサスベースsim・アンド・リアル深層強化学習アルゴリズム(csar)を提案する。 このアルゴリズムでは,シミュレーションと実世界のエージェントを訓練し,シミュレーションと実世界の双方の最適なポリシーを得る。 1)シミュレーションにおける最良のポリシーは、シム・アンド・リアルなトレーニングには最適ではない。 2) シミュレーションエージェントが多ければ多いほど,シム・アンド・リアルなトレーニングが向上する。 実験ビデオは、https://youtu.be/mchjtnisteqで見ることができる。

Sim-and-real training is a promising alternative to sim-to-real training for robot manipulations. However, the current sim-and-real training is neither efficient, i.e., slow convergence to the optimal policy, nor effective, i.e., sizeable real-world robot data. Given limited time and hardware budgets, the performance of sim-and-real training is not satisfactory. In this paper, we propose a Consensus-based Sim-And-Real deep reinforcement learning algorithm (CSAR) for manipulator pick-and-place tasks, which shows comparable performance in both sim-and-real worlds. In this algorithm, we train the agents in simulators and the real world to get the optimal policies for both sim-and-real worlds. We found two interesting phenomenons: (1) Best policy in simulation is not the best for sim-and-real training. (2) The more simulation agents, the better sim-and-real training. The experimental video is available at: https://youtu.be/mcHJtNIsTEQ.
翻訳日:2023-09-20 00:39:29 公開日:2023-09-17
# AIプログラミングアシスタントのユーザビリティに関する大規模調査:成功と挑戦

A Large-Scale Survey on the Usability of AI Programming Assistants: Successes and Challenges ( http://arxiv.org/abs/2303.17125v2 )

ライセンス: Link先を確認
Jenny T. Liang, Chenyang Yang, Brad A. Myers(参考訳) ソフトウェアエンジニアリングコミュニティは先頃、GitHub Copilotなど、AIプログラミングアシスタントの広範な展開を目撃した。 しかし、実際には、開発者は高い頻度でaiプログラミングアシスタントの最初の提案を受け入れない。 これにより、これらのツールのユーザビリティに関する多くのオープンな疑問が残る。 これらのツールを使用して開発者のプラクティスを理解し、彼らが直面する重要なユーザビリティ上の課題を理解するために、多数の開発者を対象に調査を実施し、さまざまな410人の開発者から回答を得た。 質的な分析と定量的分析の混合により、開発者はAIプログラミングアシスタントを使用する動機が最も高いのは、開発者がキーストロークを減らし、プログラミングタスクを素早く終了し、構文をリコールするのを助けるが、潜在的なソリューションをブレインストーミングするためにそれを使うことに共鳴しないためである。 また、開発者がこれらのツールを使用しない最も重要な理由は、これらのツールが特定の機能的あるいは非機能的要件に対処するコードを出力していないことと、開発者がツールを制御して所望の出力を生成するのに苦労しているためである。 私たちの発見は、AIプログラミングアシスタントのクリエーターとユーザの両方にとって、プログラミング中のユーザの気を散らすために、これらのツールとの最小限の認知的取り組みインタラクションを設計するなど、意味があります。

The software engineering community recently has witnessed widespread deployment of AI programming assistants, such as GitHub Copilot. However, in practice, developers do not accept AI programming assistants' initial suggestions at a high frequency. This leaves a number of open questions related to the usability of these tools. To understand developers' practices while using these tools and the important usability challenges they face, we administered a survey to a large population of developers and received responses from a diverse set of 410 developers. Through a mix of qualitative and quantitative analyses, we found that developers are most motivated to use AI programming assistants because they help developers reduce key-strokes, finish programming tasks quickly, and recall syntax, but resonate less with using them to help brainstorm potential solutions. We also found the most important reasons why developers do not use these tools are because these tools do not output code that addresses certain functional or non-functional requirements and because developers have trouble controlling the tool to generate the desired output. Our findings have implications for both creators and users of AI programming assistants, such as designing minimal cognitive effort interactions with these tools to reduce distractions for users while they are programming.
翻訳日:2023-09-20 00:30:40 公開日:2023-09-17
# 閉じ込められたイオンによる量子コンピューティング:初心者のガイド

Quantum computing with trapped ions: a beginner's guide ( http://arxiv.org/abs/2303.16358v3 )

ライセンス: Link先を確認
Francesco Bernardini, Abhijit Chakraborty, and Carlos Ord\'o\~nez(参考訳) この論文は、スケーラブルな量子コンピュータを構築する潜在的なプラットフォームの1つであるトラップイオン量子コンピューティングの基礎を解明するものである。 DiVincenzoの基準に従って,量子コンピューティングにおけるトラップイオン系の生存性の評価を行った。

This pedagogical article elucidates the fundamentals of trapped-ion quantum computing, which is one of the potential platforms for constructing a scalable quantum computer. The evaluation of a trapped-ion system's viability for quantum computing is conducted in accordance with DiVincenzo's criteria.
翻訳日:2023-09-20 00:30:21 公開日:2023-09-17
# リトレーニングのない変圧器モデルにおけるブロックワイズ圧縮

Blockwise Compression of Transformer-based Models without Retraining ( http://arxiv.org/abs/2304.01483v2 )

ライセンス: Link先を確認
Gaochen Dong, Wei Chen(参考訳) GPT-3、ChatGPT、GPT-4で実証されたトランスフォーマーベースのモデルは、最近、一般的な言語タスクにおける有望な性能のために、学術と産業の両方でかなりの注目を集めている。 しかしながら、これらのモデルは典型的には計算的符号化プロセスを含み、場合によってはデコードプロセスも含む。 これらの操作は巨大な計算資源と巨大なメモリフットプリントという必然的な課題をもたらし、それぞれ10^23 FLOPと数百ギガバイト以上を必要とする。 この問題に対処する一般的な方法は、トランスフォーマーに層状量子化を適用し、通常のfp32データ型を低ビット等価に置き換えることで、計算とメモリの要求を減らすことである。 残念なことに、この手法はしばしばモデルの精度を低下させ、時間を要する再トレーニングを必要とします。 このようなリトレーニングは、微調整スキルだけでなく、かなりの計算資源を必要とする。 これらの問題に特に対処するために,モデル展開を容易にすることを目的とした,変換器のブロックワイズ圧縮フレームワークであるBCTを提案する。 層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。 この方法は量子化によるデータ分布偏差を緩和し、再トレーニングの必要をなくす。 bctは、埋め込み、行列乗算、ゲル、ソフトマックス、層正規化、中間結果を含む、モデルのすべてのコンポーネントを効果的に圧縮する。 ケーススタディでは、BCTにより最大7.988倍の圧縮が可能な効率的なモデルが圧縮される。 その後,いくつかの一般言語理解評価(GLUE)データセット上で評価を行った。

Transformer-based models, exemplified by GPT-3, ChatGPT, and GPT-4, have recently garnered considerable attention in both academia and industry due to their promising performance in general language tasks. Nevertheless, these models typically involve computationally encoding processes, and in some cases, decoding processes as well, both of which are fundamentally large-scale matrix multiplication. These operations bring the inevitable challenges of massive computation resources and huge memory footprint, usually requiring at least 10^23 FLOPs and hundreds of gigabytes, respectively. A common method to address this issue is to reduce the computational and memory requirements by applying layerwise quantization to the transformer, replacing the usual fp32 data type with a low-bit equivalent. Unfortunately, this method often leads to decreased model accuracy and necessitates time-consuming retraining. Such retraining not only requires fine-tuning skills but also substantial computational resources, posing challenges for users. To specifically tackle these issues, we propose BCT, a framework of blockwise compression for transformers without retraining, aiming to facilitate model deployment. Unlike layerwise compression methods, BCT achieves finer compression of the entire transformer by operating blockwise. This method mitigates data distribution deviation caused by quantization, eliminating the requirement for retraining. BCT effectively compresses all components of the model, including but not limited to the embedding, matrix multiplication, GELU, Softmax, layer normalization, and intermediate results. In a case study, an efficient model is compressed by BCT achieving up to 7.988x compression. Subsequently, we also evaluate it on several General Language Understanding Evaluation (GLUE) datasets.
翻訳日:2023-09-20 00:19:19 公開日:2023-09-17
# NeuSort:ニューロモルフィックモデルを用いた自動適応スパイクソーティング手法

NeuSort: An Automatic Adaptive Spike Sorting Approach with Neuromorphic Models ( http://arxiv.org/abs/2304.10273v2 )

ライセンス: Link先を確認
Hang Yu, Yu Qi, Gang Pan(参考訳) 目的。 ニューラルデータ処理における重要なステップであるスパイクソートは、異なる波形に基づいて単一の電極記録からスパイクイベントを分類することを目的としている。 本研究の目的は、ニューロモルフィックモデルを用いて、波形変形や新しいニューロンの出現を含む神経信号の変化に適応的に適応できる新しいオンラインスパイクソーター、NeuSortを開発することである。 アプローチ。 NeuSortはテンプレートマッチングプロセスをエミュレートするためにニューロモルフィックモデルを利用する。 このモデルは、生体神経系に触発された可塑性学習機構を取り入れ、オンラインパラメータへのリアルタイム調整を容易にする。 結果だ 実験により、ニューソルトは波形変形中のニューロン活動を追跡し、リアルタイムで新しいニューロンを同定する能力を示した。 NeuSortは非定常神経信号の処理に優れ、長期スパイクソートタスクへの適用性を大幅に向上させる。 さらに、ニューロモルフィックチップの実装により、計算中の超低エネルギー消費が保証される。 重要なこと。 NeuSortはニューロモルフィックアプローチを通じて、脳と機械のインタフェースにおけるリアルタイムスパイクソーシングの需要に応える。 その教師なしの自動スパイクソートプロセスは、オンラインスパイクソートのためのプラグアンドプレイソリューションになる。

Objective. Spike sorting, a critical step in neural data processing, aims to classify spiking events from single electrode recordings based on different waveforms. This study aims to develop a novel online spike sorter, NeuSort, using neuromorphic models, with the ability to adaptively adjust to changes in neural signals, including waveform deformations and the appearance of new neurons. Approach. NeuSort leverages a neuromorphic model to emulate template-matching processes. This model incorporates plasticity learning mechanisms inspired by biological neural systems, facilitating real-time adjustments to online parameters. Results. Experimental findings demonstrate NeuSort's ability to track neuron activities amidst waveform deformations and identify new neurons in real-time. NeuSort excels in handling non-stationary neural signals, significantly enhancing its applicability for long-term spike sorting tasks. Moreover, its implementation on neuromorphic chips guarantees ultra-low energy consumption during computation. Significance. NeuSort caters to the demand for real-time spike sorting in brain-machine interfaces through a neuromorphic approach. Its unsupervised, automated spike sorting process makes it a plug-and-play solution for online spike sorting.
翻訳日:2023-09-20 00:10:50 公開日:2023-09-17
# 拡散複雑性の時間発展と量子クエンチェにおける仕事の統計

Time evolution of spread complexity and statistics of work done in quantum quenches ( http://arxiv.org/abs/2304.09636v2 )

ライセンス: Link先を確認
Kuntal Pal, Kunal Pal, Ankit Gill, Tapobrata Sarkar(参考訳) 本研究では,突然のクエンチ下での統計システム上での作業の確率分布を,ポストクエンチ・ハミルトニアンの下での進化に対応するランチョス係数に関連付ける。 確率分布のモーメントと累積との一般的な関係を用いて、ランツォス係数は分布に関連する物理量、例えば、システム上で行った平均的な作業、その分散、および高次累積と同一視できることを示す。 ある意味で、これは実験的に測定可能な量の観点からランツォ係数の解釈を与える。 その結果、我々の手法は拡散複雑性を理解するための方法を提供し、熱力学の観点から、ポストクエンチハミルトニアンによって生成されるクリロフ基底における初期状態の時間的拡散を測定する量である。 これらの関係を2つの例で説明する。 1つ目は、周期的境界条件と最も近い隣り合う相互作用を持つ調和鎖上でのクエンチである。 第二の例として、大系の大きさの極限における$d$空間次元における自由ボゾン場理論における質量クエンチを考える。 いずれの場合においても,クエンチ後の拡散複雑性の経時的変化を見いだし,ランチョス係数とシステム上での作業の累積分布との関係を明らかにした。

We relate the probability distribution of the work done on a statistical system under a sudden quench to the Lanczos coefficients corresponding to evolution under the post-quench Hamiltonian. Using the general relation between the moments and the cumulants of the probability distribution, we show that the Lanczos coefficients can be identified with physical quantities associated with the distribution, e.g., the average work done on the system, its variance, as well as the higher order cumulants. In a sense this gives an interpretation of the Lanczos coefficients in terms of experimentally measurable quantities. Consequently, our approach provides a way towards understanding spread complexity, a quantity that measures the spread of an initial state with time in the Krylov basis generated by the post quench Hamiltonian, from a thermodynamical perspective. We illustrate these relations with two examples. The first one involves quench done on a harmonic chain with periodic boundary conditions and with nearest neighbour interactions. As a second example, we consider mass quench in a free bosonic field theory in $d$ spatial dimensions in the limit of large system size. In both cases, we find out the time evolution of the spread complexity after the quench, and relate the Lanczos coefficients with the cumulants of the distribution of the work done on the system.
翻訳日:2023-09-20 00:09:43 公開日:2023-09-17
# SDVRF:マルチモーダル3次元物体検出のための低密度Voxel領域融合

SDVRF: Sparse-to-Dense Voxel Region Fusion for Multi-modal 3D Object Detection ( http://arxiv.org/abs/2304.08304v3 )

ライセンス: Link先を確認
Binglu Ren and Jianqin Yin(参考訳) 自律運転の認識タスクでは,LiDAR点雲と画像データの相補的特徴から,マルチモーダル手法がトレンドとなっている。 しかし、マルチモーダル法の性能は、通常、点雲の間隔や、LiDARとカメラのミスアライメントに起因するノイズの問題によって制限される。 これら2つの問題を解決するために,各ボクセルの局所点雲を動的に投影することで得られるVoxel Region(VR)という概念を提案する。 また,Sparse-to-Dense Voxel Region Fusion (SDVRF) という新しい融合法を提案する。 具体的には、VR内の画像特徴マップの画素数を増やして、スパースポイントから抽出されたボクセル特徴を補い、より密接な融合を実現する。 一方、サイズを固定したグリッドを投影する従来の方法とは異なり、動的領域を生成するという我々の戦略は、アライメントが良くなり、バックグラウンドノイズが多すぎることを避ける。 さらに,より文脈的な情報を抽出し,異なる大きさのオブジェクトの特徴を捉えるマルチスケール融合フレームワークを提案する。 KITTIデータセットを用いた実験により,提案手法は,特にペデストリアンやサイクリストなど小型のクラスにおいて,異なるベースラインの性能を向上させることが示された。

In the perception task of autonomous driving, multi-modal methods have become a trend due to the complementary characteristics of LiDAR point clouds and image data. However, the performance of multi-modal methods is usually limited by the sparsity of the point cloud or the noise problem caused by the misalignment between LiDAR and the camera. To solve these two problems, we present a new concept, Voxel Region (VR), which is obtained by projecting the sparse local point clouds in each voxel dynamically. And we propose a novel fusion method named Sparse-to-Dense Voxel Region Fusion (SDVRF). Specifically, more pixels of the image feature map inside the VR are gathered to supplement the voxel feature extracted from sparse points and achieve denser fusion. Meanwhile, different from prior methods, which project the size-fixed grids, our strategy of generating dynamic regions achieves better alignment and avoids introducing too much background noise. Furthermore, we propose a multi-scale fusion framework to extract more contextual information and capture the features of objects of different sizes. Experiments on the KITTI dataset show that our method improves the performance of different baselines, especially on classes of small size, including Pedestrian and Cyclist.
翻訳日:2023-09-20 00:08:54 公開日:2023-09-17
# 幾何学的観点からの量子回路ノイズ調整

Quantum Circuits Noise Tailoring from a Geometric Perspective ( http://arxiv.org/abs/2305.06795v2 )

ライセンス: Link先を確認
Junkai Zeng, Yong-Ju Hai, Hao Liang, Xiu-Hao Deng(参考訳) 雑音環境下の量子エラーは、量子情報技術の進歩にとって大きな障害である。 この問題に対する解決策には、パルスレベルでの堅牢な量子制御と、回路レベルでの誤り訂正や緩和技術が含まれる。 両レベルのノイズ処理を統一し,雑音のダイナミクスを理解し,誤差を低減する幾何学的手法を開発した。 幾何空間における誤差のランダムウォークを説明し、ランダムコンパイルによってコヒーレントノイズが確率的ポーリ誤差にどのように調整されるかを説明する。 ノイズパラメータの解析式を求め、量子制御技術が回路の忠実性をさらに向上させることを示す。 本手法の有効性を数値シミュレーションを用いて実証し,量子情報処理の進歩の可能性を示す。

Quantum errors subject to noisy environments remain a major obstacle to advancing quantum information technology. Solutions to this issue include robust quantum control at the pulse level and error correction or mitigation techniques at the circuit level. We develop a geometric method to unify the treatments of noises at both levels to understand noisy dynamics and reduce errors. We illustrate the error's random walk in the geometric space to explain how coherent noises are tailored into stochastic Pauli errors by randomized compiling. We obtain analytical formulas for the noise parameters and show how robust quantum control techniques can further improve circuit fidelity. We demonstrate the efficacy of our approach using numerical simulations, showcasing its potential for advancing quantum information processing.
翻訳日:2023-09-20 00:00:48 公開日:2023-09-17
# 持続可能な教育と学習ツールとしてのAIとブロックチェーン

AI & Blockchain as sustainable teaching and learning tools to cope with the 4IR ( http://arxiv.org/abs/2305.01088v2 )

ライセンス: Link先を確認
Md Aminul Islam(参考訳) 第4次産業革命(4IR)は私たちの生活や働き方を変え、教育も例外ではありません。 4IRの課題に対処するためには、革新的で持続可能な教育・学習ツールが必要である。 AIとブロックチェーン技術は、パーソナライズされた学習、セキュアなクレデンシャル化、分散学習ネットワークといった潜在的なメリットとともに、この点において大きな可能性を秘めている。 本稿では,AIとブロックチェーンの教育における既存研究を概観し,ケーススタディを分析し,これらの技術のメリットと課題を探究する。 また、AIとブロックチェーンを持続可能な教育と学習プラクティスに統合するためのユニークなモデルを提案する。 より経験的な研究の必要性や倫理的・社会的影響の探求など、今後の研究の方向性が議論されている。 この議論の重要な要約は、教育におけるアクセシビリティ、有効性、セキュリティを高めることで、AIとブロックチェーンはこの分野に革命をもたらす可能性がある、ということだ。 テクノロジーが発展するにつれて、学生がゲームを変える可能性のあるテクノロジーの恩恵を受けられるようにするためには、ハザードを最小化しながら、その力を利用する方法を見つけることが不可欠である。 本稿では,4IR時代の教育と学習のための持続可能なツールとして,AIとブロックチェーンの可能性を強調し,そのメリット,課題,今後の展望について論じる。

The Fourth Industrial Revolution (4IR) is transforming the way we live and work, and education is no exception. To cope with the challenges of 4IR, there is a need for innovative and sustainable teaching and learning tools. AI and block chain technologies hold great promise in this regard, with potential benefits such as personalized learning, secure credentialing, and decentralized learning networks. This paper presents a review of existing research on AI and block chain in education, analyzing case studies and exploring the potential benefits and challenges of these technologies. The paper also suggests a unique model for integrating AI and block chain into sustainable teaching and learning practices. Future research directions are discussed, including the need for more empirical studies and the exploration of ethical and social implications. The key summary of this discussion is that, by enhancing accessibility, efficacy, and security in education, AI and blockchain have the potential to revolutionise the field. In order to ensure that students can benefit from these potentially game-changing technologies as technology develops, it will be crucial to find ways to harness its power while minimising hazards. Overall, this paper highlights the potential of AI and block chain as sustainable tools for teaching and learning in the 4IR era and their respective advantages, issues and future prospects have been discussed in this writing.
翻訳日:2023-09-20 00:00:01 公開日:2023-09-17
# 説明可能なaiのカテゴリー的基礎:統一理論

Categorical Foundations of Explainable AI: A Unifying Theory ( http://arxiv.org/abs/2304.14094v3 )

ライセンス: Link先を確認
Pietro Barbiero, Stefano Fioravanti, Francesco Giannini, Alberto Tonda, Pietro Lio, Elena Di Lavore(参考訳) 説明可能なAI(XAI)は、安全で信頼性の高いAIシステムに対する人間のニーズに対処することを目的としている。 しかし、多くの調査では、重要なXAI概念の健全な数学的形式化が欠如していることが強調されている。 このギャップを埋めるため,本論文では,カテゴリ理論の十分に資金提供された形式的手法を用いて,キーxai概念と過程の数学的に厳密な定義を初めて提示する。 私たちの分類学的枠組みは (i)既存の学習方法や建築をモデル化する。 (ii)「説明」の語を正式に定義する (iii)xai分類の理論的根拠を定め、 (iv)説明方法の見過ごされた側面をよく分析する。 その結果、私たちの分類学的枠組みは、説明可能なAIの健全な理論的基盤に向けた重要なステップであるとして、倫理的かつ安全なAI技術の展開を促進する。

Explainable AI (XAI) aims to address the human need for safe and reliable AI systems. However, numerous surveys emphasize the absence of a sound mathematical formalization of key XAI notions -- remarkably including the term "explanation" which still lacks a precise definition. To bridge this gap, this paper presents the first mathematically rigorous definitions of key XAI notions and processes, using the well-funded formalism of Category theory. We show that our categorical framework allows to: (i) model existing learning schemes and architectures, (ii) formally define the term "explanation", (iii) establish a theoretical basis for XAI taxonomies, and (iv) analyze commonly overlooked aspects of explaining methods. As a consequence, our categorical framework promotes the ethical and secure deployment of AI technologies as it represents a significant step towards a sound theoretical foundation of explainable AI.
翻訳日:2023-09-19 23:59:04 公開日:2023-09-17
# Node機能拡張によるネットワークアライメントの仮想化

Node Feature Augmentation Vitaminizes Network Alignment ( http://arxiv.org/abs/2304.12751v2 )

ライセンス: Link先を確認
Jin-Duk Park, Cong Tran, Won-Yong Shin, Xin Cao(参考訳) ネットワークアライメント(NA)は、複数のネットワークにまたがるノード対応を発見するタスクである。 naメソッドは無数のシナリオで目覚ましい成功を収めてきたが、プライバシの懸念やアクセス制限のために常に利用できるとは限らない、事前のアンカーリンクや/またはノード機能などの追加情報なしでは有効ではない。 この課題に取り組むため,我々は新しいna法であるgrad-align+を提案する。grad-align+は最先端のna法,いわゆるgrad-alignに基づく新しいna法で,全てのノードペアが見つかるまで徐々にノードペアの一部を発見する。 Grad-Align+を設計する際には、NAタスクの実行という意味でノード機能を拡張する方法と、拡張ノード機能を最大限活用してNAメソッドを設計する方法を説明します。 この目標を達成するために、Grad-Align+は3つの重要なコンポーネントから構成されている。 1)中心性に基づくノード機能拡張 2)グラフニューラルネットワークを用いた埋め込み類似性計算と拡張ノードの特徴 3)アライメント・クロスネットワーク・ニアペア(ACN)を用いた類似性計算による段階的NA。 包括的実験を通して、Grad-Align+が示すことを実証する。 a)ベンチマークNAメソッドよりも優れていること。 (b)CNFAの有効性を確認するための実証的検証と理論的知見。 (c)各構成要素の影響 (d)ネットワークノイズに対する堅牢性、及び (e)計算効率。

Network alignment (NA) is the task of discovering node correspondences across multiple networks. Although NA methods have achieved remarkable success in a myriad of scenarios, their effectiveness is not without additional information such as prior anchor links and/or node features, which may not always be available due to privacy concerns or access restrictions. To tackle this challenge, we propose Grad-Align+, a novel NA method built upon a recent state-of-the-art NA method, the so-called Grad-Align, that gradually discovers a part of node pairs until all node pairs are found. In designing Grad-Align+, we account for how to augment node features in the sense of performing the NA task and how to design our NA method by maximally exploiting the augmented node features. To achieve this goal, Grad-Align+ consists of three key components: 1) centrality-based node feature augmentation, 2) graph neural network-aided embedding similarity calculation alongside the augmented node features, and 3) gradual NA with similarity calculation using aligned cross-network neighbor-pairs (ACNs). Through comprehensive experiments, we demonstrate that Grad-Align+ exhibits (a) the superiority over benchmark NA methods, (b) empirical validations as well as our theoretical findings to see the effectiveness of CNFA, (c) the influence of each component, (d) the robustness to network noises, and (e) the computational efficiency.
翻訳日:2023-09-19 23:58:51 公開日:2023-09-17
# ディラックの自由場の量子論

Quantum theory of Dirac's free field ( http://arxiv.org/abs/2304.12182v5 )

ライセンス: Link先を確認
Ion I. Cotaescu(参考訳) 自由質量フェルミオンのディラック理論は、新しい保存されたスピン作用素とその対応する位置について、Pryceが昔から提案し、最近は適切なスペクトル表現を用いて再定義している。 I. Cot\u aescu, Eur Phys J.C (2022) 82:1073。 このアプローチは、任意の積分作用素に、モードスピノルの代わりに運動量表現における粒子と反粒子波スピノルに作用する一対の積分作用素の構成表現を関連づける。 これにより、粒子と反粒子の中心に対して別々に定義された等距離発生器や位置演算子を含む、様々な一粒子演算子によって形成される可観測物の集合全体を与える効果的な量子化過程が得られる。 このアプローチではスピン作用素は保存されるが、プライスは当初質量中心作用素として提案し、保存電流である保存速度とともに線形に進化する双極子作用素を量子化する。 真の質量中心作用素は、単に双極子作用素の反粒子項の相対記号を変更して定義される。 粒子と反粒子のセクタを混合するオペレーターには特に注意が払われる。 通常の位置演算子を含むこのタイプの主演算子は、ここで初めて導出される。 応用として、これらの新しい観測器を測定する装置が1粒子の波束を準備して検出すると、それらはジッターベヴェーグングやスピンダイナミクスなしで一様に動き、他のスカラーや非相対論的波束のように時間的に広がることが示される。

The Dirac theory of free massive fermions is reconstructed around the new conserved spin operator and its corresponding position one proposed initially by Pryce long time ago and re-defined recently by using suitable spectral representations [I. I. Cot\u aescu, Eur. Phys. J. C (2022) 82:1073]. This approach is generalized here associating to any integral operator in configuration representation a pair of integral operators acting on particle and antiparticle wave spinors in momentum representation instead on the mode spinors. Hereby it results an effective quantization procedure giving the entire set of observables formed by various one-particle operators, including the isometry generators and position operators defined separately for the centers of particles and antiparticles. In this approach the spin operator is conserved while the associated position one, proposed initially by Pryce as mass-center operator, becomes after quantization the dipole operator evolving linearly in time with a conserved velocity which is in fact the conserved current. The genuine mass-center operator is defined simply by changing the relative sign of antiparticle term of the dipole operator. A special attention is paid to the operators which mix the particle and antiparticle sectors whose off-diagonal associated operators have oscillating terms producing zitterbevegung. The principal operators of this type including the usual position operator are derived here for the first time. As an application, it is shown that when an apparatus which measures these new observables prepares and detects the one-particle wave-packets then these appear as moving uniformly without zitterbewegung or spin dynamics, spreading in time normally as any other scalar or even non-relativistic wave-packets.
翻訳日:2023-09-19 23:58:32 公開日:2023-09-17
# オンライン適応交通実験のための実践的バッチベイズサンプリングアルゴリズム

Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation ( http://arxiv.org/abs/2305.14704v4 )

ライセンス: Link先を確認
Zezhong Zhang and Ted Yuan(参考訳) オンライン制御実験は、新しいウェブ機能を評価するための業界標準として登場した。 新しいウェブアルゴリズムが普及するにつれて、実験プラットフォームはオンライン実験の速度に対する需要が増大し、適応的な交通試験手法がトラフィックを効率よく割り当てることによって最適な変種を特定するスピードアップを促す。 本稿では,ebayの実験プラットフォームにおける4つのベイズ的バッチバンディットアルゴリズム (nb-ts, wb-ts, nb-tts, wb-tts) を提案し,新たな工学的技術的負債を伴わない目標メトリックのバッチ統計を用いた。 特に、新しいwb-ttsは固定地平線a/bテストの効率的で信頼性が高く、堅牢な代替品である。 もう一つの新しい貢献は、ベストアーム識別アルゴリズムの信頼性を評価基準に持ち込み、同等のベストアームによる深刻な偽陽性インフレの存在を強調することである。 実験者の信頼を得るためには、実験プラットフォームは効率性と信頼性の両方を考慮しなければならないが、著者の知る限りでは、重要な話題としての信頼性が議論されることはほとんどない。 本稿では,中性後部変形のないベイズバンド,特にナイーブ・トンプソン・サンプリング(NB-TS)が常に同等のベストアームから腕を識別できるため,信頼できないことを示す。 信頼性を回復する新発見は、同等のベストアームの後方最適確率の収束分布と、偽陽性を制御する中性後方転位との間の関係を明らかにする。 最後に、eBayの経験から学んだ教訓と、徹底的な評価を紹介する。 この研究が他の産業実践者に役立つことを願っており、適応型交通実験の信頼性に関心を持つ研究者に刺激を与えている。

Online controlled experiments have emerged as industry gold standard for assessing new web features. As new web algorithms proliferate, experimentation platform faces an increasing demand on the velocity of online experiments, which encourages adaptive traffic testing methods to speed up identifying best variant by efficiently allocating traffic. This paper proposed four Bayesian batch bandit algorithms (NB-TS, WB-TS, NB-TTTS, WB-TTTS) for eBay's experimentation platform, using summary batch statistics of a goal metric without incurring new engineering technical debts. The novel WB-TTTS, in particular, demonstrates as an efficient, trustworthy and robust alternative to fixed horizon A/B testing. Another novel contribution is to bring trustworthiness of best arm identification algorithms into evaluation criterion and highlight the existence of severe false positive inflation with equivalent best arms. To gain the trust of experimenters, experimentation platform must consider both efficiency and trustworthiness; However, to the best of authors' knowledge, trustworthiness as an important topic is rarely discussed. This paper shows that Bayesian bandits without neutral posterior reshaping, particularly naive Thompson sampling (NB-TS), are untrustworthy because they can always identify an arm as the best from equivalent best arms. To restore trustworthiness, a novel finding uncovers connections between convergence distribution of posterior optimal probabilities of equivalent best arms and neutral posterior reshaping, which controls false positives. Lastly, this paper presents lessons learned from eBay's experience, as well as thorough evaluations. We hope this work is useful to other industrial practitioners and inspires academic researchers interested in the trustworthiness of adaptive traffic experimentation.
翻訳日:2023-09-19 23:49:54 公開日:2023-09-17
# X線マイクロビームデータセットの幾何学的変換を用いた音声調音解析の強化

Enhancing Speech Articulation Analysis using a Geometric Transformation of the X-ray Microbeam Dataset ( http://arxiv.org/abs/2305.10775v2 )

ライセンス: Link先を確認
Ahmed Adel Attia, Mark Tiede, Carol Y. Espy-Wilson(参考訳) 音声明瞭度の分析は音声分析に不可欠である。 しかし、調音器のx-y座標は話者の解剖学とペレット配置の変動に大きく依存しており、x-ray microbeamデータセット(xrmb)の解剖学的ランドマークをマッピングする方法は声道全体の解剖学を捉えることができない。 本稿では,これらの測定精度を向上させる新しい幾何学変換を提案する。 我々の変換は, 解剖学的ランドマークのX-Y座標を中矢状面に沿って, 唇開口(LA), 唇隆起(LP), 舌体収縮位置(TTCL), デグリー(TBCD), 舌先端収縮位置(TTCL) およびデグリー(TTCD)の6つの相対的尺度にマッピングした。 本研究は, 舌体収縮の計測精度を向上させる前咽頭線への口蓋裂の進展について検討した。

Accurate analysis of speech articulation is crucial for speech analysis. However, X-Y coordinates of articulators strongly depend on the anatomy of the speakers and the variability of pellet placements, and existing methods for mapping anatomical landmarks in the X-ray Microbeam Dataset (XRMB) fail to capture the entire anatomy of the vocal tract. In this paper, we propose a new geometric transformation that improves the accuracy of these measurements. Our transformation maps anatomical landmarks' X-Y coordinates along the midsagittal plane onto six relative measures: Lip Aperture (LA), Lip Protusion (LP), Tongue Body Constriction Location (TTCL), Degree (TBCD), Tongue Tip Constriction Location (TTCL) and Degree (TTCD). Our novel contribution is the extension of the palate trace towards the inferred anterior pharyngeal line, which improves measurements of tongue body constriction.
翻訳日:2023-09-19 23:48:11 公開日:2023-09-17
# 1クエリによる効率的な量子状態合成

Efficient Quantum State Synthesis with One Query ( http://arxiv.org/abs/2306.01723v3 )

ライセンス: Link先を確認
Gregory Rosenthal(参考訳) 我々は、多項式時間量子アルゴリズムを古典オラクルに(重ね合わせで)1つのクエリを作成し、すべての状態に対して$|\psi\rangle$という指数関数的に近似するオラクルの選択が存在することを示す。 この問題に対する以前のアルゴリズムでは、線形数のクエリと多項式時間、あるいは定数数のクエリと多項式数のアンシラを使用していた。 statePSPACE $\subseteq$ stateQIP(PSPACE $\subseteq$ IPの量子状態類似体)の証明を単純化し、相互作用のラウンドの一定数が十分であることを示す。 qac$\mathsf{_f^0}$下限は明示的なブール関数を計算するための画期的な回路下限であることを示す。 各$n$-qubit状態は、適切な有限ゲート集合上の$o(2^n/n)$-size回路によって0.01エラー以内に構築できることを証明します。 より一般的には、カウントする引数によって任意の有限ゲート集合に対して最適である大きさエラートレードオフを与える。

We present a polynomial-time quantum algorithm making a single query (in superposition) to a classical oracle, such that for every state $|\psi\rangle$ there exists a choice of oracle that makes the algorithm construct an exponentially close approximation of $|\psi\rangle$. Previous algorithms for this problem either used a linear number of queries and polynomial time, or a constant number of queries and polynomially many ancillae but no nontrivial bound on the runtime. As corollaries we do the following: - We simplify the proof that statePSPACE $\subseteq$ stateQIP (a quantum state analogue of PSPACE $\subseteq$ IP) and show that a constant number of rounds of interaction suffices. - We show that QAC$\mathsf{_f^0}$ lower bounds for constructing explicit states would imply breakthrough circuit lower bounds for computing explicit boolean functions. - We prove that every $n$-qubit state can be constructed to within 0.01 error by an $O(2^n/n)$-size circuit over an appropriate finite gate set. More generally we give a size-error tradeoff which, by a counting argument, is optimal for any finite gate set.
翻訳日:2023-09-19 23:40:15 公開日:2023-09-17
# LLMatic: 大規模言語モデルによるニューラルネットワーク探索と品質多様性の最適化

LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization ( http://arxiv.org/abs/2306.01102v4 )

ライセンス: Link先を確認
Muhammad U. Nasir, Sam Earle, Julian Togelius, Steven James and Christopher Cleghorn(参考訳) 大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。 それらの能力はさまざまな領域にまたがっており、コード生成の領域において大きな影響を与えている分野のひとつです。 この文脈では、LSMを突然変異とクロスオーバーツールとみなす。 一方、QD(Quality-Diversity)アルゴリズムは、多様で堅牢なソリューションを発見することが知られている。 本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を組み合わせることで,ニューラルネットワーク探索(NAS)アルゴリズムであるLLMaticを導入する。 LLMaticはプロンプトを介してNASを直接実行するのに苦労するが、プロンプトやネットワークアーキテクチャにQDを活用し、多種多様な高性能ネットワークを作成する。 私たちは、cifar-10イメージ分類ベンチマークでllmaticをテストし、ベンチマークドメインの事前知識や以前のトップパフォーマンスモデルへの露出がなくても、わずか2,000ドルの検索で競合ネットワークを作成できることを示した。

Large Language Models (LLMs) have emerged as powerful tools capable of accomplishing a broad spectrum of tasks. Their abilities span numerous areas, and one area where they have made a significant impact is in the domain of code generation. In this context, we view LLMs as mutation and crossover tools. Meanwhile, Quality-Diversity (QD) algorithms are known to discover diverse and robust solutions. By merging the code-generating abilities of LLMs with the diversity and robustness of QD solutions, we introduce LLMatic, a Neural Architecture Search (NAS) algorithm. While LLMs struggle to conduct NAS directly through prompts, LLMatic uses a procedural approach, leveraging QD for prompts and network architecture to create diverse and highly performant networks. We test LLMatic on the CIFAR-10 image classification benchmark, demonstrating that it can produce competitive networks with just $2,000$ searches, even without prior knowledge of the benchmark domain or exposure to any previous top-performing models for the benchmark.
翻訳日:2023-09-19 23:39:52 公開日:2023-09-17
# 考えるより弱く:弱く監督された学習を批判的に見る

Weaker Than You Think: A Critical Look at Weakly Supervised Learning ( http://arxiv.org/abs/2305.17442v3 )

ライセンス: Link先を確認
Dawei Zhu, Xiaoyu Shen, Marius Mosbach, Andreas Stephan, Dietrich Klakow(参考訳) 弱い教師付き学習は、低リソース環境で機械学習モデルをトレーニングするための一般的なアプローチである。 高品質で高価なヒューマンアノテーションを要求する代わりに、さまざまな弱いソースから得られたノイズの多いアノテーションを持つトレーニングモデルを可能にする。 近年,ラベルノイズ下でのロバストトレーニングに多くの高度な手法が提案されている。 本稿では、これらのアプローチのセットアップを再検討し、これらのアプローチがもたらす利点が大幅に過大評価されていることを明らかにする。 具体的には、既存の弱い教師付き学習アプローチの成功は、クリーンな検証サンプルの可用性に大きく依存していることが分かりました。 トレーニングでこれらのクリーンなラベルを使用した後、これらの高度なアプローチを使用する利点は、ほとんど失われる。 利用可能なクリーンデータのサイズをクラス毎にわずか5つのサンプルに縮小しても、これは事実であり続けます。 弱教師付き学習の真の価値を理解するため,多様なNLPデータセットとタスクを徹底的に分析し,弱教師付き学習がなぜ機能するのかを確かめる。 本研究の成果を踏まえ,今後の研究を推奨する。

Weakly supervised learning is a popular approach for training machine learning models in low-resource settings. Instead of requesting high-quality yet costly human annotations, it allows training models with noisy annotations obtained from various weak sources. Recently, many sophisticated approaches have been proposed for robust training under label noise, reporting impressive results. In this paper, we revisit the setup of these approaches and find that the benefits brought by these approaches are significantly overestimated. Specifically, we find that the success of existing weakly supervised learning approaches heavily relies on the availability of clean validation samples which, as we show, can be leveraged much more efficiently by simply training on them. After using these clean labels in training, the advantages of using these sophisticated approaches are mostly wiped out. This remains true even when reducing the size of the available clean data to just five samples per class, making these approaches impractical. To understand the true value of weakly supervised learning, we thoroughly analyze diverse NLP datasets and tasks to ascertain when and why weakly supervised approaches work. Based on our findings, we provide recommendations for future research.
翻訳日:2023-09-19 23:38:24 公開日:2023-09-17
# あなたの部屋はプライベートではない - 強化学習に対する勾配反転攻撃

Your Room is not Private: Gradient Inversion Attack on Reinforcement Learning ( http://arxiv.org/abs/2306.09273v2 )

ライセンス: Link先を確認
Miao Li, Wenhao Ding, Ding Zhao(参考訳) ロボットが仮想環境をナビゲートし、知覚し、関与することを可能にするエンボディド・人工知能(AI)の普及は、コンピュータビジョンと大規模言語モデルの顕著な進歩により、大きな注目を集めている。 プライバシーは、ロボットが実質的な個人情報にアクセスすることによって、具体化されたAIの領域における重要な関心事として浮上する。 しかし、具体的AIタスクにおけるプライバシー漏洩の問題、特に強化学習アルゴリズムは、研究において十分に考慮されていない。 本稿では, 状態, 行動, 監視信号の再構成に勾配インバージョンを利用して, 値に基づくアルゴリズムと勾配に基づくアルゴリズムに対する攻撃を提案する。 攻撃に勾配を使用するという選択は、一般的に使われているフェデレート学習技術が、プライベートユーザデータに基づいて計算された勾配を、データを公開サーバに保存したり送信したりすることなく、モデル最適化に利用するという事実によって動機づけられる。 それでも、これらの勾配は、潜在的にプライベートデータを公開するための十分な情報を含んでいる。 我々のアプローチを検証するため、我々はAI2THORシミュレータで実験を行い、我々のアルゴリズムを能動的知覚に基づいて評価する。 実験の結果,120室のレイアウトにまたがるデータから全ての情報を復元する手法の有効性が示された。

The prominence of embodied Artificial Intelligence (AI), which empowers robots to navigate, perceive, and engage within virtual environments, has attracted significant attention, owing to the remarkable advancements in computer vision and large language models. Privacy emerges as a pivotal concern within the realm of embodied AI, as the robot accesses substantial personal information. However, the issue of privacy leakage in embodied AI tasks, particularly in relation to reinforcement learning algorithms, has not received adequate consideration in research. This paper aims to address this gap by proposing an attack on the value-based algorithm and the gradient-based algorithm, utilizing gradient inversion to reconstruct states, actions, and supervision signals. The choice of using gradients for the attack is motivated by the fact that commonly employed federated learning techniques solely utilize gradients computed based on private user data to optimize models, without storing or transmitting the data to public servers. Nevertheless, these gradients contain sufficient information to potentially expose private data. To validate our approach, we conduct experiments on the AI2THOR simulator and evaluate our algorithm on active perception, a prevalent task in embodied AI. The experimental results demonstrate the effectiveness of our method in successfully reconstructing all information from the data across 120 room layouts.
翻訳日:2023-09-19 23:29:11 公開日:2023-09-17
# 音声強調のための可変保存型補間拡散モデル

Variance-Preserving-Based Interpolation Diffusion Models for Speech Enhancement ( http://arxiv.org/abs/2306.08527v2 )

ライセンス: Link先を確認
Zilu Guo, Jun Du, Chin-Hui Lee, Yu Gao, Wenbin Zhang(参考訳) 本研究の目的は,音声強調のための拡散モデルを実装することである。 最初のステップは、連続条件下での分散保存(VP)ベースの補間拡散の理論的基礎を強調することである。 次に,VP-および分散拡散(VE)に基づく補間拡散法の両方をカプセル化した,より簡潔なフレームワークを提案する。 この2つの手法が提案フレームワークの特別な場合であることを実証する。 さらに、SEタスクに対するVPベースの補間拡散の実例を示す。 性能の向上とモデルトレーニングの容易化を目的として,拡散モデルで発生する一般的な難易度を分析し,超パラメータの提案を行う。 最後に,提案手法の有効性を示すために,公開ベンチマークを用いた複数の手法に対する評価を行った。

The goal of this study is to implement diffusion models for speech enhancement (SE). The first step is to emphasize the theoretical foundation of variance-preserving (VP)-based interpolation diffusion under continuous conditions. Subsequently, we present a more concise framework that encapsulates both the VP- and variance-exploding (VE)-based interpolation diffusion methods. We demonstrate that these two methods are special cases of the proposed framework. Additionally, we provide a practical example of VP-based interpolation diffusion for the SE task. To improve performance and ease model training, we analyze the common difficulties encountered in diffusion models and suggest amenable hyper-parameters. Finally, we evaluate our model against several methods using a public benchmark to showcase the effectiveness of our approach
翻訳日:2023-09-19 23:27:59 公開日:2023-09-17
# ゼロショットのテキストガイド付きビデオからビデオへの翻訳

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation ( http://arxiv.org/abs/2306.07954v2 )

ライセンス: Link先を確認
Shuai Yang, Yifan Zhou, Ziwei Liu and Chen Change Loy(参考訳) 大規模なテキスト・画像拡散モデルでは、高品質な画像の生成に優れた習熟度を示した。 しかし、これらのモデルをビデオ領域に適用する場合、ビデオフレーム間の時間的一貫性を確保することは、非常に難しい課題である。 本稿では,ビデオに画像モデルを適用するため,ゼロショットテキスト誘導ビデオ翻訳フレームワークを提案する。 このフレームワークには、キーフレーム翻訳とフルビデオ翻訳の2つの部分が含まれている。 第1部では、適応拡散モデルを使用してキーフレームを生成し、階層的なクロスフレーム制約を適用して、形状、テクスチャ、色のコヒーレンスを強制する。 第2部は、時間対応パッチマッチングとフレームブレンディングにより、キーフレームを他のフレームに伝搬する。 我々のフレームワークは、(再学習や最適化なしに)低コストでグローバルなスタイルと局所的なテクスチャ時間一貫性を実現する。 この適応は既存の画像拡散技術と互換性があり、LoRAで特定の主題をカスタマイズしたり、ControlNetで余分な空間ガイダンスを導入するなど、我々のフレームワークがそれらを活用することができる。 提案手法は,高品質かつ時間的コヒーレントな映像のレンダリングにおいて,既存の手法よりも有効であることを示す。

Large text-to-image diffusion models have exhibited impressive proficiency in generating high-quality images. However, when applying these models to video domain, ensuring temporal consistency across video frames remains a formidable challenge. This paper proposes a novel zero-shot text-guided video-to-video translation framework to adapt image models to videos. The framework includes two parts: key frame translation and full video translation. The first part uses an adapted diffusion model to generate key frames, with hierarchical cross-frame constraints applied to enforce coherence in shapes, textures and colors. The second part propagates the key frames to other frames with temporal-aware patch matching and frame blending. Our framework achieves global style and local texture temporal consistency at a low cost (without re-training or optimization). The adaptation is compatible with existing image diffusion techniques, allowing our framework to take advantage of them, such as customizing a specific subject with LoRA, and introducing extra spatial guidance with ControlNet. Extensive experimental results demonstrate the effectiveness of our proposed framework over existing methods in rendering high-quality and temporally-coherent videos.
翻訳日:2023-09-19 23:27:48 公開日:2023-09-17
# 六方晶窒化ホウ素のホウ素空孔量子センサに対する窒素同位体効果

Nitrogen isotope effects on boron vacancy quantum sensors in hexagonal boron nitride ( http://arxiv.org/abs/2307.04476v2 )

ライセンス: Link先を確認
Kento Sasaki, Takashi Taniguchi, Kensuke Kobayashi(参考訳) 量子技術のための六方晶窒化ホウ素(hbn)の研究への関心が高まっている。 本研究では, 量子センサの候補であるホウ素空孔(v$_\text{b}$)欠陥に対する窒素同位体効果を, メタセシス反応を用いて合成した^<15}$n同位体濃縮hbnを用いて検討した。 ラマンシフトは還元質量でスケールされ、ホウ素同位体の濃縮に関する以前の研究と一致する。 我々は,v$_\text{b}$欠陥の窒素同位体組成依存性磁気共鳴スペクトルを求め,$^{15}$nスピンの超微細構造相互作用パラメータの大きさを64mhzとする。 量子センシングのためのhBNの設計方針について検討する。

There has been growing interest in studying hexagonal boron nitride (hBN) for quantum technologies. Here, we investigate nitrogen isotope effects on boron vacancy (V$_\text{B}$) defects, one of the candidates for quantum sensors, in $^{15}$N isotopically enriched hBN synthesized using a metathesis reaction. The Raman shifts are scaled with the reduced mass, consistent with previous work on boron isotope enrichment. We obtain nitrogen isotopic composition-dependent magnetic resonance spectra of V$_\text{B}$ defects and determine the magnitude of the hyperfine interaction parameter of $^{15}$N spin to be 64 MHz. Our investigation provides a design policy for hBNs for quantum sensing.
翻訳日:2023-09-19 23:20:09 公開日:2023-09-17
# ビデオオブジェクトセグメンテーション参照のための双方向相関駆動フレーム間インタラクショントランス

Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for Referring Video Object Segmentation ( http://arxiv.org/abs/2307.00536v2 )

ライセンス: Link先を確認
Meng Lan, Fu Rong, Zuchao Li, Wei Yu, Lefei Zhang(参考訳) ビデオオブジェクトセグメンテーション(RVOS)は、対象オブジェクトを言語表現によって記述されたビデオシーケンスにセグメントすることを目的としている。 典型的なマルチモーダルトランスフォーマーベースのRVOSは、フレーム非依存の方法でプロセスビデオシーケンスにアプローチし、高い計算コストを削減するが、参照対象の時間的コヒーレンスモデリングと時空間的表現学習のためのフレーム間相互作用の欠如により性能が制限される。 さらに、十分なクロスモーダル相互作用が欠如すると、視覚的特徴と言語的特徴の相関が弱まり、対象情報の復号化が困難になり、モデルの性能が制限される。 本稿では、RVOSにおけるこれらの問題に対処するために、BIFITと呼ばれる双方向相関駆動のフレーム間相互作用変換器を提案する。 具体的には、トランスフォーマーデコーダにおける軽量でプラグアンドプレイなフレーム間相互作用モジュールを設計し、参照オブジェクトの時空間的特徴を効率的に学習し、ビデオシーケンス内のオブジェクト情報をより正確にデコードし、より正確なセグメンテーション結果を生成する。 さらに,視覚的特徴と言語的特徴の相関性を高めるために,マルチモーダル変換器の前に双方向の視覚言語対話モジュールを実装し,視覚的特徴からより正確な対象情報をデコードし,最終的にセグメンテーション性能を向上させる。 4つのベンチマークによる大規模な実験結果から,BIFITの最先端手法に対する優位性と提案モジュールの有効性が検証された。

Referring video object segmentation (RVOS) aims to segment the target object in a video sequence described by a language expression. Typical multimodal Transformer based RVOS approaches process video sequence in a frame-independent manner to reduce the high computational cost, which however restricts the performance due to the lack of inter-frame interaction for temporal coherence modeling and spatio-temporal representation learning of the referred object. Besides, the absence of sufficient cross-modal interactions results in weak correlation between the visual and linguistic features, which increases the difficulty of decoding the target information and limits the performance of the model. In this paper, we propose a bidirectional correlation-driven inter-frame interaction Transformer, dubbed BIFIT, to address these issues in RVOS. Specifically, we design a lightweight and plug-and-play inter-frame interaction module in the Transformer decoder to efficiently learn the spatio-temporal features of the referred object, so as to decode the object information in the video sequence more precisely and generate more accurate segmentation results. Moreover, a bidirectional vision-language interaction module is implemented before the multimodal Transformer to enhance the correlation between the visual and linguistic features, thus facilitating the language queries to decode more precise object information from visual features and ultimately improving the segmentation performance. Extensive experimental results on four benchmarks validate the superiority of our BIFIT over state-of-the-art methods and the effectiveness of our proposed modules.
翻訳日:2023-09-19 23:19:02 公開日:2023-09-17
# テーブルアップ」:テーブルトップオブジェクト再配置のための共通感覚オブジェクトのグラウンド

"Tidy Up the Table": Grounding Common-sense Objective for Tabletop Object Rearrangement ( http://arxiv.org/abs/2307.11319v2 )

ライセンス: Link先を確認
Yiqing Xu, David Hsu(参考訳) テーブルのタイディニングは人間にとって簡単に見えるかもしれませんが、常識的推論の曖昧さのため、タイディネスの明確な基準は難しいです。 大規模言語モデル(LLM)は、このあいまいな曖昧さの概念を推論するために常識知識を捉える能力があることが証明されている。 しかし、タイディネスの空間的視覚的側面の把握が限られているため、テーブルタイディネスに苦しむこともある。 本研究は,オブジェクトアレンジメントの文脈において,ティディネスの共通センス概念を基礎づけることを目的としている。 我々の調査によると、人間は通常、丁寧さを意味的および視覚的空間的丁寧さに分解する。 ポリシジェネレータは,言語ベースのポリシージェネレータと画像ベースのタイディネススコア関数を接続する: ポリシージェネレータはLLMのコモンセンス知識を,その暗黙の型と機能によってクラスタオブジェクトに利用し,セマンティックタイディネスを実現する一方で,タイディネススコア関数はオブジェクトの視覚空間的関係を評価し,視覚空間的タイディネスを実現する。 当社のtidinessスコアは、カスタマイズされたランダムウォークから安価に生成された合成データを使用してトレーニングされ、本来はtidinessの順序をエンコードし、労働集約型の人間のデモの必要性を回避します。 シミュレーション実験により, 様々な新規な対象を持つテーブルに対して, 3次元積層の可能性を秘めた2次元配向が得られた。

Tidying up a messy table may appear simple for humans, but articulating clear criteria for tidiness is challenging due to the ambiguous nature of common sense reasoning. Large Language Models (LLMs) have proven capable of capturing common sense knowledge to reason over this vague concept of tidiness. However, they alone may struggle with table tidying due to the limited grasp on the spatio-visual aspects of tidiness. In this work, we aim to ground the common-sense concept of tidiness within the context of object arrangement. Our survey reveals that humans usually factorize tidiness into semantic and visual-spatial tidiness; our grounding approach aligns with this decomposition. We connect a language-based policy generator with an image-based tidiness score function: the policy generator utilizes the LLM's commonsense knowledge to cluster objects by their implicit types and functionalities for semantic tidiness; meanwhile, the tidiness score function assesses the visual-spatial relations of the object to achieve visual-spatial tidiness. Our tidiness score is trained using synthetic data generated cheaply from customized random walks, which inherently encode the order of tidiness, thereby bypassing the need for labor-intensive human demonstrations. The simulated experiment shows that our approach successfully generates tidy arrangements, predominately in 2D, with potential for 3D stacking, for tables with various novel objects.
翻訳日:2023-09-19 23:07:29 公開日:2023-09-17
# エゴセントリック3次元ハンド軌道予測のための不確実性認識状態空間トランス

Uncertainty-aware State Space Transformer for Egocentric 3D Hand Trajectory Forecasting ( http://arxiv.org/abs/2307.08243v2 )

ライセンス: Link先を確認
Wentao Bao, Lele Chen, Libing Zeng, Zhong Li, Yi Xu, Junsong Yuan, Yu Kong(参考訳) 自我中心の視点から手の動きを予測することは、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。 しかし,既存の手法では実世界の3次元アプリケーションでは不十分な2次元画像空間でこの問題に対処している。 本稿では,早期に観察されたRGBビデオから3次元空間における手の動きを予測することを目的とした,エゴセントリックな3次元手指軌跡予測タスクを構築した。 この目的を達成するために,古典的状態空間モデルの枠組みにおける注意機構とアレエータ的不確かさの利点を活かした不確実性認識状態空間トランスフォーマ(usst)を提案する。 このモデルは、大きな視覚トランスフォーマーの速度制約と視覚プロンプトチューニング(vpt)によってさらに強化することができる。 さらに,高品質な3次元ハンドトラジェクトリを収集するためのアノテーションワークフローを開発する。 H2OとEgoPAT3Dデータセットの実験結果は、2次元および3次元軌跡予測におけるUSSTの優位性を示している。 コードとデータセットは、https://actionlab-cv.github.io/egohandtrajpred。

Hand trajectory forecasting from egocentric views is crucial for enabling a prompt understanding of human intentions when interacting with AR/VR systems. However, existing methods handle this problem in a 2D image space which is inadequate for 3D real-world applications. In this paper, we set up an egocentric 3D hand trajectory forecasting task that aims to predict hand trajectories in a 3D space from early observed RGB videos in a first-person view. To fulfill this goal, we propose an uncertainty-aware state space Transformer (USST) that takes the merits of the attention mechanism and aleatoric uncertainty within the framework of the classical state-space model. The model can be further enhanced by the velocity constraint and visual prompt tuning (VPT) on large vision transformers. Moreover, we develop an annotation workflow to collect 3D hand trajectories with high quality. Experimental results on H2O and EgoPAT3D datasets demonstrate the superiority of USST for both 2D and 3D trajectory forecasting. The code and datasets are publicly released: https://actionlab-cv.github.io/EgoHandTrajPred.
翻訳日:2023-09-19 23:05:41 公開日:2023-09-17
# LEMMA: 言語を学習するマルチロボットマニピュレーション

LEMMA: Learning Language-Conditioned Multi-Robot Manipulation ( http://arxiv.org/abs/2308.00937v2 )

ライセンス: Link先を確認
Ran Gong, Xiaofeng Gao, Qiaozi Gao, Suhaila Shakiah, Govind Thattai, Gaurav S. Sukhatme(参考訳) 複雑な操作タスクは、しばしば協力するために相補的な能力を持つロボットを必要とする。 本稿では,人間の言語指示に基づくタスク割当と長時間ホリゾンオブジェクト操作に着目した言語条件付きマルチロボット操作(lemma)のベンチマークについて紹介する。 LEMMAには8種類の手続き的に生成されたタスクがあり、その一部には、ロボットがツールを使用して互いにツールを渡す必要がある。 それぞれのタスクに対して,800の専門的なデモンストレーションと,トレーニングと評価のためのヒューマンインストラクションを提供します。 lemmaは、システムが各マニピュレータの制限を特定し、それに従ってサブタスクを割り当てると同時に、各タスクの強い時間依存性も処理する必要があるため、既存のベンチマークと比べて大きな課題となる。 これらの課題に対処するため,モジュール型階層的計画手法をベースラインとして提案する。 本稿は,LEMMAが将来の言語条件付きマルチロボットシステムにもたらす可能性を明らかにする。

Complex manipulation tasks often require robots with complementary capabilities to collaborate. We introduce a benchmark for LanguagE-Conditioned Multi-robot MAnipulation (LEMMA) focused on task allocation and long-horizon object manipulation based on human language instructions in a tabletop setting. LEMMA features 8 types of procedurally generated tasks with varying degree of complexity, some of which require the robots to use tools and pass tools to each other. For each task, we provide 800 expert demonstrations and human instructions for training and evaluations. LEMMA poses greater challenges compared to existing benchmarks, as it requires the system to identify each manipulator's limitations and assign sub-tasks accordingly while also handling strong temporal dependencies in each task. To address these challenges, we propose a modular hierarchical planning approach as a baseline. Our results highlight the potential of LEMMA for developing future language-conditioned multi-robot systems.
翻訳日:2023-09-19 23:00:13 公開日:2023-09-17
# 衛星ベースの量子ネットワーク:大気チャネル上のセキュリティと課題

Satellite-based Quantum Network: Security and Challenges over Atmospheric Channel ( http://arxiv.org/abs/2308.00011v2 )

ライセンス: Link先を確認
Hong-fu Chou, Vu Nguyen Ha, Hayder Al-Hraishawi, Luis Manuel Garces-Socarras, Jorge Luis Gonzalez-Rios, Juan Carlos Merlano-Duncan, Symeon Chatzinotas(参考訳) 超セキュアな量子ネットワークは量子暗号を利用して、無制限のデータ転送セキュリティを提供する。 原則として、よく知られた量子鍵分布(qkd)は無条件のセキュリティを実現し、6g無線システムの信頼性を懸念し、実践と理論のギャップを緩和する。 長距離衛星対地進化量子ネットワークは、低軌道衛星を介して地上のノードにユビキタスな鍵を分配する。 秘密鍵列は量子状態へと符号化され、量子チャネルを介して大気を通して送られる。 高品質な量子通信を実現するには、デプロイメント範囲、送信、セキュリティの物理層設計により多くの労力を要する。 本稿では,衛星ベースの量子ネットワークと長距離量子状態伝達(QST)の量子状態とチャネル特性について概説する。 さらに、透過率統計、チャネルパラメータの推定と攻撃レジリエンス、衛星ベースの量子ネットワークのための量子状態転送、大気チャネル上のウェーブパレット形成技術など、いくつかの課題を強調した。 我々は、次世代の衛星ベースの量子ネットワークに向けたさらなる研究を促進するため、大気伝達のqstとwavepacket形成技術を検討する2つの研究方向を提示する。

The ultra-secure quantum network leverages quantum cryptography to deliver unsurpassed data transfer security. In principle, the well-known quantum key distribution (QKD) achieves unconditional security, which raises concerns about the trustworthiness of 6G wireless systems in order to mitigate the gap between practice and theory. The long-distance satellite-to-ground evolving quantum network distributes keys that are ubiquitous to the node on the ground through low-orbit satellites. As the secret key sequence is encoded into quantum states, it is sent through the atmosphere via a quantum channel. It still requires more effort in the physical layer design of deployment ranges, transmission, and security to achieve high-quality quantum communication. In this paper, we first review the quantum states and channel properties for satellite-based quantum networks and long-range quantum state transfer (QST). Moreover, we highlight some challenges, such as transmissivity statistics, estimation of channel parameters and attack resilience, quantum state transfer for satellite-based quantum networks, and wavepacket shaping techniques over atmospheric channels. We underline two research directions that consider the QST and wavepacket shaping techniques for atmospheric transmission in order to encourage further research toward the next generation of satellite-based quantum networks.
翻訳日:2023-09-19 22:58:53 公開日:2023-09-17
# 1次元量子多体系における活性誘起強磁性

Activity-induced ferromagnetism in one-dimensional quantum many-body systems ( http://arxiv.org/abs/2308.04382v4 )

ライセンス: Link先を確認
Kazuaki Takasan, Kyosuke Adachi, Kyogo Kawaguchi(参考訳) ビクセクモデルや活性スピンモデルに類似した1次元の非エルミート量子多体モデルを研究し、その量子相転移を調べる。 このモデルは強磁性相互作用と活性を持つ2成分ハードコアボソン、すなわちスピン依存非対称ホッピングからなる。 数値的な結果は、強磁性相互作用が存在しない状態でも生き残る、フラッキングの量子対する活性によって誘導される強磁性秩序の出現を示す。 この現象は, 活性が常磁性状態の基底状態エネルギーを増加させるのに対し, 強磁性状態の基底状態エネルギーは変化しないことを示すことによって確認する。 この2粒子の場合を解いた結果, 常磁性状態における非エルミート皮膚効果による拘束状態形成を回避し, 効果的なアライメントが得られた。 二粒子結果に基づく二点平均場理論を採用し、位相図を定性的に再現する。 さらに,ハードコア条件が緩和されたモデルについて数値解析を行い,活動により生じる強磁性秩序のロバスト性を確認する。

We study a non-Hermitian quantum many-body model in one dimension analogous to the Vicsek model or active spin models, and investigate its quantum phase transitions. The model consists of two-component hard-core bosons with ferromagnetic interactions and activity, i.e., spin-dependent asymmetric hopping. Numerical results show the emergence of a ferromagnetic order induced by the activity, a quantum counterpart of flocking, that even survives in the absence of ferromagnetic interaction. We confirm this phenomenon by proving that activity generally increases the ground state energies of the paramagnetic states, whereas the ground state energy of the ferromagnetic state does not change. By solving the two-particle case, we find that the effective alignment is caused by avoiding the bound state formation due to the non-Hermitian skin effect in the paramagnetic state. We employ a two-site mean-field theory based on the two-particle result and qualitatively reproduce the phase diagram. We further numerically study a variant of our model with the hard-core condition relaxed, and confirm the robustness of ferromagnetic order emerging due to activity.
翻訳日:2023-09-19 22:46:46 公開日:2023-09-17
# dyadic 強化学習

Dyadic Reinforcement Learning ( http://arxiv.org/abs/2308.07843v3 )

ライセンス: Link先を確認
Shuangning Li, Lluis Salvat Niell, Sung Won Choi, Inbal Nahum-Shani, Guy Shani, Susan Murphy(参考訳) モバイルヘルスは、個人の日常生活に介入することで、健康上の成果を高めることを目的としている。 ケアパートナーやソーシャルサポートネットワークの関与は、個人が負担の多い医療状況を管理するのに不可欠である。 これは、社会的支援を強化することを目的として、ダイアド関係(対象者とケアパートナーの関係)をターゲットにした介入をデザインする機会を提供する。 本稿では,対象者とその介護パートナーの状況的要因と過去の対応に基づいて,介入配信をパーソナライズするオンライン強化学習アルゴリズムであるdyadic rlを開発した。 ここで、複数の介入セットは、複数の時間間隔にわたってdyadに影響を与える。 開発されたダイド RL はベイズ的かつ階層的である。 問題設定を正式に導入し, Dyadic RLを開発し, 後悔の束縛を確立する。 本研究は,モバイル健康調査で収集したデータから構築した,おもちゃのシナリオと現実的なテストベッドのシミュレーション研究を通じて,ダイアディッドRLの実証性能を実証する。

Mobile health aims to enhance health outcomes by delivering interventions to individuals as they go about their daily life. The involvement of care partners and social support networks often proves crucial in helping individuals managing burdensome medical conditions. This presents opportunities in mobile health to design interventions that target the dyadic relationship -- the relationship between a target person and their care partner -- with the aim of enhancing social support. In this paper, we develop dyadic RL, an online reinforcement learning algorithm designed to personalize intervention delivery based on contextual factors and past responses of a target person and their care partner. Here, multiple sets of interventions impact the dyad across multiple time intervals. The developed dyadic RL is Bayesian and hierarchical. We formally introduce the problem setup, develop dyadic RL and establish a regret bound. We demonstrate dyadic RL's empirical performance through simulation studies on both toy scenarios and on a realistic test bed constructed from data collected in a mobile health study.
翻訳日:2023-09-19 22:37:35 公開日:2023-09-17
# 大規模言語モデルのモデル圧縮に関する調査

A Survey on Model Compression for Large Language Models ( http://arxiv.org/abs/2308.07633v3 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang(参考訳) 大規模言語モデル(LLM)は、自然言語処理タスクに革命をもたらした。 しかし、その大きなサイズと計算上の要求は、特に資源に制約のある環境での実践的な展開に重大な課題をもたらす。 これらの課題がますます重要になるにつれて、モデル圧縮の分野はこれらの制限を緩和するための重要な研究領域として現れてきた。 本稿では,LLMに特化されたモデル圧縮技術の展望を概観した総合的な調査を行う。 効率的な配置の必要性に対処するため, 定量化, 刈り取り, 知識蒸留など, 様々な手法を探求する。 これらの技術の中で,LLM研究の進展に寄与する最近の進歩と革新的アプローチを強調した。 さらに,圧縮LDMの有効性を評価する上で不可欠なベンチマーク戦略と評価指標について検討する。 最新の発展と実践的意味に関する洞察を提供することで、この調査は研究者と実践者の両方にとって貴重な情報源となる。 llmが進化を続けるにつれ、この調査は効率化と実世界の適用性の向上を目標とし、この分野における今後の進歩のための基盤を確立する。

Large Language Models (LLMs) have revolutionized natural language processing tasks with remarkable success. However, their formidable size and computational demands present significant challenges for practical deployment, especially in resource-constrained environments. As these challenges become increasingly pertinent, the field of model compression has emerged as a pivotal research area to alleviate these limitations. This paper presents a comprehensive survey that navigates the landscape of model compression techniques tailored specifically for LLMs. Addressing the imperative need for efficient deployment, we delve into various methodologies, encompassing quantization, pruning, knowledge distillation, and more. Within each of these techniques, we highlight recent advancements and innovative approaches that contribute to the evolving landscape of LLM research. Furthermore, we explore benchmarking strategies and evaluation metrics that are essential for assessing the effectiveness of compressed LLMs. By providing insights into the latest developments and practical implications, this survey serves as an invaluable resource for both researchers and practitioners. As LLMs continue to evolve, this survey aims to facilitate enhanced efficiency and real-world applicability, establishing a foundation for future advancements in the field.
翻訳日:2023-09-19 22:37:20 公開日:2023-09-17
# LSMツリーを最適化する学習:動的ワークロードのための強化学習ベースのキーバリューストアを目指して

Learning to Optimize LSM-trees: Towards A Reinforcement Learning based Key-Value Store for Dynamic Workloads ( http://arxiv.org/abs/2308.07013v2 )

ライセンス: Link先を確認
Dingheng Mo, Fanchao Chen, Siqiang Luo, Caihua Shan(参考訳) LSMツリーはキーバリューストアのストレージバックエンドとして広く採用されている。 しかしながら、動的ワークロード下でのシステムパフォーマンスの最適化は、前回の作業で十分な研究や評価を受けていない。 To fill the gap, we present RusKey, a key-value store with the following new features: (1) RusKey is a first attempt to orchestrate LSM-tree structures online to enable robust performance under the context of dynamic workloads; (2) RusKey is the first study to use Reinforcement Learning (RL) to guide LSM-tree transformations; (3) RusKey includes a new LSM-tree design, named FLSM-tree, for an efficient transition between different compaction policies -- the bottleneck of dynamic key-value stores. ruskeyは最先端の技術とは対照的に,システム調整のための事前のワークロード知識を必要としない。 RusKeyはさまざまなワークロードで強いパフォーマンスの堅牢性を示し、さまざまな設定でRocksDBシステムよりも最大4倍のエンドツーエンドパフォーマンスを実現している。

LSM-trees are widely adopted as the storage backend of key-value stores. However, optimizing the system performance under dynamic workloads has not been sufficiently studied or evaluated in previous work. To fill the gap, we present RusKey, a key-value store with the following new features: (1) RusKey is a first attempt to orchestrate LSM-tree structures online to enable robust performance under the context of dynamic workloads; (2) RusKey is the first study to use Reinforcement Learning (RL) to guide LSM-tree transformations; (3) RusKey includes a new LSM-tree design, named FLSM-tree, for an efficient transition between different compaction policies -- the bottleneck of dynamic key-value stores. We justify the superiority of the new design with theoretical analysis; (4) RusKey requires no prior workload knowledge for system adjustment, in contrast to state-of-the-art techniques. Experiments show that RusKey exhibits strong performance robustness in diverse workloads, achieving up to 4x better end-to-end performance than the RocksDB system under various settings.
翻訳日:2023-09-19 22:36:29 公開日:2023-09-17
# 非線形置換グランガー因果性

Nonlinear Permuted Granger Causality ( http://arxiv.org/abs/2308.06220v2 )

ライセンス: Link先を確認
Noah D. Gade and Jordan Rodu(参考訳) グランジャー因果推論は、経済学から神経科学まで幅広い分野において、議論を呼ぶが広く使われる方法である。 オリジナルの定義は、特定のモデルに対する関数依存条件を確立することによって、時系列における因果性の概念に対処する。 グランガー因果関係の非線形データへの適応は依然として困難であり、多くの手法はサンプル外予測性を組み込まないサンプル内テストを適用し、モデルオーバーフィッティングの懸念を引き起こす。 サンプル外比較を可能にするために、共変集合の置換を用いて関数接続の尺度を明示的に定義する。 ニューラルネットワークは、任意の非線形関係を近似するためにデータのフェータライザとして働き、各置換に対する分散の一貫した推定は、フェータライズ過程とモデル残差の特定の条件下で示される。 この置換法の性能をシミュレーションによりペナルド可変選択法、ナイーブ置換法、脱離法と比較し、麻酔下ラットの聴覚野における音響刺激のニューロン応答に適用する。 データセット内の因果メカニズムの事前知識が限られている場合、グランガー因果フレームワークのターゲット使用は、さらなる研究を必要とする変数セット間の潜在的な予測関係を明らかにするのに役立つ。

Granger causal inference is a contentious but widespread method used in fields ranging from economics to neuroscience. The original definition addresses the notion of causality in time series by establishing functional dependence conditional on a specified model. Adaptation of Granger causality to nonlinear data remains challenging, and many methods apply in-sample tests that do not incorporate out-of-sample predictability, leading to concerns of model overfitting. To allow for out-of-sample comparison, a measure of functional connectivity is explicitly defined using permutations of the covariate set. Artificial neural networks serve as featurizers of the data to approximate any arbitrary, nonlinear relationship, and consistent estimation of the variance for each permutation is shown under certain conditions on the featurization process and the model residuals. Performance of the permutation method is compared to penalized variable selection, naive replacement, and omission techniques via simulation, and it is applied to neuronal responses of acoustic stimuli in the auditory cortex of anesthetized rats. Targeted use of the Granger causal framework, when prior knowledge of the causal mechanisms in a dataset are limited, can help to reveal potential predictive relationships between sets of variables that warrant further study.
翻訳日:2023-09-19 22:35:55 公開日:2023-09-17
# 拡散モデルにおける露光バイアスの解明

Elucidating the Exposure Bias in Diffusion Models ( http://arxiv.org/abs/2308.15321v4 )

ライセンス: Link先を確認
Mang Ning, Mingxiao Li, Jianlin Su, Albert Ali Salah, Itir Onal Ertugrul(参考訳) 拡散モデルは印象的な生成能力を示しているが、トレーニングとサンプリングの入力ミスマッチとして説明される「暴露バイアス」問題は、深い探索に欠けている。 本稿では,まずサンプリング分布を解析的にモデル化し,各サンプリングステップにおける予測誤差を露光バイアス問題の根本原因として分類し,拡散モデルにおける露光バイアス問題を体系的に検討する。 さらに,この問題に対する潜在的な解決策を議論し,直観的な指標を提案する。 露光バイアスの解明とともに,エプシロンスケーリング(Epsilon Scaling)と呼ばれる簡易かつ効果的でトレーニングのない手法を提案し,露光バイアスを緩和する。 Epsilon Scalingは,ネットワーク出力(Epsilon)をスケールダウンし,トレーニングとサンプリングの間の入力ミスマッチを緩和することにより,トレーニング段階で学習したベクトル場に近いサンプリング軌道を明示的に移動させる。 各種拡散フレームワーク (ADM, DDPM/DDIM, EDM, LDM) , 非条件および条件設定, 決定論的対確率的サンプリング) の実験により, 提案手法の有効性が検証された。 例えば、私たちのADM-ESは、SOTA確率的サンプリング器として、100ステップの無条件生成の下でCIFAR-10データセット上の2.17 FIDを得る。 コードは \url{https://github.com/forever208/ADM-ES} と \url{https://github.com/forever208/EDM-ES} で入手できる。

Diffusion models have demonstrated impressive generative capabilities, but their 'exposure bias' problem, described as the input mismatch between training and sampling, lacks in-depth exploration. In this paper, we systematically investigate the exposure bias problem in diffusion models by first analytically modelling the sampling distribution, based on which we then attribute the prediction error at each sampling step as the root cause of the exposure bias issue. Furthermore, we discuss potential solutions to this issue and propose an intuitive metric for it. Along with the elucidation of exposure bias, we propose a simple, yet effective, training-free method called Epsilon Scaling to alleviate the exposure bias. We show that Epsilon Scaling explicitly moves the sampling trajectory closer to the vector field learned in the training phase by scaling down the network output (Epsilon), mitigating the input mismatch between training and sampling. Experiments on various diffusion frameworks (ADM, DDPM/DDIM, EDM, LDM), unconditional and conditional settings, and deterministic vs. stochastic sampling verify the effectiveness of our method. For example, our ADM-ES, as a SOTA stochastic sampler, obtains 2.17 FID on CIFAR-10 dataset under 100-step unconditional generation. The code is available at \url{https://github.com/forever208/ADM-ES} and \url{https://github.com/forever208/EDM-ES}.
翻訳日:2023-09-19 22:27:39 公開日:2023-09-17
# optron: ループ内の最適化による医用画像登録の改善

Optron: Better Medical Image Registration via Optimizing in the Loop ( http://arxiv.org/abs/2308.15216v2 )

ライセンス: Link先を確認
Yicheng Chen, Shengxiang Ji, Yuelin Xin, Kun Han, Xiaohui Xie(参考訳) 従来,画像登録の分野では,従来の最適化手法とディープラーニング方式の2つのパラダイムが主流であった。 シンプルで一般化可能な堅牢なトレーニングアーキテクチャを設計しました。 ループを最適化するアイデアを取り入れた一般的なトレーニングアーキテクチャであるOptronを提案する。 トレーニングループのプラグアンドプレイオプティマイザモジュールを通じて、ディープラーニングモデルの予測結果を反復的に最適化することにより、教師なしのトレーニングプロセスに擬似基底真理を導入する。 この疑似監督は、教師なしのメソッドと比較して、モデルトレーニングに対するより直接的なガイダンスを提供する。 この利点を利用して、Optronは一貫してモデルの性能と収束速度を改善することができる。 本手法はモデルとデータセットの様々な組み合わせで評価し, ixiデータセット上での最先端性能を実現し, 従来手法のトランスモーフを+1.6%dscで大幅に改善した。 さらに、Optronは他のモデルやデータセットで一貫してポジティブな結果を得た。 これはVoxelMorph と ViT-V-Net の IXI 上の検証 DSC を +2.3% と +2.2% で増加させ、この手法の一般化可能性を示している。 私たちの実装はhttps://github.com/miraclefactory/optronで公開しています。

Previously, in the field of image registration, there are mainly two paradigms, the traditional optimization-based methods, and the deep-learning-based methods. We designed a robust training architecture that is simple and generalizable. We present Optron, a general training architecture incorporating the idea of optimizing-in-the-loop. By iteratively optimizing the prediction result of a deep learning model through a plug-and-play optimizer module in the training loop, Optron introduces pseudo ground truth to an unsupervised training process. This pseudo supervision provides more direct guidance towards model training compared with unsupervised methods. Utilizing this advantage, Optron can consistently improve the models' performance and convergence speed. We evaluated our method on various combinations of models and datasets, and we have achieved state-of-the-art performance on the IXI dataset, improving the previous state-of-the-art method TransMorph by a significant margin of +1.6% DSC. Moreover, Optron also consistently achieved positive results with other models and datasets. It increases the validation DSC on IXI for VoxelMorph and ViT-V-Net by +2.3% and +2.2% respectively, demonstrating our method's generalizability. Our implementation is publicly available at https://github.com/miraclefactory/optron
翻訳日:2023-09-19 22:26:51 公開日:2023-09-17
# オープンセサミ! 大規模言語モデルのユニバーサルブラックボックスジェイルブレイク

Open Sesame! Universal Black Box Jailbreaking of Large Language Models ( http://arxiv.org/abs/2309.01446v2 )

ライセンス: Link先を確認
Raz Lapid, Ron Langberg, Moshe Sipper(参考訳) 有用で安全な応答を提供するように設計された大規模言語モデル(llm)は、しばしばユーザの意図や社会的ガイドラインに合致するアライメント技術に依存している。 残念ながら、このアライメントはLLMの出力を意図しない目的のために操作しようとする悪意のあるアクターによって悪用される。 本稿では,モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。 GA攻撃は、(ユーザのクエリと組み合わせて)攻撃されたモデルのアライメントを妨害し、意図しない、潜在的に有害なアウトプットをもたらす、普遍的な敵のプロンプトを最適化することで機能する。 提案手法は,応答が期待された動作から逸脱するインスタンスを明らかにすることで,モデルの制約や脆弱性を体系的に明らかにする。 広範な実験を通じて,本手法の有効性を実証し,llmと人間の意図の一致度を評価する診断ツールを提供することにより,責任あるai開発に関する議論に寄与する。 我々の知る限り、これは最初の自動化されたユニバーサルブラックボックスジェイルブレイク攻撃である。

Large language models (LLMs), designed to provide helpful and safe responses, often rely on alignment techniques to align with user intent and social guidelines. Unfortunately, this alignment can be exploited by malicious actors seeking to manipulate an LLM's outputs for unintended purposes. In this paper we introduce a novel approach that employs a genetic algorithm (GA) to manipulate LLMs when model architecture and parameters are inaccessible. The GA attack works by optimizing a universal adversarial prompt that -- when combined with a user's query -- disrupts the attacked model's alignment, resulting in unintended and potentially harmful outputs. Our novel approach systematically reveals a model's limitations and vulnerabilities by uncovering instances where its responses deviate from expected behavior. Through extensive experiments we demonstrate the efficacy of our technique, thus contributing to the ongoing discussion on responsible AI development by providing a diagnostic tool for evaluating and enhancing alignment of LLMs with human intent. To our knowledge this is the first automated universal black box jailbreak attack.
翻訳日:2023-09-19 22:18:08 公開日:2023-09-17
# 大規模言語モデルの説明可能性:調査

Explainability for Large Language Models: A Survey ( http://arxiv.org/abs/2309.01029v2 )

ライセンス: Link先を確認
Haiyan Zhao, Hanjie Chen, Fan Yang, Ninghao Liu, Huiqi Deng, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Mengnan Du(参考訳) 大規模言語モデル(llm)は自然言語処理において印象的な能力を示している。 しかし、内部メカニズムはまだ不明であり、この透明性の欠如は下流アプリケーションにとって望ましくないリスクをもたらす。 したがって、これらのモデルを理解し説明することは、それらの行動、制限、社会的影響を解明するために重要である。 本稿では,説明可能性の分類法を紹介し,トランスフォーマティブに基づく言語モデルを説明する手法の構造化概要を示す。 従来の微調整型パラダイムとプロンプト型パラダイムという,LLMのトレーニングパラダイムに基づいたテクニックを分類する。 各パラダイムについて,個別予測の局所的説明とモデル知識の全体的説明を生成するための目標と支配的アプローチを要約する。 また、生成した説明を評価するためのメトリクスについても論じ、モデルのデバッグやパフォーマンス向上に説明をどのように活用できるかについて議論する。 最後に,従来の機械学習モデルと比較して,LLMの時代における重要な課題と説明手法の出現機会について検討する。

Large language models (LLMs) have demonstrated impressive capabilities in natural language processing. However, their internal mechanisms are still unclear and this lack of transparency poses unwanted risks for downstream applications. Therefore, understanding and explaining these models is crucial for elucidating their behaviors, limitations, and social impacts. In this paper, we introduce a taxonomy of explainability techniques and provide a structured overview of methods for explaining Transformer-based language models. We categorize techniques based on the training paradigms of LLMs: traditional fine-tuning-based paradigm and prompting-based paradigm. For each paradigm, we summarize the goals and dominant approaches for generating local explanations of individual predictions and global explanations of overall model knowledge. We also discuss metrics for evaluating generated explanations, and discuss how explanations can be leveraged to debug models and improve performance. Lastly, we examine key challenges and emerging opportunities for explanation techniques in the era of LLMs in comparison to conventional machine learning models.
翻訳日:2023-09-19 22:16:54 公開日:2023-09-17
# グラフニューラルネットワークのオーバースカッシング: 総合的な調査

Over-Squashing in Graph Neural Networks: A Comprehensive survey ( http://arxiv.org/abs/2308.15568v3 )

ライセンス: Link先を確認
Singh Akansha(参考訳) グラフニューラルネットワーク(gnns)は、マシンラーニングの領域における革命的パラダイムとして登場し、グラフ構造化データに固有の複雑な関係を分類するトランスフォーメーションアプローチを提供する。 多くのGNNの基本アーキテクチャは、ノード分類、リンク予測、レコメンデーションシステムを含む様々なアプリケーションにおいて顕著な効果を示すメカニズムである、相互接続ノード間のメッセージアグリゲーションと変換による情報の拡散である。 しかし、その潜在的有効性は包括的文脈理解を必要とする状況によって制限される。 特定の文脈では、正確な予測はノードの直近の局所的な環境だけでなく、遠くの領域にまたがる相互作用にも当てはまる。 この長距離情報拡散の複雑な需要は、遠方のノードから流れる情報の忠実さが歪む「オーバー・スカッシング」として認識される重要な課題を露呈する。 この現象は、特に複雑な長距離相互作用に依存するタスクにおいて、メッセージパッシングメカニズムの効率を大幅に低下させる。 本稿では、GNNにおけるオーバースカッシングの多面的問題について包括的に検討し、根本原因、結果、最先端の緩和戦略の構造化分析を提供する。 この課題に対処するために,研究コミュニティが提案する方法論を概説する。 これらの手法は、情報の流れを高めるためにグラフトポロジーを変更するグラフ検索技術と、スペクトル分析と曲率に基づく洞察を活用する革新的な戦略を包含する。 さらに, オーバースムーシングなどの他のGNNの基本的制約との相互接続性を強調し, これらの課題を同時に解決する最近の発展について考察する。

Graph Neural Networks (GNNs) have emerged as a revolutionary paradigm in the realm of machine learning, offering a transformative approach to dissect intricate relationships inherent in graph-structured data. The foundational architecture of most GNNs involves the dissemination of information through message aggregation and transformation among interconnected nodes, a mechanism that has demonstrated remarkable efficacy across diverse applications encompassing node classification, link prediction, and recommendation systems. However, their potential effectiveness is constrained in situations demanding comprehensive contextual understanding. In certain contexts, accurate predictions hinge not only upon a node's immediate local surroundings but also on interactions spanning far-reaching domains. This intricate demand for long-range information dissemination exposes a pivotal challenge recognized as "over-squashing," wherein the fidelity of information flow from distant nodes becomes distorted. This phenomenon significantly curtails the efficiency of message-passing mechanisms, particularly for tasks reliant on intricate long-distance interactions. This survey article comprehensively explores the multifaceted issue of over-squashing in GNNs, offering a structured analysis of the underlying causes, consequences, and state-of-the-art mitigation strategies. To address this challenge, we review an array of methodologies proposed by the research community. These methods encompass graph rewiring techniques that modify the graph topology to enhance information flow, and innovative strategies that leverage spectral analysis and curvature-based insights. Furthermore, this survey highlights the interconnectedness of over-squashing with other fundamental limitations in GNNs, such as over-smoothing, and discusses recent developments in addressing these challenges simultaneously.
翻訳日:2023-09-19 22:15:27 公開日:2023-09-17
# 学習後の量子化が大規模言語モデルに与える影響の理解

Understanding the Impact of Post-Training Quantization on Large Language Models ( http://arxiv.org/abs/2309.05210v3 )

ライセンス: Link先を確認
Somnath Roy(参考訳) 大規模言語モデル(llm)は急速に拡大しており、パラメータの数はchatgpt、claude、bardといった多くの商用モデルの成功の重要な要因となっている。 falconやllama2など、最近公開された商用利用用のパブリックアクセスモデルでさえ、数十億のパラメータを備えている。 このパラメータ数の大幅な増加は、デプロイメントと運用を非常にコストがかかる。 大規模ニューラルネットワークの量子化分野における目覚ましい進歩、特にLLMは、これらのモデルをコンシューマグレードのGPUにデプロイすることで、よりアクセスしやすくしている。 量子化モデルは一般に、量子化されていないベースモデルと同等のパフォーマンスレベルを示す。 しかしながら、これらの量子化モデルが、特に次の単語予測のために、温度、最大新しいトークン、トプクといったハイパーパラメータにどのように反応するかについての包括的な理解には、注目すべきギャップがある。 本分析により,nf4とfp4は,推論速度,メモリ消費,生成コンテンツの品質といった類似の属性を特徴とする4ビット量子化技術であることがわかった。 この研究では、nf4は低温でのラマ2系列のモデルの場合の温度変動に対する強い弾力性を示し、fp4とfp4-dqはファルコン系列のモデルより適した選択であることが示されている。 一般に、異なる大きさの4ビット量子化モデルは、その非定量化モデルとは異なり0.5から0.8の範囲の温度に対して高い感度を示す。 さらに、int8量子化は推定速度が著しく遅いことと関連しており、非量子化bfloat16モデルは一貫して全てのサイズのモデルで最速の推論速度をもたらす。

Large language models (LLMs) are rapidly increasing in size, with the number of parameters becoming a key factor in the success of many commercial models, such as ChatGPT, Claude, and Bard. Even the recently released publicly accessible models for commercial usage, such as Falcon and Llama2, come equipped with billions of parameters. This significant increase in the number of parameters makes deployment and operation very costly. The remarkable progress in the field of quantization for large neural networks in general and LLMs in particular, has made these models more accessible by enabling them to be deployed on consumer-grade GPUs. Quantized models generally demonstrate comparable performance levels to their unquantized base counterparts. Nonetheless, there exists a notable gap in our comprehensive understanding of how these quantized models respond to hyperparameters, such as temperature, max new tokens, and topk, particularly for next word prediction. The present analysis reveals that nf4 and fp4 are equally proficient 4-bit quantization techniques, characterized by similar attributes such as inference speed, memory consumption, and the quality of generated content. the study identifies nf4 as displaying greater resilience to temperature variations in the case of the llama2 series of models at lower temperature, while fp4 and fp4-dq proves to be a more suitable choice for falcon series of models. It is noteworthy that, in general, 4-bit quantized models of varying sizes exhibit higher sensitivity to temperature in the range of 0.5 to 0.8, unlike their unquantized counterparts. Additionally, int8 quantization is associated with significantly slower inference speeds, whereas unquantized bfloat16 models consistently yield the fastest inference speeds across models of all sizes.
翻訳日:2023-09-19 22:05:46 公開日:2023-09-17
# EHRデータスカラー化のための特徴ミス対応校正による患者表現の活用

Leveraging Prototype Patient Representations with Feature-Missing-Aware Calibration to Mitigate EHR Data Sparsity ( http://arxiv.org/abs/2309.04160v2 )

ライセンス: Link先を確認
Yinghao Zhu, Zixiang Wang, Long He, Shiyun Xie, Zixi Chen, Jingkun An, Liantao Ma, Chengwei Pan(参考訳) 電子健康記録(EHR)データは、しばしばスパース特性を示し、予測モデリングの課題を提起する。 行列計算などの現在の直接計算は、類似の行や列を参照してヒンジに近づき、生の欠落データを完成させる。 その結果、モデルは、予測対象に関する無関係または偽りの情報を不注意に組み込んで、下流のパフォーマンスの有効性を損なうことができる。 一部の手法は直接的命令の後にEHRの埋め込みを校正または拡張しようとするが、しばしば不適切な特徴を誤って優先する。 この誤った優先順位付けはモデルにバイアスや不正確さをもたらす可能性がある。 これらの課題に対処するため,我々は間接的インダクタンス法を用いて,類似患者からのプロトタイプ表現を活用し,より高密度な埋め込みを実現する。 同様の患者を計測する際, 機能不足の限界が現在のものと同じであることを示すため, 本手法は機能信頼学習モジュールを設計する。 このモジュールは欠落している機能状況に敏感であり、モデルが各機能の信頼性をよりよく判断できる。 さらに, 評価が潜在的に不正確な不正確な値にのみ基づかないことを保証するために, 特徴的信頼度を考慮した新しい類似度指標を提案する。 そこで本研究では,特徴量検出手法を用いて患者表現の密集を捉えた。 総合的な実験により、設計モデルが確立されたEHRに焦点を当てたモデルを超え、MIMIC-IIIおよびMIMIC-IVデータセットを病院内死亡率予測タスクで統計的に有意に改善することが示された。 コードは、再現性を保証するために \url{https://github.com/yhzhu99/sparseehr} で公開されている。

Electronic Health Record (EHR) data frequently exhibits sparse characteristics, posing challenges for predictive modeling. Current direct imputation such as matrix imputation approaches hinge on referencing analogous rows or columns to complete raw missing data and do not differentiate between imputed and actual values. As a result, models may inadvertently incorporate irrelevant or deceptive information with respect to the prediction objective, thereby compromising the efficacy of downstream performance. While some methods strive to recalibrate or augment EHR embeddings after direct imputation, they often mistakenly prioritize imputed features. This misprioritization can introduce biases or inaccuracies into the model. To tackle these issues, our work resorts to indirect imputation, where we leverage prototype representations from similar patients to obtain a denser embedding. Recognizing the limitation that missing features are typically treated the same as present ones when measuring similar patients, our approach designs a feature confidence learner module. This module is sensitive to the missing feature status, enabling the model to better judge the reliability of each feature. Moreover, we propose a novel patient similarity metric that takes feature confidence into account, ensuring that evaluations are not based merely on potentially inaccurate imputed values. Consequently, our work captures dense prototype patient representations with feature-missing-aware calibration process. Comprehensive experiments demonstrate that designed model surpasses established EHR-focused models with a statistically significant improvement on MIMIC-III and MIMIC-IV datasets in-hospital mortality outcome prediction task. The code is publicly available at \url{https://github.com/yhzhu99/SparseEHR} to assure the reproducibility.
翻訳日:2023-09-19 22:05:16 公開日:2023-09-17
# FLM-101B:オープンLCMと1万ドルの予算でトレーニングする方法

FLM-101B: An Open LLM and How to Train It with $100K Budget ( http://arxiv.org/abs/2309.03852v2 )

ライセンス: Link先を確認
Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan, Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang(参考訳) 大規模言語モデル(LLM)は、NLPやマルチモーダルタスクで顕著な成功を収めている。 これらの成功にもかかわらず、LLMの開発には2つの大きな課題がある。 (i)高い計算コスト、及び (ii)公平で客観的な評価。 本稿では,成長戦略を通じてLLMトレーニングコストを大幅に削減する手法について報告する。 我々は、0.31tトークンを持つ101bパラメータのllmを、予算1万ドルでトレーニングできることを実証する。 IQテストにインスパイアされた我々は、知識指向能力に焦点を当てた既存の評価の上に、さらなる範囲の評価を統合する。 これらのIQ評価には、シンボリックマッピング、ルール理解、パターンマイニング、反干渉が含まれる。 このような評価は記憶の潜在的な影響を最小限に抑える。 実験結果から,FLM-101Bと命名された我々のモデルは,GPT-3 や GLM-130B などの強力でよく知られたモデルに匹敵する性能を達成し,特にIQ 評価のさらなる範囲で実現した。 FLM-101Bのチェックポイントはhttps://huggingface.co/CofeAI/FLM-101Bで公開されている。

Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks, among others. Despite these successes, two main challenges remain in developing LLMs: (i) high computational cost, and (ii) fair and objective evaluations. In this paper, we report a solution to significantly reduce LLM training cost through a growth strategy. We demonstrate that a 101B-parameter LLM with 0.31T tokens can be trained with a budget of 100K US dollars. Inspired by IQ tests, we also consolidate an additional range of evaluations on top of existing evaluations that focus on knowledge-oriented abilities. These IQ evaluations include symbolic mapping, rule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model, named FLM-101B, trained with a budget of 100K US dollars, achieves performance comparable to powerful and well-known models, e.g., GPT-3 and GLM-130B, especially on the additional range of IQ evaluations. The checkpoint of FLM-101B is released at https://huggingface.co/CofeAI/FLM-101B.
翻訳日:2023-09-19 22:04:47 公開日:2023-09-17
# 確率近似における記憶の呪い:拡張版

The Curse of Memory in Stochastic Approximation: Extended Version ( http://arxiv.org/abs/2309.02944v2 )

ライセンス: Link先を確認
Caio Kalil Lauand and Sean Meyn(参考訳) 確率近似(英語版)(sa)の理論と応用は、適応制御の初期から制御系コミュニティの中で成長してきた。 本稿では,SAの顕著な性能を(十分小さい)定数ステップサイズ$\alpha>0$で証明した最近の結果から,この話題を新たに考察する。 平均化が最終的なパラメータ推定を得るために実施されると、その推定は漸近的にほぼ最適な漸近共分散でバイアスされない。 これらの結果は, ランダム線形SA再帰係数に対して得られた。 本稿では,幾何学的エルゴードマルコフの乱れのより一般的な場合において,非常に異なる結論を得る。 (i)$\textit{target bias}$は、非線形 SA の場合においても特定され、一般には 0 でない。 残りの結果は線形SA再帰のために確立される。 (ii)二変量パラメータ・ディストバンス過程は、トポロジカルな意味で幾何学的にエルゴード的である。 三) バイアスの表現は、この場合においてより単純な形式であり、乗法ノイズがあるときはゼロであるとは期待できない。 (iv)平均パラメータの漸近共分散は最適な$o(\alpha)$以内である。 誤差項は特定され、平均力学が十分に条件づけられていない場合、大きすぎる可能性がある。 この理論はtd-learningに応用されている。

Theory and application of stochastic approximation (SA) has grown within the control systems community since the earliest days of adaptive control. This paper takes a new look at the topic, motivated by recent results establishing remarkable performance of SA with (sufficiently small) constant step-size $\alpha>0$. If averaging is implemented to obtain the final parameter estimate, then the estimates are asymptotically unbiased with nearly optimal asymptotic covariance. These results have been obtained for random linear SA recursions with i.i.d. coefficients. This paper obtains very different conclusions in the more common case of geometrically ergodic Markovian disturbance: (i) The $\textit{target bias}$ is identified, even in the case of non-linear SA, and is in general non-zero. The remaining results are established for linear SA recursions: (ii) the bivariate parameter-disturbance process is geometrically ergodic in a topological sense; (iii) the representation for bias has a simpler form in this case, and cannot be expected to be zero if there is multiplicative noise; (iv) the asymptotic covariance of the averaged parameters is within $O(\alpha)$ of optimal. The error term is identified, and may be massive if mean dynamics are not well conditioned. The theory is illustrated with application to TD-learning.
翻訳日:2023-09-19 22:04:28 公開日:2023-09-17
# データフローエンジンによる高速ボソンサンプリングシミュレーション

High performance Boson Sampling simulation via data-flow engines ( http://arxiv.org/abs/2309.07027v2 )

ライセンス: Link先を確認
Gregory Morse, Tomasz Rybotycki, \'Agoston Kaposi, Zolt\'an Kolarovszki, Uro\v{s} Stoj\v{c}i\'c, Tam\'as Kozsik, Oskar Mencer, Micha{\l} Oszmaniec, Zolt\'an Zimbor\'as, P\'eter Rakyta(参考訳) 本研究では,Balasubramanian-Bax-Franklin-Glynn (BB/FG) の恒常式を一般化し,永続的評価における行乗数を考慮した。 これは、評価中に加算のn-ary Grayコード順序を組み込むことによって達成される。 FPGAベースのデータフローエンジン上で設計したアルゴリズムを実装し,4ドルのFPGAチップを用いて,60ドルモード干渉計のサンプルを1秒あたり平均$\sim80$秒で描画することにより,ボソンサンプリングシミュレーションを最大40ドルまで高速化した。 また,BSシミュレータの性能はClifford \& Clifford \cite{clifford2020faster} の理論的推定と一致し,BSシミュレータの性能を可搬性で特徴付けるための単一のパラメータを定義する方法を提供する。 開発された設計は、理想と損失の大きいボソンサンプリング実験の両方をシミュレートすることができる。

In this work, we generalize the Balasubramanian-Bax-Franklin-Glynn (BB/FG) permanent formula to account for row multiplicities during the permanent evaluation and reduce the complexity of permanent evaluation in scenarios where such multiplicities occur. This is achieved by incorporating n-ary Gray code ordering of the addends during the evaluation. We implemented the designed algorithm on FPGA-based data-flow engines and utilized the developed accessory to speed up boson sampling simulations up to $40$ photons, by drawing samples from a $60$ mode interferometer at an averaged rate of $\sim80$ seconds per sample utilizing $4$ FPGA chips. We also show that the performance of our BS simulator is in line with the theoretical estimation of Clifford \& Clifford \cite{clifford2020faster} providing a way to define a single parameter to characterize the performance of the BS simulator in a portable way. The developed design can be used to simulate both ideal and lossy boson sampling experiments.
翻訳日:2023-09-19 21:56:45 公開日:2023-09-17
# AGMDT: 補助ガイド下多臓器移植による腎組織像の仮想染色

AGMDT: Virtual Staining of Renal Histology Images with Adjacency-Guided Multi-Domain Transfer ( http://arxiv.org/abs/2309.06421v2 )

ライセンス: Link先を確認
Tao Ma, Chao Zhang, Min Lu, Lin Luo(参考訳) 腎病理学は腎臓疾患の診断の標準として、医師はH&E染色によって染色された一連の組織スライスと、Masson、PASM、PASなどの特殊染色を分析する必要がある。 これらの特殊な染色法は費用がかかり、時間がかかり、特に初等病院で広く使われるように標準化が難しい。 教師付き学習手法の進歩により、H&E画像の特殊染色画像への仮想変換が可能になったが、訓練のための画素間アライメントの実現は依然として困難である。 対照的に、異なるスタイル転送ドメインとしての異なるステインに関する教師なし学習法は、非ペアデータを利用することができるが、空間的ドメイン間相関を無視し、診断のための構造的詳細の信頼性を低下させる。 本稿では,ピクセルレベルのアライメントを回避し,隣接する組織スライス間の相関を利用して画像の他の領域への変換を行う,新しい仮想染色フレームワーク AGMDT を提案する。 まず, 種々の方法で染色した一連のスライス標本からなる, 高品位多ドメイン腎組織学的データセットを構築した。 提案するフレームワークであるAGMDTは,球状率検出と二部グラフマッチングにより,複数ドメインの連続スライスにまたがるパッチレベルのアライメントペアを検出し,そのような相関を利用してマルチドメイン染色変換のエンドツーエンドモデルを監督する。 実験の結果,多領域連続病的スライス間の相関を活用し,高精度な画素レベルアライメントと非ペアリングドメイン転送のバランスを良好に達成し,定量的な測定と形態学的詳細の両方において最先端の手法を上回った。

Renal pathology, as the gold standard of kidney disease diagnosis, requires doctors to analyze a series of tissue slices stained by H&E staining and special staining like Masson, PASM, and PAS, respectively. These special staining methods are costly, time-consuming, and hard to standardize for wide use especially in primary hospitals. Advances of supervised learning methods have enabled the virtually conversion of H&E images into special staining images, but achieving pixel-to-pixel alignment for training remains challenging. In contrast, unsupervised learning methods regarding different stains as different style transfer domains can utilize unpaired data, but they ignore the spatial inter-domain correlations and thus decrease the trustworthiness of structural details for diagnosis. In this paper, we propose a novel virtual staining framework AGMDT to translate images into other domains by avoiding pixel-level alignment and meanwhile utilizing the correlations among adjacent tissue slices. We first build a high-quality multi-domain renal histological dataset where each specimen case comprises a series of slices stained in various ways. Based on it, the proposed framework AGMDT discovers patch-level aligned pairs across the serial slices of multi-domains through glomerulus detection and bipartite graph matching, and utilizes such correlations to supervise the end-to-end model for multi-domain staining transformation. Experimental results show that the proposed AGMDT achieves a good balance between the precise pixel-level alignment and unpaired domain transfer by exploiting correlations across multi-domain serial pathological slices, and outperforms the state-of-the-art methods in both quantitative measure and morphological details.
翻訳日:2023-09-19 21:55:33 公開日:2023-09-17
# ChatGPTは、プログラミングにおける計算生物学者に役立つだろうか?

How much can ChatGPT really help Computational Biologists in Programming? ( http://arxiv.org/abs/2309.09126v1 )

ライセンス: Link先を確認
Chowdhury Rafeed Rahman, Limsoon Wong(参考訳) OpenAIが最近開発したChatGPTは、多目的自然言語ベースのチャットボットとして成功を収めている。 本稿では,計算生物学の分野におけるその可能性を分析することに興味がある。 最近の計算生物学者による研究の大部分は、バイオインフォマティクスアルゴリズムのコーディング、データ分析、パイプラインスクリプトの作成、さらには機械学習モデリングと機能抽出などだ。 本稿では,ChatGPTの有意な影響(肯定的および否定的)を,異なる視点から説明的な例を用いて論じる。 コンピュータ科学の他の分野と比較すると、計算生物学は、(1)コーディング資源の削減、(2)感度とバイアスの問題(医療データの問題)、(3)コーディング支援の必要性の増大(多様なバックグラウンドを持つ人々がこの分野に来る)である。 このような問題を念頭に置いて,本論文では,chatgptを用いたコード記述,レビュー,デバッグ,変換,リファクタリング,パイプライン化といったユースケースについて,計算生物学者の視点から紹介する。

ChatGPT, a recently developed product by openAI, is successfully leaving its mark as a multi-purpose natural language based chatbot. In this paper, we are more interested in analyzing its potential in the field of computational biology. A major share of work done by computational biologists these days involve coding up Bioinformatics algorithms, analyzing data, creating pipelining scripts and even machine learning modeling & feature extraction. This paper focuses on the potential influence (both positive and negative) of ChatGPT in the mentioned aspects with illustrative examples from different perspectives. Compared to other fields of Computer Science, Computational Biology has - (1) less coding resources, (2) more sensitivity and bias issues (deals with medical data) and (3) more necessity of coding assistance (people from diverse background come to this field). Keeping such issues in mind, we cover use cases such as code writing, reviewing, debugging, converting, refactoring and pipelining using ChatGPT from the perspective of computational biologists in this paper.
翻訳日:2023-09-19 17:24:37 公開日:2023-09-17
# 強化学習を用いた1型糖尿病患者に対する経時インスリン摂取の簡易化 : インサイリコ実験

Using Reinforcement Learning to Simplify Mealtime Insulin Dosing for People with Type 1 Diabetes: In-Silico Experiments ( http://arxiv.org/abs/2309.09125v1 )

ライセンス: Link先を確認
Anas El Fathi, Marc D. Breton(参考訳) 1型糖尿病患者(t1d)は食事中、特にmdi(multiple daily injections)療法で最適なインスリン量を計算するのに苦労している。 効果的に、厳密で正確な計算を行うわけではないが、時には直観や過去の経験に依存することもある。 強化学習(rl)は、直観と経験からの学習を必要とするタスクにおいて、人間よりも優れた結果を示している。 本研究は, 正確な炭水化物計数(CC)を必要としない定性的食事(QM)戦略(正午の通常食事など)に対応する最適なインスリン投与を推奨するRLエージェントを提案する。 ソフトアクター・クリティックアプローチを用いて訓練され、長い短期記憶(LSTM)ニューロンを含む。 トレーニングでは, FDA が承認した UVA/Padova T1D 成人80名を対象に, MDI 療法とQM 戦略を用いてシミュレーションを行った。 検証のため,グルコース中の日内および日内変動を含む26週間のシナリオで残りの20例を検討した。 \textit{In-silico} の結果、提案した RL アプローチはベースラインランランアプローチよりも優れ、標準 CC アプローチを置き換えることができることを示した。 具体的には、26週間後のタイムインレンジ(70-180$mg/dL)とタイムインヒポ血糖(70$mg/dL)は、RL最適化QM戦略による73.1\pm11.6$%と2.0\pm 1.8$%であり、CCによる70.6\pm14.8$%と1.5\pm 1.5$%である。 このようなアプローチは糖尿病の治療を単純化し、生活の質と血糖値の改善をもたらす。

People with type 1 diabetes (T1D) struggle to calculate the optimal insulin dose at mealtime, especially when under multiple daily injections (MDI) therapy. Effectively, they will not always perform rigorous and precise calculations, but occasionally, they might rely on intuition and previous experience. Reinforcement learning (RL) has shown outstanding results in outperforming humans on tasks requiring intuition and learning from experience. In this work, we propose an RL agent that recommends the optimal meal-accompanying insulin dose corresponding to a qualitative meal (QM) strategy that does not require precise carbohydrate counting (CC) (e.g., a usual meal at noon.). The agent is trained using the soft actor-critic approach and comprises long short-term memory (LSTM) neurons. For training, eighty virtual subjects (VS) of the FDA-accepted UVA/Padova T1D adult population were simulated using MDI therapy and QM strategy. For validation, the remaining twenty VS were examined in 26-week scenarios, including intra- and inter-day variabilities in glucose. \textit{In-silico} results showed that the proposed RL approach outperforms a baseline run-to-run approach and can replace the standard CC approach. Specifically, after 26 weeks, the time-in-range ($70-180$mg/dL) and time-in-hypoglycemia ($<70$mg/dL) were $73.1\pm11.6$% and $ 2.0\pm 1.8$% using the RL-optimized QM strategy compared to $70.6\pm14.8$% and $ 1.5\pm 1.5$% using CC. Such an approach can simplify diabetes treatment, resulting in improved quality of life and glycemic outcomes.
翻訳日:2023-09-19 17:24:19 公開日:2023-09-17
# 深層学習の条件付き相互情報による分類

Conditional Mutual Information Constrained Deep Learning for Classification ( http://arxiv.org/abs/2309.09123v1 )

ライセンス: Link先を確認
En-Hui Yang, Shayan Mohajer Hamidi, Linfeng Ye, Renhao Tan and Beverly Yang(参考訳) 条件付き相互情報(CMI)と正規化条件付き相互情報(NCMI)の概念を導入し、DNNの出力確率分布空間における分類深度ニューラルネットワーク(DNN)の濃度と分離性能を測定し、CMIとCMIの比率はそれぞれDNNのクラス内濃度とクラス間分離を表す。 NCMIを用いて、画像ネット上で事前訓練された一般的なDNNを評価することにより、画像ネット検証データセットに対する検証精度は、NCMI値にほぼ逆比例することを示した。 この観測に基づいて、標準ディープラーニング(DL)フレームワークは、NCMI制約を受ける標準クロスエントロピー関数を最小限に抑え、CMI制約深層学習(CMIC-DL)を実現するために、さらに修正される。 このような制約付き最適化問題を解くために,新しい交互学習アルゴリズムを提案する。 CMIC-DL内で訓練されたDNNは、標準的なDL内で訓練された最先端のモデルと、敵攻撃に対する正確性と堅牢性の両方の観点から、文献中の他の損失関数より優れていた。 また、CMIとNCMIのレンズによる学習過程の進化を可視化することも提唱されている。

The concepts of conditional mutual information (CMI) and normalized conditional mutual information (NCMI) are introduced to measure the concentration and separation performance of a classification deep neural network (DNN) in the output probability distribution space of the DNN, where CMI and the ratio between CMI and NCMI represent the intra-class concentration and inter-class separation of the DNN, respectively. By using NCMI to evaluate popular DNNs pretrained over ImageNet in the literature, it is shown that their validation accuracies over ImageNet validation data set are more or less inversely proportional to their NCMI values. Based on this observation, the standard deep learning (DL) framework is further modified to minimize the standard cross entropy function subject to an NCMI constraint, yielding CMI constrained deep learning (CMIC-DL). A novel alternating learning algorithm is proposed to solve such a constrained optimization problem. Extensive experiment results show that DNNs trained within CMIC-DL outperform the state-of-the-art models trained within the standard DL and other loss functions in the literature in terms of both accuracy and robustness against adversarial attacks. In addition, visualizing the evolution of learning process through the lens of CMI and NCMI is also advocated.
翻訳日:2023-09-19 17:23:43 公開日:2023-09-17
# FDCNet: クラスインクリメンタル弱修正オブジェクトローカライゼーションのための機能ドリフト補償ネットワーク

FDCNet: Feature Drift Compensation Network for Class-Incremental Weakly Supervised Object Localization ( http://arxiv.org/abs/2309.09122v1 )

ライセンス: Link先を確認
Sejin Park and Taehyung Lee and Yeejin Lee and Byeongkeun Kang(参考訳) この研究は、クラス増分弱教師付きオブジェクトローカライゼーション(CI-WSOL)の課題に対処する。 目標は、画像レベルのアノテーションのみを使用して、新しいクラスのオブジェクトローカライズを段階的に学習し、以前の学習したクラスをローカライズする能力を維持することだ。 オブジェクトのローカライゼーションは様々なアプリケーションにおいて重要であるが、新しい受信データごとにバウンダリングボックスをアノテートすることは高価である。 私たちの知る限りでは、私たちはこの課題に最初に取り組みます。 そこで,本研究では,クラスインクリメンタルな分類器の戦略を適用して,ci-wsolの強力なベースライン手法を提案する。 これらの戦略には、知識蒸留の適用、以前のタスクからの小さなデータセットの維持、コサイン正規化の使用が含まれる。 そこで我々は,特徴ドリフトがクラススコアやローカライゼーションマップに与える影響を補償する特徴ドリフト補償ネットワークを提案する。 ネットワークパラメータを更新して新しいタスクを学習し、機能ドリフトを引き起こすため、最終的な出力を補償する必要がある。 最後に,2つの公開データセット(ImageNet-100とCUB-200)で実験を行い,提案手法の評価を行った。 実験の結果,提案手法は他のベースライン法よりも優れていた。

This work addresses the task of class-incremental weakly supervised object localization (CI-WSOL). The goal is to incrementally learn object localization for novel classes using only image-level annotations while retaining the ability to localize previously learned classes. This task is important because annotating bounding boxes for every new incoming data is expensive, although object localization is crucial in various applications. To the best of our knowledge, we are the first to address this task. Thus, we first present a strong baseline method for CI-WSOL by adapting the strategies of class-incremental classifiers to mitigate catastrophic forgetting. These strategies include applying knowledge distillation, maintaining a small data set from previous tasks, and using cosine normalization. We then propose the feature drift compensation network to compensate for the effects of feature drifts on class scores and localization maps. Since updating network parameters to learn new tasks causes feature drifts, compensating for the final outputs is necessary. Finally, we evaluate our proposed method by conducting experiments on two publicly available datasets (ImageNet-100 and CUB-200). The experimental results demonstrate that the proposed method outperforms other baseline methods.
翻訳日:2023-09-19 17:23:18 公開日:2023-09-17
# 大規模言語モデルにおけるジェンダーバイアスの一般認識: ChatGPT と Ernie の事例

Public Perceptions of Gender Bias in Large Language Models: Cases of ChatGPT and Ernie ( http://arxiv.org/abs/2309.09120v1 )

ライセンス: Link先を確認
Kyrie Zhixuan Zhou, Madelyn Rose Sanfilippo(参考訳) 大規模な言語モデルは急速に勢いを増しているが、その反応に性別バイアスが現れる。 本稿では,異なる文化的文脈で訓練されたllm,すなわち米国拠点のllmであるchatgpt,中国拠点のllmであるernieにおけるジェンダーバイアスに対する一般の認識を評価するために,ソーシャルメディアの議論の内容分析を行った。 人々は、個人使用における性別バイアスの観察と、LSMにおける性別バイアスに関する科学的知見の両方を共有した。 2つの LLM の違いが見られ、ChatGPT は、例えば、異なる職業を持つ男女を関連付けるなど、暗黙の性的偏見を持つことがしばしば見出され、一方、Ernie の反応では、例えば、女性がキャリアよりも結婚を追求することを過度に促進している。 以上より,文化がジェンダーバイアスに与える影響を考察し,llmにおけるジェンダーバイアスを規制するためのガバナンス・レコメンデーションを提案する。

Large language models are quickly gaining momentum, yet are found to demonstrate gender bias in their responses. In this paper, we conducted a content analysis of social media discussions to gauge public perceptions of gender bias in LLMs which are trained in different cultural contexts, i.e., ChatGPT, a US-based LLM, or Ernie, a China-based LLM. People shared both observations of gender bias in their personal use and scientific findings about gender bias in LLMs. A difference between the two LLMs was seen -- ChatGPT was more often found to carry implicit gender bias, e.g., associating men and women with different profession titles, while explicit gender bias was found in Ernie's responses, e.g., overly promoting women's pursuit of marriage over career. Based on the findings, we reflect on the impact of culture on gender bias and propose governance recommendations to regulate gender bias in LLMs.
翻訳日:2023-09-19 17:22:58 公開日:2023-09-17
# 深部形状を優先した不確実性を考慮した3次元オブジェクトレベルマッピング

Uncertainty-aware 3D Object-Level Mapping with Deep Shape Priors ( http://arxiv.org/abs/2309.09118v1 )

ライセンス: Link先を確認
Ziwei Liao, Jun Yang, Jingxing Qian, Angela P. Schoellig, Steven L. Waslander(参考訳) 3Dオブジェクトレベルのマッピングはロボット工学の基本的な問題であり、推論中にオブジェクトCADモデルが利用できない場合、特に困難である。 本稿では,未知のオブジェクトに対して高品質なオブジェクトレベルマップを再構築するフレームワークを提案する。 提案手法では,複数のrgb-d画像を入力として,検出対象に対して密度の高い3d形状と9dofポーズ(3スケールパラメータを含む)を出力する。 このアプローチの核となる考え方は、3次元再構成のための確率的不確実性認識最適化フレームワークを定式化するために、事前の形状カテゴリの学習型生成モデルを活用することである。 形状を伝播し、2つの新しい損失関数を介して不確実性を示す確率的定式化を導出する。 現在の最先端のアプローチとは異なり、最適化中にオブジェクトの形状やポーズの不確かさを明示的にモデル化し、高品質なオブジェクトレベルのマッピングシステムを実現する。 さらに,オブジェクトマップの真の誤りを正確に反映できる形状やポーズの不確実性も,アクティブビジョンなどの下流ロボットタスクに有用であることを示す。 屋内および屋外の実世界のデータセットについて広範な評価を行い,最先端の手法よりも大幅な改善を達成している。 私たちのコードはhttps://github.com/trailab/uncertainshapeposeで利用可能です。

3D object-level mapping is a fundamental problem in robotics, which is especially challenging when object CAD models are unavailable during inference. In this work, we propose a framework that can reconstruct high-quality object-level maps for unknown objects. Our approach takes multiple RGB-D images as input and outputs dense 3D shapes and 9-DoF poses (including 3 scale parameters) for detected objects. The core idea of our approach is to leverage a learnt generative model for shape categories as a prior and to formulate a probabilistic, uncertainty-aware optimization framework for 3D reconstruction. We derive a probabilistic formulation that propagates shape and pose uncertainty through two novel loss functions. Unlike current state-of-the-art approaches, we explicitly model the uncertainty of the object shapes and poses during our optimization, resulting in a high-quality object-level mapping system. Moreover, the resulting shape and pose uncertainties, which we demonstrate can accurately reflect the true errors of our object maps, can also be useful for downstream robotics tasks such as active vision. We perform extensive evaluations on indoor and outdoor real-world datasets, achieving achieves substantial improvements over state-of-the-art methods. Our code will be available at https://github.com/TRAILab/UncertainShapePose.
翻訳日:2023-09-19 17:22:36 公開日:2023-09-17
# コントラストデコードによる大規模言語モデルの推論改善

Contrastive Decoding Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2309.09117v1 )

ライセンス: Link先を確認
Sean O'Brien, Mike Lewis(参考訳) li et al 2022 によって提案された、単純で計算量が少なく、トレーニングフリーなテキスト生成手法であるコントラスト復号化が、様々な推論タスクにおける欲張りなデコードよりも大幅に改善されていることを実証する。 もともと長文テキスト生成の知覚的品質を改善するために示されていたContrastive Decodingは、強いモデルと弱いモデルの間の可能性の重み付け差を最大化する文字列を探索する。 我々は,LLaMA-65BがHellaSwagのコモンセンス推論ベンチマークでLLaMA 2, GPT-3.5, PaLM 2-Lを上回り, GSM8Kの算術語推論ベンチマークでLLaMA 2, GPT-3.5, PaLM-540Bを上回り,他のタスクのコレクションの改善に加えて,LLaMA 2, GPT-3.5, PaLM-540Bを上回ります。 分析によると、Contrastive Decodingは、いくつかの抽象的推論エラーを防止し、また、チェーン・オブ・インプット中に入力のセクションをコピーするといった単純なモードを避けることによって、既存の手法よりも改善されている。 全体として、Contrastive Decodingは、ロングフォーム生成のための核サンプリングと推論タスクのためのグリージーデコーディングに優れており、言語モデルからテキストを生成するための強力な汎用的方法である。

We demonstrate that Contrastive Decoding -- a simple, computationally light, and training-free text generation method proposed by Li et al 2022 -- achieves large out-of-the-box improvements over greedy decoding on a variety of reasoning tasks. Originally shown to improve the perceived quality of long-form text generation, Contrastive Decoding searches for strings that maximize a weighted difference in likelihood between strong and weak models. We show that Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM 2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA 2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in addition to improvements on a collection of other tasks. Analysis suggests that Contrastive Decoding improves over existing methods by preventing some abstract reasoning errors, as well as by avoiding simpler modes such as copying sections of the input during chain-of-thought. Overall, Contrastive Decoding outperforms nucleus sampling for long-form generation and greedy decoding for reasoning tasks, making it a powerful general purpose method for generating text from language models.
翻訳日:2023-09-19 17:22:12 公開日:2023-09-17
# 埋立地を特徴付ける自己組織化マップ(som)を用いた地電・地球化学データの統合

Integration of geoelectric and geochemical data using Self-Organizing Maps (SOM) to characterize a landfill ( http://arxiv.org/abs/2309.09164v1 )

ライセンス: Link先を確認
Camila Juliao, Johan Diaz, Yosmely Berm\'Udez, Milagrosa Aldana(参考訳) ゴミ捨て場からの浸出物は、周辺地域を著しく汚染する可能性がある。 これらの地域と人口間の距離がかなり大きいとしても、公共利用のための帯水層に影響を及ぼすリスクは、ほとんどの場合、差し迫っている。 このため, 浸出水面の沈降とモニタリングが重要である。 地電データ(比抵抗とIP)と表面メタン測定は、埋立地周辺の危険領域を特定するために、教師なしニューラルネットワークを用いて統合され分類される。 ニューラルネットワークはKohonen型であり、その結果、自己組織化分類マップまたはSOM(Self-Organizing Map)が生成される。 同様の行動を示すニューロン群が選択された訓練から2つの図形出力を得た。 これらの群の位置に対応する輪郭地図と個々の変数が生成され、得られた分類とそれらの変数に関連付けられた異なる異常を比較した。 この分類から得られた2つの群は, 個別に評価されたパラメータに対して, 埋立処分場に埋没した液体の典型値と関連している。 このようにして, 調査埋立処分場の被害地域を正確に推定し, 入力変数をSOMを用いて統合した。 研究エリアの場所は、秘密の理由から詳細ではない。

Leachates from garbage dumps can significantly compromise their surrounding area. Even if the distance between these and the populated areas could be considerable, the risk of affecting the aquifers for public use is imminent in most cases. For this reason, the delimitation and monitoring of the leachate plume are of significant importance. Geoelectric data (resistivity and IP), and surface methane measurements, are integrated and classified using an unsupervised Neural Network to identify possible risk zones in areas surrounding a landfill. The Neural Network used is a Kohonen type, which generates; as a result, Self-Organizing Classification Maps or SOM (Self-Organizing Map). Two graphic outputs were obtained from the training performed in which groups of neurons that presented a similar behaviour were selected. Contour maps corresponding to the location of these groups and the individual variables were generated to compare the classification obtained and the different anomalies associated with each of these variables. Two of the groups resulting from the classification are related to typical values of liquids percolated in the landfill for the parameters evaluated individually. In this way, a precise delimitation of the affected areas in the studied landfill was obtained, integrating the input variables via SOMs. The location of the study area is not detailed for confidentiality reasons.
翻訳日:2023-09-19 17:13:00 公開日:2023-09-17
# カークウッド・ディラック準確率の負性および非現実性に基づく量子コヒーレンスの特徴付け

Characterizing quantum coherence based on the negativity and nonreality of the Kirkwood-Dirac quasiprobability ( http://arxiv.org/abs/2309.09162v1 )

ライセンス: Link先を確認
Agung Budiyono, Joel F. Sumbowo, Mohammad K. Agusta and Bagus E. B. Nurhandoko(参考訳) 近年、量子情報処理の資源として、量子力学の非古典的特徴である量子コヒーレンスの特性、量子化、操作に大きな関心が寄せられている。 一方、初期の頃から、量子現象の非古典的な側面を示すために、いくつかの準確率分布の非古典的な値、すなわち従来の実確率と非負確率から逸脱する値を用いた研究プログラムが存在する。 これまで、この2つの非古典的側面を関連付け、量子状態の量子コヒーレンスをカークウッド-ディラック(kd)準確率の虚部を用いて定量的に特徴づけることができることを示した。 KD準確率の真の部分は想像的部分とは独立に現れ、その負性性は量子科学と技術の異なる領域における量子性を特徴づけるのに使われてきたという事実に言及し、KD準確率の負性も量子コヒーレンスを定量的に特徴づけることが出来るかどうかを問うのは合理的である。 肯定的な答えは、ある要求を満たすKD準確率の実際の部分の非現実性と負性の両方に基づいてコヒーレンスを忠実に定量化することで議論される。 これは、l_1$-ノルムコヒーレンスに対する下限を与え、tsallisエントロピーによって定量化された非コヒーレント正規直交基底に関連する射影的測定で生じる不確実性を与える。 さらに、国家の純度に上限づけられている。 次に,実験室での直接推定をスケッチし,静的感受性評価への応用について検討する。

In recent years, there is a huge interest in the characterization, quantification and manipulation of quantum coherence, a defining nonclassical feature of quantum mechanics, by regarding it as a resource in quantum information processing. On the other hand, since the early days, there has been a research program using the nonclassical values of some quasiprobability distributions, i.e., those that deviate from the conventional real and nonnegative probability, to indicate the nonclassical aspects of quantum phenomena. Previously, we linked this two nonclassical aspects, showing that quantum coherence of a quantum state can indeed be quantitatively characterized by using the imaginary part of the associated Kirkwood-Dirac (KD) quasiprobability. Noting the fact that the real part of the KD quasiprobability appears independently of the imaginary part, and its negativity has been used to characterize quantumness in different areas of quantum science and technology, it is reasonable to ask if the negativity of the KD quasiprobability too can be used to quantitatively characterize quantum coherence. An affirmative answer is argued in the present work by developing a faithfull quantitifer of coherence based on both the nonreality and the negativity of the real part of the KD quasiprobability, satisfying certain desirable requirements. It gives a lower bound to the $l_1$-norm coherence and the uncertainty arising in the projective measurement associated with the incoherent orthonormal basis quantified by the Tsallis entropy. Moreover, it is upper bounded by the state purity. We then sketch its direct estimation in laboratory and discuss an application for the characterization of static susceptibility.
翻訳日:2023-09-19 17:12:41 公開日:2023-09-17
# 弱値測定といくつかの境界に基づく量子トレースノルム非対称性の操作的解釈と推定

Operational interpretation and estimation of quantum trace-norm asymmetry based on weak value measurement and some bounds ( http://arxiv.org/abs/2309.09159v1 )

ライセンス: Link先を確認
Agung Budiyono(参考訳) 翻訳群に対する量子状態の非対称性は、量子科学と技術の多くの分野において中心的な概念である。 状態の変換非対称性の重要かつ幾何学的に直感的な測度は、状態と変換群の生成元の間の可換子のトレースノルムとして定義されるトレースノルム非対称性によって与えられる。 トレースノルム非対称性は、量子資源理論の枠組み内の状態の翻訳非対称性のボナフィド測度に対する全ての要求を満たすが、実験室の操作に関しての意味はいまだに欠けている。 ここで、まず、トレースノルム非対称性はヒルベルト空間のすべての可能な正規直交基底上で最適化された変換群の生成元の弱値の平均絶対虚部と等しいことを示す。 したがって、弱値の測定と古典的最適化を組み合わせることで、短期の量子ハードウェアを用いて実装できる量子変分回路として推定することができる。 次に、トレースノルム非対称性と非実弱値の間のリンクを用いて、量子統計学における他の基本的な概念とトレースノルム非対称性の関係を導出する。 さらに、ケナード・ワイル・ロバートソンの不確実性関係に類似した形式を持つトレースノーム非対称性と量子フィッシャー情報のトレードオフ関係を得る。

The asymmetry of a quantum state relative to a translational group is a central concept in many areas of quantum science and technology. An important and geometrically intuitive measure of translational asymmetry of a state is given by the trace-norm asymmetry, which is defined as the trace norm of the commutator between the state and the generator of the translation group. While trace-norm asymmetry satisfies all the requirements for a bonafide measure of translational asymmetry of a state within the quantum resource theoretical framework, its meaning in terms of laboratory operations is still missing. Here, we first show that the trace-norm asymmetry is equal to the average absolute imaginary part of the weak value of the generator of the translation group optimized over all possible orthonormal bases of the Hilbert space. Hence, it can be estimated via the measurement of weak value combined with a classical optimization in the fashion of quantum variational circuit which may be implemented using the near-term quantum hardware. We then use the link between the trace-norm asymmetry and the nonreal weak value to derive the relation between the trace-norm asymmetry with other basic concepts in quantum statistics. We further obtain trade-off relations for the trace-norm asymmetry and quantum Fisher information, having analogous forms to the Kennard-Weyl-Robertson uncertainty relation.
翻訳日:2023-09-19 17:12:12 公開日:2023-09-17
# 複素弱値からの非対称性としての量子コヒーレンス

Quantum coherence as asymmetry from complex weak values ( http://arxiv.org/abs/2309.09157v1 )

ライセンス: Link先を確認
Agung Budiyono, Mohammad K. Agusta, Bagus E. B. Nurhandoko and Hermawan K. Dipojono(参考訳) エルミート作用素が生成する変換群に対する非対称性としての量子コヒーレンス(quantum coherence)は、量子パラメータ推定に必要な資源である。 一方、パラメータ推定の感度は、推定されるパラメータのユニタリインプリントを生成するエルミート演算子の弱値の虚部と関連していることが知られている。 これは自然に、弱値の虚部を使ってコヒーレンスを非対称性として特徴づけることができるかどうかという問題である。 本研究は,翻訳群の生成元の弱値の平均絶対虚部がすべての可能な射影測度ベース上で最大化され,翻訳群に対する非対称性としてコヒーレンスを定量化することができ,一定の要求を満たすことを示す。 このようなコヒーレンス(英語版)の量子化器は、古典的な最適化手法と組み合わせた弱値の推定により、ハイブリッド量子古典回路を用いて実験的に得ることができると論じる。 量子標準偏差、量子フィッシャー情報、およびカークウッド-ディラック準確率の想像上の部分の観点から、tc w-コヒーレンスの上限を求める。 さらに下界を求め、ケナード・ワイル・ロバートソンの不確実性関係に類似した形式をとる翻訳群の2つの生成元に対するTC w-コヒーレンスの関係を導出する。

Quantum coherence as an asymmetry relative to a translation group generated by a Hermitian operator, is a necessary resource for the quantum parameter estimation. On the other hand, the sensitivity of the parameter estimation is known to be related to the imaginary part of the weak value of the Hermitian operator generating the unitary imprinting of the parameter being estimated. This naturally suggests a question if one can use the imaginary part of the weak value to characterize the coherence as asymmetry. In this work, we show that the average absolute imaginary part of the weak value of the generator of the translation group, maximized over all possible projective measurement bases, can be used to quantify the coherence as asymmetry relative to the translation group, satisfying certain desirable requirements. We argue that the quantifier of coherence so defined, called TC (translationally-covariant) w-coherence, can be obtained experimentally using a hybrid quantum-classical circuit via the estimation of weak value combined with a classical optimization procedure. We obtain upper bounds of the TC w-coherence in terms of the quantum standard deviation, quantum Fisher information, and the imaginary part of the Kirkwood-Dirac quasiprobability. We further obtain a lower bound and derive a relation between the TC w-coherences relative to two generators of translation group taking a form analogous to the Kennard-Weyl-Robertson uncertainty relation.
翻訳日:2023-09-19 17:11:49 公開日:2023-09-17
# 非現実のカークウッド・ディラック準確率による量子コヒーレンスの量子化

Quantifying quantum coherence via nonreal Kirkwood-Dirac quasiprobability ( http://arxiv.org/abs/2309.09152v1 )

ライセンス: Link先を確認
Agung Budiyono and Hermawan K. Dipojono(参考訳) カークウッド・ディラック(kirkwood-dirac、kd)は、古典統計力学の位相空間確率の量子アナログであり、負あるいは非実数を許容する。 情報的に完全な量子状態の表現を与える。 近年の研究では、量子科学と量子技術の幅広い分野において、KD準確率が果たす重要な役割を明らかにしている。 本研究では、量子状態における量子コヒーレンスにアクセスするために、KD準確率を用いる。 我々は、KD準確率の虚部であるKD準確率の虚部である$l_1$-normが、非コヒーレント参照基底と第2基底を最大化して、量子コヒーレンスを定量化し、特定の望ましい性質を満たすことを示す。 上界は量子不確実性、すなわち状態の非一貫性基底の量子標準偏差である。 これは$l_1$-ノルム量子コヒーレンスに下限を与え、単一の量子ビットに対してそれらは同一である。 我々は、KD準確率の測定とハイブリッド量子古典スキームの最適化手順に基づいて、KDコヒーレンスの測定を議論し、統計的解釈を提案する。 また、線形応答状態の物理学におけるその関連性についても論じる。

Kirkwood-Dirac (KD) quasiprobability is a quantum analog of phase space probability of classical statistical mechanics, allowing negative or/and nonreal values. It gives an informationally complete representation of a quantum state. Recent works have revealed the important roles played by the KD quasiprobability in the broad fields of quantum science and quantum technology. In the present work, we use the KD quasiprobability to access the quantum coherence in a quantum state. We show that the $l_1$-norm of the imaginary part of the KD quasiprobability over an incoherent reference basis and a second basis, maximized over all possible choices of the latter, can be used to quantify quantum coherence, satisfying certain desirable properties. It is upper bounded by the quantum uncertainty, i.e., the quantum standard deviation, of the incoherent basis in the state. It gives a lower bound to the $l_1$-norm quantum coherence, and for a single qubit, they are identical. We discuss the measurement of the KD coherence based on the measurement of the KD quasiprobability and an optimization procedure in hybrid quantum-classical schemes, and suggest statistical interpretations. We also discuss its relevance in the physics of linear response regime.
翻訳日:2023-09-19 17:11:27 公開日:2023-09-17
# 大規模言語モデルは実世界の複雑な命令を理解することができるか?

Can Large Language Models Understand Real-World Complex Instructions? ( http://arxiv.org/abs/2309.09150v1 )

ライセンス: Link先を確認
Qianyu He, Jie Zeng, Wenhao Huang, Lina Chen, Jin Xiao, Qianxi He, Xunzhe Zhou, Lida Chen, Xintao Wang, Yuncheng Huang, Haoning Ye, Zihan Li, Shisong Chen, Yikai Zhang, Zhouhong Gu, Jiaqing Liang, Yanghua Xiao(参考訳) 大規模言語モデル(llm)は人間の指示を理解でき、従来のnlpタスクを超えた実用的応用の可能性を示している。 しかし、複数のタスクや制約を必要とする複雑なタスク記述や、長いコンテキスト、ノイズ、異種情報、マルチターン形式を含む複雑な入力にはまだ苦労している。 これらの特徴のため、LLMはタスク記述からのセマンティック制約を無視し、誤ったフォーマットを生成し、長さやサンプルカウントの制約に違反し、入力テキストに反することが多い。 既存のベンチマークは、LLMが複雑な命令を理解する能力を評価するには不十分である。 このギャップを埋めるために,LLMの複雑な命令を体系的に追従する能力を評価するベンチマークであるCellOを提案する。 複雑な命令のための8つの特徴を設計し、実世界のシナリオから包括的な評価データセットを構築する。 私たちはまた、4つの基準を確立し、現在の基準が不十分でバイアスがあり、厳しすぎるため、対応するメトリクスを開発します。 中国語と英語を対象とする代表的なモデルの性能を、広範な実験を通して複雑な指示に従うことで比較する。 CellOのリソースはhttps://github.com/Abbey4799/CELLOで公開されている。

Large language models (LLMs) can understand human instructions, showing their potential for pragmatic applications beyond traditional NLP tasks. However, they still struggle with complex instructions, which can be either complex task descriptions that require multiple tasks and constraints, or complex input that contains long context, noise, heterogeneous information and multi-turn format. Due to these features, LLMs often ignore semantic constraints from task descriptions, generate incorrect formats, violate length or sample count constraints, and be unfaithful to the input text. Existing benchmarks are insufficient to assess LLMs' ability to understand complex instructions, as they are close-ended and simple. To bridge this gap, we propose CELLO, a benchmark for evaluating LLMs' ability to follow complex instructions systematically. We design eight features for complex instructions and construct a comprehensive evaluation dataset from real-world scenarios. We also establish four criteria and develop corresponding metrics, as current ones are inadequate, biased or too strict and coarse-grained. We compare the performance of representative Chinese-oriented and English-oriented models in following complex instructions through extensive experiments. Resources of CELLO are publicly available at https://github.com/Abbey4799/CELLO.
翻訳日:2023-09-19 17:11:02 公開日:2023-09-17
# パーソナライズによる量子エンドツーエンドASRモデルの強化

Enhancing Quantised End-to-End ASR Models via Personalisation ( http://arxiv.org/abs/2309.09136v1 )

ライセンス: Link先を確認
Qiuming Zhao and Guangzhi Sun and Chao Zhang and Mingxing Xu and Thomas Fang Zheng(参考訳) 最近のエンドツーエンド自動音声認識(ASR)モデルはますます大きくなり、リソース制約のあるデバイスに展開することが特に困難になっている。 モデル量子化は、時に単語誤り率(wer)を増加させる効果的な解である。 本稿では,重圧縮モデルの性能を向上させるために,話者適応訓練(sat)とモデル量子化を組み合わせた量子化モデル(pqm)のための新しいパーソナライズ戦略を提案する。 特に、pqmはsatのモデル量子化と低ランク適応(lora)のために4ビット正規フロア量子化(nf4)アプローチを用いる。 LibriSpeechとTED-Lium 3コーパスで実験が行われた。 注目すべきは、モデルサイズが7倍に、スピーカー固有のパラメータが1%追加され、15.1%と23.3%の相対的なWER削減が、それぞれ量子化ウィスパーとコンバータベースの注意ベースのエンコーダデコーダASRモデルで達成されたことである。

Recent end-to-end automatic speech recognition (ASR) models have become increasingly larger, making them particularly challenging to be deployed on resource-constrained devices. Model quantisation is an effective solution that sometimes causes the word error rate (WER) to increase. In this paper, a novel strategy of personalisation for a quantised model (PQM) is proposed, which combines speaker adaptive training (SAT) with model quantisation to improve the performance of heavily compressed models. Specifically, PQM uses a 4-bit NormalFloat Quantisation (NF4) approach for model quantisation and low-rank adaptation (LoRA) for SAT. Experiments have been performed on the LibriSpeech and the TED-LIUM 3 corpora. Remarkably, with a 7x reduction in model size and 1% additional speaker-specific parameters, 15.1% and 23.3% relative WER reductions were achieved on quantised Whisper and Conformer-based attention-based encoder-decoder ASR models respectively, comparing to the original full precision models.
翻訳日:2023-09-19 17:10:43 公開日:2023-09-17
# 全変動距離推定は確率的推論と同じくらい簡単である

Total Variation Distance Estimation Is as Easy as Probabilistic Inference ( http://arxiv.org/abs/2309.09134v1 )

ライセンス: Link先を確認
Arnab Bhattacharyya, Sutanu Gayen, Kuldeep S. Meel, Dimitrios Myrisiotis, A. Pavan, N. V. Vinodchandran(参考訳) 本稿では,全変動(TV)距離推定と確率的推定との新たな関連性を確立する。 特に,テレビ距離の相対近似から有向グラフィカルモデル上の確率的推論までの効率良く,構造保存的な削減を提案する。 この減少は、効率的な確率的推論アルゴリズムが存在するベイズネットのあらゆる種類の分布間のテレビ距離を推定するための完全多項式ランダム化近似スキーム(FPRAS)につながる。 特に、これは境界木幅のベイズネットによって定義される分布間のテレビ距離を推定するためのFPRASにつながる。 この研究に先立ち、そのような近似スキームは製品分布間のテレビ距離を推定するためにしか存在しなかった。 このアプローチでは,高次元分布の$partial$結合という新たな概念が採用されている。

In this paper, we establish a novel connection between total variation (TV) distance estimation and probabilistic inference. In particular, we present an efficient, structure-preserving reduction from relative approximation of TV distance to probabilistic inference over directed graphical models. This reduction leads to a fully polynomial randomized approximation scheme (FPRAS) for estimating TV distances between distributions over any class of Bayes nets for which there is an efficient probabilistic inference algorithm. In particular, it leads to an FPRAS for estimating TV distances between distributions that are defined by Bayes nets of bounded treewidth. Prior to this work, such approximation schemes only existed for estimating TV distances between product distributions. Our approach employs a new notion of $partial$ couplings of high-dimensional distributions, which might be of independent interest.
翻訳日:2023-09-19 17:10:21 公開日:2023-09-17
# L^1$ 推定:線形推定器の最適性について

$L^1$ Estimation: On the Optimality of Linear Estimators ( http://arxiv.org/abs/2309.09129v1 )

ライセンス: Link先を確認
Leighton P. Barnes, Alex Dytso, Jingbo Liu, H. Vincent Poor(参考訳) ノイズ観測から確率変数 $x$ を推定する問題を考えると、$y = x+ z$ であり、ここでは$z$ は標準正規であり、$l^1$ fidelity criterion である。 この設定における最適ベイズ推定器が条件中央値であることはよく知られている。 この研究は、条件中央値の線型性を誘導する$X$上の唯一の先行分布がガウス分布であることを示している。 他にもいくつかの結果が提示されている。 特に、条件分布 $p_{x|y=y}$ がすべての$y$ に対して対称であれば、$x$ はガウス分布に従わなければならない。 さらに、他の$l^p$損失を検討し、以下の現象を観察する: $p \in [1,2]$, gaussian は線形最適ベイズ推定子を誘導する唯一の事前分布であり、$p \in (2,\infty)$ では、$x$ 上の無限個の事前分布は線形性を誘導することができる。 最後に、ある指数族からの条件分布につながるノイズモデルを含む拡張が提供される。

Consider the problem of estimating a random variable $X$ from noisy observations $Y = X+ Z$, where $Z$ is standard normal, under the $L^1$ fidelity criterion. It is well known that the optimal Bayesian estimator in this setting is the conditional median. This work shows that the only prior distribution on $X$ that induces linearity in the conditional median is Gaussian. Along the way, several other results are presented. In particular, it is demonstrated that if the conditional distribution $P_{X|Y=y}$ is symmetric for all $y$, then $X$ must follow a Gaussian distribution. Additionally, we consider other $L^p$ losses and observe the following phenomenon: for $p \in [1,2]$, Gaussian is the only prior distribution that induces a linear optimal Bayesian estimator, and for $p \in (2,\infty)$, infinitely many prior distributions on $X$ can induce linearity. Finally, extensions are provided to encompass noise models leading to conditional distributions from certain exponential families.
翻訳日:2023-09-19 17:10:09 公開日:2023-09-17
# ChainForge: プロンプトエンジニアリングとLLM仮説テストのためのビジュアルツールキット

ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis Testing ( http://arxiv.org/abs/2309.09128v1 )

ライセンス: Link先を確認
Ian Arawjo, Chelse Swoopes, Priyan Vaithilingam, Martin Wattenberg, Elena Glassman(参考訳) 大規模言語モデル(llm)のアウトプットの評価は困難であり、多くの応答を -- 理解し -- する必要がある。 しかし、基本的なプロンプトを超えたツールは、プログラミングAPIの知識、狭いドメインにフォーカスしたり、クローズドソースになる傾向がある。 テキスト生成llmのプロンプトエンジニアリングとオンデマンド仮説テストのための,オープンソースのビジュアルツールキットであるchainforgeを提案する。 chainforgeは、モデル間の応答とプロンプトのバリエーションを比較するためのグラフィカルなインターフェースを提供する。 提案システムは,モデル選択,プロンプトテンプレート設計,仮説テスト(監査など)の3つのタスクをサポートするように設計された。 当社は開発の初期段階にchainforgeをリリースし、アカデミックやオンラインユーザによる設計を繰り返し行いました。 インラボやインタビュー研究を通じて、ChainForgeを使って、現実世界の設定を含む、自分たちにとって重要な仮説を調査できることがわかりました。 我々は,3種類の即時エンジニアリングとLLM仮説テスト(機会探索,限られた評価,反復的改善)を同定した。

Evaluating outputs of large language models (LLMs) is challenging, requiring making -- and making sense of -- many responses. Yet tools that go beyond basic prompting tend to require knowledge of programming APIs, focus on narrow domains, or are closed-source. We present ChainForge, an open-source visual toolkit for prompt engineering and on-demand hypothesis testing of text generation LLMs. ChainForge provides a graphical interface for comparison of responses across models and prompt variations. Our system was designed to support three tasks: model selection, prompt template design, and hypothesis testing (e.g., auditing). We released ChainForge early in its development and iterated on its design with academics and online users. Through in-lab and interview studies, we find that a range of people could use ChainForge to investigate hypotheses that matter to them, including in real-world settings. We identify three modes of prompt engineering and LLM hypothesis testing: opportunistic exploration, limited evaluation, and iterative refinement.
翻訳日:2023-09-19 17:09:44 公開日:2023-09-17
# SplitEE: Split Computingによるディープニューラルネットワークの早期流出

SplitEE: Early Exit in Deep Neural Networks with Split Computing ( http://arxiv.org/abs/2309.09195v1 )

ライセンス: Link先を確認
Divya J. Bajpai, Vivek K. Trivedi, Sohan L. Yadav, and Manjesh K. Hanawal(参考訳) ディープニューラルネットワーク(DNN)は、様々なタスクにおける優れたパフォーマンスのために注目を集めている。 しかし、リソース制約のあるデバイス(エッジ、モバイル、IoT)に本格的なDNNをデプロイするのは、サイズが大きいため難しい。 この問題を克服するため、最終推論(スプリットコンピューティング)のために計算の一部をクラウドにオフロードしたり、すべての層(初期出口)を通さずに中間層で推論を実行するといった様々なアプローチが検討されている。 本研究では,分割計算における早期出口を用いた両手法の組み合わせを提案する。 提案手法では,デバイス上でのDNN計算の深さ(分割層)と,サンプルがこの層から離脱可能か,オフロードが必要かを決定する。 決定は、正確性、計算量、通信コストの重み付けの組み合わせに基づいている。 最適なポリシーを学ぶためにSplitEEというアルゴリズムを開発した。 トレーニング済みのDNNは、地上の真実が利用できず、サンプルがストリーミング形式で到着する可能性のある新しいドメインにデプロイされることが多いため、SplitEEはオンラインかつ教師なしのセットアップで動作する。 5つの異なるデータセットの実験を幅広く実施する。 SplitEEは、最終層で全てのサンプルが推測される場合と比較して、わずかな精度の低下(<2\%$)で、大幅なコスト削減(>50\%$)を達成する。 匿名のソースコードは \url{https://anonymous.4open.science/r/SplitEE_M-B989/README.md} で入手できる。

Deep Neural Networks (DNNs) have drawn attention because of their outstanding performance on various tasks. However, deploying full-fledged DNNs in resource-constrained devices (edge, mobile, IoT) is difficult due to their large size. To overcome the issue, various approaches are considered, like offloading part of the computation to the cloud for final inference (split computing) or performing the inference at an intermediary layer without passing through all layers (early exits). In this work, we propose combining both approaches by using early exits in split computing. In our approach, we decide up to what depth of DNNs computation to perform on the device (splitting layer) and whether a sample can exit from this layer or need to be offloaded. The decisions are based on a weighted combination of accuracy, computational, and communication costs. We develop an algorithm named SplitEE to learn an optimal policy. Since pre-trained DNNs are often deployed in new domains where the ground truths may be unavailable and samples arrive in a streaming fashion, SplitEE works in an online and unsupervised setup. We extensively perform experiments on five different datasets. SplitEE achieves a significant cost reduction ($>50\%$) with a slight drop in accuracy ($<2\%$) as compared to the case when all samples are inferred at the final layer. The anonymized source code is available at \url{https://anonymous.4open.science/r/SplitEE_M-B989/README.md}.
翻訳日:2023-09-19 17:04:46 公開日:2023-09-17
# タンパク質成形速度予測のためのエンドツーエンド最適化パイプライン

End-to-End Optimized Pipeline for Prediction of Protein Folding Kinetics ( http://arxiv.org/abs/2309.09191v1 )

ライセンス: Link先を確認
Vijay Arvind.R and Haribharathi Sivakumar and Brindha.R(参考訳) タンパク質の折り畳みは、アミノ酸の線形配列が独自の3次元構造に自己組織化する複雑な過程である。 タンパク質の折り畳み運動学は、タンパク質が折り畳むときに起こる経路と時間依存機構の研究である。 タンパク質の動態を理解することは、その生物学的機能を実行するために正しく折りたたむ必要があるため、しばしば細胞環境に理想的でない形に縮めることができ、多くの変性神経変性疾患やアミロイド病を引き起こす。 リスクの高い個体をモニタリングし、タンパク質の折りたたみ運動におけるタンパク質の異常を早期に検出することは、予防措置がとれるように、公衆の健康上の利益に繋がる可能性がある。 本研究では,タンパク質の折り畳み速度を高精度かつ低いメモリフットプリントで予測する効率的なパイプラインを提案する。 デプロイされた機械学習(ML)モデルは、最先端のMLモデルよりも精度が4.8%向上し、327倍のメモリを消費し、7.3%高速になった。

Protein folding is the intricate process by which a linear sequence of amino acids self-assembles into a unique three-dimensional structure. Protein folding kinetics is the study of pathways and time-dependent mechanisms a protein undergoes when it folds. Understanding protein kinetics is essential as a protein needs to fold correctly for it to perform its biological functions optimally, and a misfolded protein can sometimes be contorted into shapes that are not ideal for a cellular environment giving rise to many degenerative, neuro-degenerative disorders and amyloid diseases. Monitoring at-risk individuals and detecting protein discrepancies in a protein's folding kinetics at the early stages could majorly result in public health benefits, as preventive measures can be taken. This research proposes an efficient pipeline for predicting protein folding kinetics with high accuracy and low memory footprint. The deployed machine learning (ML) model outperformed the state-of-the-art ML models by 4.8% in terms of accuracy while consuming 327x lesser memory and being 7.3% faster.
翻訳日:2023-09-19 17:04:20 公開日:2023-09-17
# 共形推論を用いた確率力学系のデータ駆動到達可能性解析

Data-Driven Reachability Analysis of Stochastic Dynamical Systems with Conformal Inference ( http://arxiv.org/abs/2309.09187v1 )

ライセンス: Link先を確認
Navid Hashemi, Xin Qin, Lars Lindemann, Jyotirmoy V. Deshmukh(参考訳) 共形推論を用いた離散時間確率力学系のデータ駆動到達可能性解析を考える。 確率システムの象徴的な表現は提供されていないが、代わりに$k$-step のトラジェクタのデータセットにアクセスできると仮定する。 到達可能性の問題は、k$-step の軌道がフローパイプの境界に違反する確率がユーザ指定の故障確率閾値を超えないような確率的フローパイプを構築することである。 本稿では,(1)データからサロゲート予測モデルを学ぶ,(2)サロゲートモデルを用いて到達可能性解析を行う,(3)確率的到達可能性を保証するために共形推論を用いてサロゲートモデルの帰結誤差を定量化する,というアイデアを提案する。 記号的にモデル化が難しい複雑な閉ループダイナミクスを持つ学習可能な制御系に注目するが,例えばシミュレータを用いて状態遷移ペアを問い合わせることができる。 本稿では,学習可能なサイバー物理システムの事例から,本手法の適用性を示す。

We consider data-driven reachability analysis of discrete-time stochastic dynamical systems using conformal inference. We assume that we are not provided with a symbolic representation of the stochastic system, but instead have access to a dataset of $K$-step trajectories. The reachability problem is to construct a probabilistic flowpipe such that the probability that a $K$-step trajectory can violate the bounds of the flowpipe does not exceed a user-specified failure probability threshold. The key ideas in this paper are: (1) to learn a surrogate predictor model from data, (2) to perform reachability analysis using the surrogate model, and (3) to quantify the surrogate model's incurred error using conformal inference in order to give probabilistic reachability guarantees. We focus on learning-enabled control systems with complex closed-loop dynamics that are difficult to model symbolically, but where state transition pairs can be queried, e.g., using a simulator. We demonstrate the applicability of our method on examples from the domain of learning-enabled cyber-physical systems.
翻訳日:2023-09-19 17:04:00 公開日:2023-09-17
# CLIPUNetr:CLIP-driven Referring Expression Segmentationによる視覚サーボ制御のためのヒューマンロボットインタフェース

CLIPUNetr: Assisting Human-robot Interface for Uncalibrated Visual Servoing Control with CLIP-driven Referring Expression Segmentation ( http://arxiv.org/abs/2309.09183v1 )

ライセンス: Link先を確認
Chen Jiang, Yuchen Yang, Martin Jagersand(参考訳) uibvs(uncalibrated image-based visual servoing)の古典的なヒューマンロボットインタフェースは、人間のアノテーションまたはカテゴリーラベルによる意味セグメンテーションに依存している。 どちらの方法も自然言語コミュニケーションと一致せず、自然言語表現と同じくらい効果的に操作タスクにおいて豊富な意味を伝達する。 本稿では,ロボットの知覚に深い情報を提供するために,プロンプトベースアプローチである参照表現セグメンテーションを用いてこの問題に対処する。 参照表現から高品質なセグメンテーション予測を生成するために,新しいCLIP駆動参照表現セグメンテーションネットワークであるCLIPUNetrを提案する。 CLIPUNetrはCLIPの強力な視覚言語表現を参照表現からセグメント領域に利用し、‘U字型’エンコーダデコーダアーキテクチャを利用して、よりシャープな境界とより微細な構造を持つ予測を生成する。 さらに,CLIPUNetrをUIBVSに統合し,実環境におけるロボットの制御に適用するパイプラインを提案する。 実験では, 境界と構造の測定を平均120%改善し, 実世界のUIBVS制御の非構造操作環境における支援に成功している。

The classical human-robot interface in uncalibrated image-based visual servoing (UIBVS) relies on either human annotations or semantic segmentation with categorical labels. Both methods fail to match natural human communication and convey rich semantics in manipulation tasks as effectively as natural language expressions. In this paper, we tackle this problem by using referring expression segmentation, which is a prompt-based approach, to provide more in-depth information for robot perception. To generate high-quality segmentation predictions from referring expressions, we propose CLIPUNetr - a new CLIP-driven referring expression segmentation network. CLIPUNetr leverages CLIP's strong vision-language representations to segment regions from referring expressions, while utilizing its ``U-shaped'' encoder-decoder architecture to generate predictions with sharper boundaries and finer structures. Furthermore, we propose a new pipeline to integrate CLIPUNetr into UIBVS and apply it to control robots in real-world environments. In experiments, our method improves boundary and structure measurements by an average of 120% and can successfully assist real-world UIBVS control in an unstructured manipulation environment.
翻訳日:2023-09-19 17:03:31 公開日:2023-09-17
# 調理レシピからロボットタスクツリーへ -知識ネットワークによるLCMの活用による計画精度とタスク効率の向上-

From Cooking Recipes to Robot Task Trees -- Improving Planning Correctness and Task Efficiency by Leveraging LLMs with a Knowledge Network ( http://arxiv.org/abs/2309.09181v1 )

ライセンス: Link先を確認
Md Sadman Sakib and Yu Sun(参考訳) ロボット料理のタスクプランニングでは、ロボットが食事の準備を成功させるために一連のアクションを生成する。 本稿では,調理作業の正確な計画と効率的な実行を実現する新しいタスクツリー生成パイプラインを提案する。 提案手法は,まずレシピ命令の取得に大言語モデル(llm)を使用し,その後,微調整gpt-3を用いてタスクツリーに変換し,サブタスク間のシーケンシャルおよび並列依存関係をキャプチャする。 パイプラインはタスクツリー検索を用いてLCM出力の不確実性と信頼性の低い特徴を緩和する。 複数のLCMタスクツリー出力をグラフに組み合わせてタスクツリー検索を行い、問題のあるノードや高コストノードを回避し、計画の正確性を改善し、実行効率を向上させる。 評価結果は,タスク計画の精度と効率性において,従来よりも優れた性能を示した。

Task planning for robotic cooking involves generating a sequence of actions for a robot to prepare a meal successfully. This paper introduces a novel task tree generation pipeline producing correct planning and efficient execution for cooking tasks. Our method first uses a large language model (LLM) to retrieve recipe instructions and then utilizes a fine-tuned GPT-3 to convert them into a task tree, capturing sequential and parallel dependencies among subtasks. The pipeline then mitigates the uncertainty and unreliable features of LLM outputs using task tree retrieval. We combine multiple LLM task tree outputs into a graph and perform a task tree retrieval to avoid questionable nodes and high-cost nodes to improve planning correctness and improve execution efficiency. Our evaluation results show its superior performance compared to previous works in task planning accuracy and efficiency.
翻訳日:2023-09-19 17:02:55 公開日:2023-09-17
# シーケンス・ツー・シーケンスアーキテクチャを組み込んだメモリ対応マルチスピーカを用いたニューラルスピーカダイアリゼーション

Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding with Sequence-to-Sequence Architecture ( http://arxiv.org/abs/2309.09180v1 )

ライセンス: Link先を確認
Gaobin Yang, Maokui He, Shutong Niu, Ruoyu Wang, Yanyan Yue, Shuangqing Qian, Shilong Wu, Jun Du, Chin-Hui Lee(参考訳) メモリ対応多話者埋め込み(MA-MSE)とシーケンシャル・ツー・シーケンス(Seq2Seq)アーキテクチャの長所を統合し,効率と性能を両立させるメモリ対応多話者埋め込み(NSD-MS2S)を用いたニューラルスピーカダイアリゼーションシステムを提案する。 次に、入力特徴フュージョンを組み込んでデコーディングのメモリ占有を更に減らし、異なるレベルの特徴をキャプチャするためにマルチヘッドアテンション機構を用いる。 nsd-ms2sは、chime-7 evalセット上で15.9%のマクロダイアリゼーションエラーレート(der)を達成し、これは公式ベースラインシステムと比較して49%の相対的な改善を示し、chime-7 dasrチャレンジのメイントラックで最高の性能を達成するための重要な技術である。 さらに,ma-mseモジュールにディープインタラクティブモジュール(dim)を導入して,よりクリーンでより識別可能なマルチスピーカー埋め込みの検索を改善し,現在のモデルがchime-7 dasrチャレンジで使用したシステムよりも優れています。 私たちのコードはhttps://github.com/liyunlongaaa/NSD-MS2Sで公開されます。

We propose a novel neural speaker diarization system using memory-aware multi-speaker embedding with sequence-to-sequence architecture (NSD-MS2S), which integrates the strengths of memory-aware multi-speaker embedding (MA-MSE) and sequence-to-sequence (Seq2Seq) architecture, leading to improvement in both efficiency and performance. Next, we further decrease the memory occupation of decoding by incorporating input features fusion and then employ a multi-head attention mechanism to capture features at different levels. NSD-MS2S achieved a macro diarization error rate (DER) of 15.9% on the CHiME-7 EVAL set, which signifies a relative improvement of 49% over the official baseline system, and is the key technique for us to achieve the best performance for the main track of CHiME-7 DASR Challenge. Additionally, we introduce a deep interactive module (DIM) in MA-MSE module to better retrieve a cleaner and more discriminative multi-speaker embedding, enabling the current model to outperform the system we used in the CHiME-7 DASR Challenge. Our code will be available at https://github.com/liyunlongaaa/NSD-MS2S.
翻訳日:2023-09-19 17:02:22 公開日:2023-09-17
# 視覚質問応答のための構文木制約グラフネットワーク

Syntax Tree Constrained Graph Network for Visual Question Answering ( http://arxiv.org/abs/2309.09179v1 )

ライセンス: Link先を確認
Xiangrui Su, Qi Zhang, Chongyang Shi, Jiachang Liu, and Liang Hu(参考訳) Visual Question Answering (VQA)は、与えられた画像コンテンツに関連する自然言語の質問に自動的に答えることを目的としている。 既存のVQA手法は、視覚モデルと言語理解を統合し、問題の深い意味を探求する。 しかし,これらの手法は,問題の本質的な意味を理解し,視覚的特徴の洗練を導く上で重要な役割を担っている,重要な構文情報を無視している。 このギャップを埋めるために、エンティティメッセージパッシングと構文木に基づくVQAのための新しいSyntax Tree Constrained Graph Network (STCGN)を提案する。 このモデルは質問から構文木を抽出し、より正確な構文情報を得ることができる。 具体的には,stanford構文解析ツールを用いて質問を解析し,質問構文木を得る。 単語レベルとフレーズレベルから,階層木畳み込みネットワークを用いて統語句の特徴と疑問特徴を抽出する。 次に、フレーズ認識型視覚エンティティのためのメッセージパッシング機構を設計し、与えられた視覚コンテキストに応じてエンティティ特徴をキャプチャする。 VQA2.0データセットに関する大規模な実験は、提案モデルが優れていることを示す。

Visual Question Answering (VQA) aims to automatically answer natural language questions related to given image content. Existing VQA methods integrate vision modeling and language understanding to explore the deep semantics of the question. However, these methods ignore the significant syntax information of the question, which plays a vital role in understanding the essential semantics of the question and guiding the visual feature refinement. To fill the gap, we suggested a novel Syntax Tree Constrained Graph Network (STCGN) for VQA based on entity message passing and syntax tree. This model is able to extract a syntax tree from questions and obtain more precise syntax information. Specifically, we parse questions and obtain the question syntax tree using the Stanford syntax parsing tool. From the word level and phrase level, syntactic phrase features and question features are extracted using a hierarchical tree convolutional network. We then design a message-passing mechanism for phrase-aware visual entities and capture entity features according to a given visual context. Extensive experiments on VQA2.0 datasets demonstrate the superiority of our proposed model.
翻訳日:2023-09-19 17:01:43 公開日:2023-09-17
# 動的アンサンブル選択を用いた不均衡データストリーム分類

Imbalanced Data Stream Classification using Dynamic Ensemble Selection ( http://arxiv.org/abs/2309.09175v1 )

ライセンス: Link先を確認
Priya.S and Haribharathi Sivakumar and Vijay Arvind.R(参考訳) 現代のストリーミングデータの分類は、コンセプトドリフトとクラス不均衡データから大きな課題に直面している。 これは分類器の出力に悪影響を及ぼし、不適切な分類につながる。 さらに、多重クラスの重複のような他の要因は出力の正しさの程度を制限する。 本研究では,データ前処理と動的アンサンブル選択技術を用いた非定常ドリフト型不均衡データストリームの分類フレームワークを定式化し,データ前処理と動的アンサンブル選択を統合する新しい枠組みを提案する。 提案手法は,2種類のコンセプトドリフトと組み合わせて,不均衡比の異なる6つのデータストリームを用いて評価した。 各ストリームは8つの特徴によって記述された500のオブジェクトの200チャンクで構成され、5つのコンセプトドリフトを含んでいる。 7つの前処理技術と2つの動的アンサンブル選択法を検討した。 実験結果によると、データ前処理とDynamic Ensemble Selection技術を組み合わせることで、不均衡なデータストリームを扱う場合の精度が大幅に向上する。

Modern streaming data categorization faces significant challenges from concept drift and class imbalanced data. This negatively impacts the output of the classifier, leading to improper classification. Furthermore, other factors such as the overlapping of multiple classes limit the extent of the correctness of the output. This work proposes a novel framework for integrating data pre-processing and dynamic ensemble selection, by formulating the classification framework for the nonstationary drifting imbalanced data stream, which employs the data pre-processing and dynamic ensemble selection techniques. The proposed framework was evaluated using six artificially generated data streams with differing imbalance ratios in combination with two different types of concept drifts. Each stream is composed of 200 chunks of 500 objects described by eight features and contains five concept drifts. Seven pre-processing techniques and two dynamic ensemble selection methods were considered. According to experimental results, data pre-processing combined with Dynamic Ensemble Selection techniques significantly delivers more accuracy when dealing with imbalanced data streams.
翻訳日:2023-09-19 17:01:24 公開日:2023-09-17
# 非エルミート準結晶境界を持つ2次元ハルデンモデルの1次量子相転移と局在

First-order Quantum Phase Transitions and Localization in the 2D Haldane Model with Non-Hermitian Quasicrystal Boundaries ( http://arxiv.org/abs/2309.09173v1 )

ライセンス: Link先を確認
Xianqi Tong, Su-Peng Kou(参考訳) 準結晶(QC)の非エルミート拡張は、新しい物質相を探索するための高度に調整可能なシステムである。 拡張局在相転移は1次元で観測されているが、高次元と様々なシステムサイズにおける量子相転移は未発見のままである。 ここでは、上界に準結晶ポテンシャルを持つ二次元(2次元)ハルダンモデルにおいて、新しい臨界相と虚零点が誘導される一階の量子相転移の発見を示す。 まず, 準周期電位の振幅と位相で進化する位相図を示し, 拡張波動関数を持つ位相 (i) と局所波動関数を持つpt-リストア位相 (ii) と多機能波動関数を持つ臨界位相 (iii) の2つの臨界境界で区分する。 これらの相における波動関数を記述するために、低エネルギー近似理論と有効二本鎖モデルを導入する。 さらに、虚零点による一階構造相転移(FOSPT)を明らかにする。 ポテンシャル境界のサイズを増大させるにつれて、ポテンシャル零点の増大に比例して領域に分裂する臨界相が観察される。 これらの観測は、基底状態の忠実度とエネルギーギャップの計算と一致している。 本研究では,高次元準結晶ポテンシャルに関連する位相図の理解を深め,一意な位相の探索と量子相転移に有用な貢献をする。

The non-Hermitian extension of quasicrystals (QC) are highly tunable system for exploring novel material phases. While extended-localized phase transitions have been observed in one dimension, quantum phase transition in higher dimensions and various system sizes remain unexplored. Here, we show the discovery of a new critical phase and imaginary zeros induced first-order quantum phase transition within the two-dimensional (2D) Haldane model with a quasicrystal potential on the upper boundary. Initially, we illustrate a phase diagram that evolves with the amplitude and phase of the quasiperiodic potential, which is divided into three distinct phases by two critical boundaries: phase (I) with extended wave functions, PT-restore phase (II) with localized wave functions, and a critical phase (III) with multifunctional wave functions. To describe the wavefunctions in these distinct phases, we introduce a low-energy approximation theory and an effective two-chain model. Additionally, we uncover a first-order structural phase transition induced (FOSPT) by imaginary zeros. As we increase the size of the potential boundary, we observe the critical phase splitting into regions in proportion to the growing number of potential zeros. Importantly, these observations are consistent with groundstate fidelity and energy gap calculations. Our research enhances the comprehension of phase diagrams associated with high-dimensional quasicrystal potentials, offering valuable contributions to the exploration of unique phases and quantum phase transition.
翻訳日:2023-09-19 17:01:09 公開日:2023-09-17
# リーマン仮説とニューラルネットワークの特殊クラスとの関係について

On the Connection Between Riemann Hypothesis and a Special Class of Neural Networks ( http://arxiv.org/abs/2309.09171v1 )

ライセンス: Link先を確認
Soufiane Hayou(参考訳) リーマン予想 (RH) は数学における長年の開問題である。 ゼータ函数の非自明な零点はすべて実部が 1/2 に等しいと推測する。 RH の結果の程度は遠く離れており、素数の分布、算術関数の成長、オイラートーティエントの成長など幅広いトピックに触れている。 本稿では、ニューラルネットワークの特殊なクラスを含む最小化問題にRHを接続するNyman-Beurling criterionとして知られるRHの古い分析基準を再検討し、拡張する。 このメモはRHに馴染みのない聴衆のためのものです。 RHの穏やかな導入が提供される。

The Riemann hypothesis (RH) is a long-standing open problem in mathematics. It conjectures that non-trivial zeros of the zeta function all have real part equal to 1/2. The extent of the consequences of RH is far-reaching and touches a wide spectrum of topics including the distribution of prime numbers, the growth of arithmetic functions, the growth of Euler totient, etc. In this note, we revisit and extend an old analytic criterion of the RH known as the Nyman-Beurling criterion which connects the RH to a minimization problem that involves a special class of neural networks. This note is intended for an audience unfamiliar with RH. A gentle introduction to RH is provided.
翻訳日:2023-09-19 17:00:43 公開日:2023-09-17
# 自己教師付き埋め込みと拡張気道変数による音声インバージョンの改善

Improving Speech Inversion Through Self-Supervised Embeddings and Enhanced Tract Variables ( http://arxiv.org/abs/2309.09220v1 )

ライセンス: Link先を確認
Ahmed Adel Attia, Yashish M. Siriwardena, Carol Espy-Wilson(参考訳) ディープラーニングモデルの性能は、入力機能を効率的にエンコードし、それらを意味のある出力にデコードする能力に大きく依存する。 入力および出力表現の改善は、モデルのパフォーマンスと一般化を促進する可能性がある。 本稿では,従来の音響特性と比較して,HuBERTのような自己教師付き学習(SSL)モデルを用いて得られた音声表現を活用することの影響について検討する。 さらに, 改良幾何変換モデルを用いて, 新規経路変数 (tvs) の組み込みについて検討した。 これら2つのアプローチを組み合わせることで,siシステムのテレビ評価精度を0.7452から0.8141に評価するpearson product-moment correlation (ppmc)スコアを6.9%向上させた。 本研究は、SSLモデルによるリッチな特徴表現の深い影響と、SIシステムの強化機能に対するターゲットテレビによる幾何学的変換の改善を裏付けるものである。

The performance of deep learning models depends significantly on their capacity to encode input features efficiently and decode them into meaningful outputs. Better input and output representation has the potential to boost models' performance and generalization. In the context of acoustic-to-articulatory speech inversion (SI) systems, we study the impact of utilizing speech representations acquired via self-supervised learning (SSL) models, such as HuBERT compared to conventional acoustic features. Additionally, we investigate the incorporation of novel tract variables (TVs) through an improved geometric transformation model. By combining these two approaches, we improve the Pearson product-moment correlation (PPMC) scores which evaluate the accuracy of TV estimation of the SI system from 0.7452 to 0.8141, a 6.9% increase. Our findings underscore the profound influence of rich feature representations from SSL models and improved geometric transformations with target TVs on the enhanced functionality of SI systems.
翻訳日:2023-09-19 16:52:42 公開日:2023-09-17
# cryoalign:em密度マップのグローバルおよびローカル3次元アライメントのための特徴量に基づく手法

CryoAlign: feature-based method for global and local 3D alignment of EM density maps ( http://arxiv.org/abs/2309.09217v1 )

ライセンス: Link先を確認
Bintao He, Fa Zhang, Chenjie Feng, Jianyi Yang, Xin Gao and Renmin Han(参考訳) 低温電子イメージング技術の進歩により、密度マップが急速に増加した。 密度マップのアライメントと比較は、大域的アライメントを用いたコンフォメーション不均一解析や局所的アライメントによる原子モデルアセンブリといった構造情報の解釈において重要な役割を果たす。 本稿では,局所密度特徴記述子を用いて空間構造の類似性を捉えた,高速かつ高精度な全球・局所核電顕密度マップアライメント手法であるcryoalignを提案する。 CryoAlignは機能ベースのEMマップアライメントツールであり、機能ベースのアーキテクチャを使うことで、ポイントペア対応の迅速な確立とアライメントパラメータのロバストな推定が可能になる。 CryoAlignはアライメント精度と速度の両方で既存の手法よりも優れていることを示す。

Advances on cryo-electron imaging technologies have led to a rapidly increasing number of density maps. Alignment and comparison of density maps play a crucial role in interpreting structural information, such as conformational heterogeneity analysis using global alignment and atomic model assembly through local alignment. Here, we propose a fast and accurate global and local cryo-electron microscopy density map alignment method CryoAlign, which leverages local density feature descriptors to capture spatial structure similarities. CryoAlign is the first feature-based EM map alignment tool, in which the employment of feature-based architecture enables the rapid establishment of point pair correspondences and robust estimation of alignment parameters. Extensive experimental evaluations demonstrate the superiority of CryoAlign over the existing methods in both alignment accuracy and speed.
翻訳日:2023-09-19 16:52:26 公開日:2023-09-17
# ディファクティブ・ビジュアルプロセッサを用いた全光学画像の復調

All-optical image denoising using a diffractive visual processor ( http://arxiv.org/abs/2309.09215v1 )

ライセンス: Link先を確認
Cagatay Is{\i}l, Tianyi Gan, F. Onuralp Ardic, Koray Mentesoglu, Jagrit Digani, Huseyin Karaca, Hanlong Chen, Jingxi Li, Deniz Mengu, Mona Jarrahi, Kaan Ak\c{s}it, Aydogan Ozcan(参考訳) 画像のデノイングは、入力画像からノイズ/アーティファクトを取り除くことを目的としている。 一般に、コンピュータ上で実行されるデジタル画像デノイジングアルゴリズムは、例えばgpu(graphics processing unit)など、いくつかのイテレーションで実装されたため、現在遅延している。 ディープラーニング対応の手法は非定常的に動作することができるが、レイテンシを導入し、計算負荷が大幅に増加し、消費電力が増大する。 本稿では,光学的および非定性的に入力画像から様々な形状のノイズやアーティファクトを清浄するアナログ回折画像デノイザについて紹介する。 ディープラーニングを用いて最適化された受動透過層を備え、様々なノイズ特性を表す光学モードを物理的に散乱させ、対象の特徴を保持しながら出力画像の視野(fov)を見逃す。 その結果, 入力位相や強度画像から, 塩, ペッパーノイズ, 画像レンダリング関連空間アーティファクトを効率的に除去でき, 出力電力効率は30~40%であることがわかった。 テラヘルツスペクトルで動作する3dプリント回折視覚プロセッサを用いて,このアナログデノイザーアーキテクチャの有効性を実験的に実証した。 速度、電力効率、計算オーバーヘッドの最小化により、ホログラフィックディスプレイなどの様々な画像表示や投影システムにおいて、全光回折デノイザは変換可能である。

Image denoising, one of the essential inverse problems, targets to remove noise/artifacts from input images. In general, digital image denoising algorithms, executed on computers, present latency due to several iterations implemented in, e.g., graphics processing units (GPUs). While deep learning-enabled methods can operate non-iteratively, they also introduce latency and impose a significant computational burden, leading to increased power consumption. Here, we introduce an analog diffractive image denoiser to all-optically and non-iteratively clean various forms of noise and artifacts from input images - implemented at the speed of light propagation within a thin diffractive visual processor. This all-optical image denoiser comprises passive transmissive layers optimized using deep learning to physically scatter the optical modes that represent various noise features, causing them to miss the output image Field-of-View (FoV) while retaining the object features of interest. Our results show that these diffractive denoisers can efficiently remove salt and pepper noise and image rendering-related spatial artifacts from input phase or intensity images while achieving an output power efficiency of ~30-40%. We experimentally demonstrated the effectiveness of this analog denoiser architecture using a 3D-printed diffractive visual processor operating at the terahertz spectrum. Owing to their speed, power-efficiency, and minimal computational overhead, all-optical diffractive denoisers can be transformative for various image display and projection systems, including, e.g., holographic displays.
翻訳日:2023-09-19 16:52:10 公開日:2023-09-17
# 定点正規推定のためのニューラルグラディエント学習と最適化

Neural Gradient Learning and Optimization for Oriented Point Normal Estimation ( http://arxiv.org/abs/2309.09211v1 )

ライセンス: Link先を確認
Qing Li, Huifang Feng, Kanle Shi, Yi Fang, Yu-Shen Liu, Zhizhong Han(参考訳) ニューラルグラデーション学習(ngl)は,3次元点群から一定の方向の勾配ベクトルを正規推定のために学習する深層学習手法である。 基礎となるデータの幾何に対して優れた勾配近似特性を持つ。 単純なニューラルネットワークを用いて目的関数をパラメータ化し,グローバルな暗黙表現を用いて点の勾配を生成する。 しかしながら、導出勾配は通常、局所的な詳細記述が欠如しているため、地道指向の正規から遠ざかっている。 そこで我々は,局所平面形状に基づく角距離場を学習し,粗い勾配ベクトルを改良するために,勾配ベクトル最適化(GVO)を導入する。 最後に, 2 相の粗さ推定パイプラインを用いて手法を定式化し, 改良した。 さらに,2つの重み付け関数,すなわち異方性カーネルと不整点を最適化に組み込んで,頑健かつ詳細な保存性能を向上する。 局所特徴記述の精度と一般化性を向上しつつ,グローバル勾配近似を効率的に行う。 これにより、ノイズや異常値、ポイント密度の変動に頑健な最先端の正規推定器が生まれる。 本手法は, 広範に使用されているベンチマークにおいて, 非指向性および指向性正規推定の両方において, 従来よりも優れた性能を示すことを示す。 ソースコードと事前学習されたモデルはhttps://github.com/leoqli/nglo.com/で入手できる。

We propose Neural Gradient Learning (NGL), a deep learning approach to learn gradient vectors with consistent orientation from 3D point clouds for normal estimation. It has excellent gradient approximation properties for the underlying geometry of the data. We utilize a simple neural network to parameterize the objective function to produce gradients at points using a global implicit representation. However, the derived gradients usually drift away from the ground-truth oriented normals due to the lack of local detail descriptions. Therefore, we introduce Gradient Vector Optimization (GVO) to learn an angular distance field based on local plane geometry to refine the coarse gradient vectors. Finally, we formulate our method with a two-phase pipeline of coarse estimation followed by refinement. Moreover, we integrate two weighting functions, i.e., anisotropic kernel and inlier score, into the optimization to improve the robust and detail-preserving performance. Our method efficiently conducts global gradient approximation while achieving better accuracy and generalization ability of local feature description. This leads to a state-of-the-art normal estimator that is robust to noise, outliers and point density variations. Extensive evaluations show that our method outperforms previous works in both unoriented and oriented normal estimation on widely used benchmarks. The source code and pre-trained models are available at https://github.com/LeoQLi/NGLO.
翻訳日:2023-09-19 16:51:44 公開日:2023-09-17
# ディープラーニングベースのlidar知覚タスクを支援する differentiable slam

Differentiable SLAM Helps Deep Learning-based LiDAR Perception Tasks ( http://arxiv.org/abs/2309.09206v1 )

ライセンス: Link先を確認
Prashant Kumar, Dheeraj Vattikonda, Vedang Bhupesh Shenvi Nadkarni, Erqun Dong, Sabyasachi Sahoo(参考訳) 本稿では,様々なLiDARアプリケーションにおけるエンド・ツー・エンドのディープラーニングモデルを学習するために,SLAMアーキテクチャを自己指導的に活用する新たなパラダイムについて検討する。 私たちの知る限りでは、ディープラーニングベースのモデルのトレーニング信号としてSLAMを活用する作業は存在しません。 我々は,lidarシステムの効率,ロバスト性,適応性を改善する新しい手法を深層学習技術を用いて探究する。 我々は、分類、回帰、SLAMといったディープラーニングタスクの性能を向上させるために、差別化可能なSLAMアーキテクチャの潜在的な利点に焦点を当てる。 実験の結果,SLAMアーキテクチャを用いた場合,地上レベル推定と動的から静的へのLiDAR変換という2つの深層学習アプリケーションの性能向上を示す。 その結果,LiDARに基づくナビゲーションシステムの性能向上に寄与する重要な知見が得られた。 我々は、LiDARベースのモデルをトレーニングしながらSLAMロス信号を使用する新しいパラダイムが、コミュニティによって容易に採用できることを実証する。

We investigate a new paradigm that uses differentiable SLAM architectures in a self-supervised manner to train end-to-end deep learning models in various LiDAR based applications. To the best of our knowledge there does not exist any work that leverages SLAM as a training signal for deep learning based models. We explore new ways to improve the efficiency, robustness, and adaptability of LiDAR systems with deep learning techniques. We focus on the potential benefits of differentiable SLAM architectures for improving performance of deep learning tasks such as classification, regression as well as SLAM. Our experimental results demonstrate a non-trivial increase in the performance of two deep learning applications - Ground Level Estimation and Dynamic to Static LiDAR Translation, when used with differentiable SLAM architectures. Overall, our findings provide important insights that enhance the performance of LiDAR based navigation systems. We demonstrate that this new paradigm of using SLAM Loss signal while training LiDAR based models can be easily adopted by the community.
翻訳日:2023-09-19 16:51:20 公開日:2023-09-17
# MFRL-BI:ベイズ推論を用いたモデルフリー強化学習プロセス制御方式の設計

MFRL-BI: Design of a Model-free Reinforcement Learning Process Control Scheme by Using Bayesian Inference ( http://arxiv.org/abs/2309.09205v1 )

ライセンス: Link先を確認
Yanrong Li, Juan Du, and Wei Jiang(参考訳) プロセス制御スキームの設計は、製造システムの変化を減らすために品質保証に不可欠である。 半導体製造を例として、幅広い文献は特定のプロセスモデル(通常は線形モデル)に基づいた制御最適化に焦点を当て、製造プロセスが始まる前に実験によって得られる。 しかし、実際のアプリケーションでは、特に複雑な製造システムでは、事前定義されたモデルは正確ではないかもしれない。 モデル不正確性に対処するために,実時間データに基づいてモデルフリー強化学習(MFRL)手法を提案し,同時に制御を最適化する。 具体的には, ベイズ推定を用いた外乱分布の更新により, 製造過程におけるばらつきを低減し, 新たなmfrl制御方式を設計する。 その結果、提案したMFRLコントローラは、プロセスモデルが不明な場合に、非線形化学メカニカルプラナライゼーション(CMP)プロセスで良好に動作することを示した。 理論的な性質は外乱が付加されると保証される。 また,本手法の有効性と有効性についても検討した。

Design of process control scheme is critical for quality assurance to reduce variations in manufacturing systems. Taking semiconductor manufacturing as an example, extensive literature focuses on control optimization based on certain process models (usually linear models), which are obtained by experiments before a manufacturing process starts. However, in real applications, pre-defined models may not be accurate, especially for a complex manufacturing system. To tackle model inaccuracy, we propose a model-free reinforcement learning (MFRL) approach to conduct experiments and optimize control simultaneously according to real-time data. Specifically, we design a novel MFRL control scheme by updating the distribution of disturbances using Bayesian inference to reduce their large variations during manufacturing processes. As a result, the proposed MFRL controller is demonstrated to perform well in a nonlinear chemical mechanical planarization (CMP) process when the process model is unknown. Theoretical properties are also guaranteed when disturbances are additive. The numerical studies also demonstrate the effectiveness and efficiency of our methodology.
翻訳日:2023-09-19 16:51:04 公開日:2023-09-17
# 弱コヒーレントと圧縮真空状態を用いた3光子を用いたマッハツェンダー干渉計の精密位相測定

Precision phase measurement in Mach-Zehnder interferometer with three-photon by using a weak coherent and a squeezed vacuum state ( http://arxiv.org/abs/2309.09204v1 )

ライセンス: Link先を確認
Lifeng Duan(参考訳) 自発パラメトリックダウンコンバージョンから発生する弱いコヒーレントと圧縮真空を注入したマッハ・ツェンダー干渉計(MZI)の位相測定を定量的に検討する。 本システムにおける測定された3光子一致は、MZIの1つの出力で光子数を検出する際に、コヒーレント状態の振幅と圧縮真空の圧縮パラメータとの比の関数として定量化する。 最適比が選択されたとき、位相感度がハイゼンベルク極限に達することを示す。 これは、精密位相測定における位相感度を定量化する一つの方法を導入するかもしれない。

We quantitatively investigate phase measurement in a Mach-Zehnder interferometer (MZI), which is injected with a weak coherent and a squeezed vacuum generated from a spontaneous parametric down-conversion. The measured three-photon coincidence in this system is quantified as a function of a ratio between the amplitude of the coherent state and the squeezed parameter of squeezed vacuum when the photon number is detected at one output of MZI. It shows that the phase sensitivity reaches the Heisenberg limit when an optimal ratio is chosen. This may introduce one approach to quantify phase sensitivity in precision phase measurement.
翻訳日:2023-09-19 16:50:48 公開日:2023-09-17
# ニューラルネットワークを使って、科学的なテキストに最も関連するオントロジーを決定する

Using Artificial Neural Networks to Determine Ontologies Most Relevant to Scientific Texts ( http://arxiv.org/abs/2309.09203v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Korel, Alexander S. Behr, Norbert Kockmann and Martin Hole\v{n}a(参考訳) 本稿では,ニューラルネットワークを用いた科学文献に最も関連するオントロジーの探索の可能性について考察する。 提案手法の基本的な考え方は、ソーステキストファイルから代表段落を選択し、事前訓練された微調整トランスでベクトル空間に埋め込み、その埋め込みベクトルをターゲットオントロジーとの関連性に応じて分類することである。 変圧器からの出力を分類する分類器,特にランダムフォレスト,サポートベクターマシン,多層パーセプトロン,k-ネアレスト近傍,ガウス過程分類器について検討した。 その適合性は、触媒研究に関するオントロジーや科学文献のユースケースで評価されている。 結果から、最悪の結果はランダムな森林であると言える。 このタスクの最良の結果は、サポートベクターマシン分類器をもたらした。

This paper provides an insight into the possibility of how to find ontologies most relevant to scientific texts using artificial neural networks. The basic idea of the presented approach is to select a representative paragraph from a source text file, embed it to a vector space by a pre-trained fine-tuned transformer, and classify the embedded vector according to its relevance to a target ontology. We have considered different classifiers to categorize the output from the transformer, in particular random forest, support vector machine, multilayer perceptron, k-nearest neighbors, and Gaussian process classifiers. Their suitability has been evaluated in a use case with ontologies and scientific texts concerning catalysis research. From results we can say the worst results have random forest. The best results in this task brought support vector machine classifier.
翻訳日:2023-09-19 16:50:35 公開日:2023-09-17
# テキスト拡張のためのベンチマーク:データセット、メトリック、ベースライン

A Benchmark for Text Expansion: Datasets, Metrics, and Baselines ( http://arxiv.org/abs/2309.09198v1 )

ライセンス: Link先を確認
Yi Chen, Haiyun Jiang, Wei Bi, Rui Wang, Longyue Wang, Shuming Shi, Ruifeng Xu(参考訳) 本研究は, テキスト拡張(TE)の新たな課題として, 微粒化修飾体を平文の適切な位置に挿入し, 人間の文章を増減・再生することを目的とする。 既存の挿入ベースの書き込み支援タスクとは異なり、TEは、位置と生成の両方においてモデルをより柔軟にし、基本的なセマンティクスを維持するためにより慎重である必要がある。 我々は4つの補完的アプローチを利用して、自動生成された1200万のインスタンスと、英語と中国語の両方に対する2Kの人手による参照を持つデータセットを構築する。 自動評価を容易にするために,複数の視点から様々なメトリクスを設計する。 特に,TEにおける重要な品質次元である拡張の情報伝達性を効果的に測定する情報ゲインを提案する。 事前学習したテキストインフィルモデルに加えて,パイプラインモデルと統合位置・インフィルモデルを構築し,テキスト2テキストベースライン,特に拡張情報性よりも優れていることを示す。 TEタスクの実現可能性を検証する実験と,自動テキスト拡張に向けた今後の研究の方向性を指摘する。

This work presents a new task of Text Expansion (TE), which aims to insert fine-grained modifiers into proper locations of the plain text to concretize or vivify human writings. Different from existing insertion-based writing assistance tasks, TE requires the model to be more flexible in both locating and generation, and also more cautious in keeping basic semantics. We leverage four complementary approaches to construct a dataset with 12 million automatically generated instances and 2K human-annotated references for both English and Chinese. To facilitate automatic evaluation, we design various metrics from multiple perspectives. In particular, we propose Info-Gain to effectively measure the informativeness of expansions, which is an important quality dimension in TE. On top of a pre-trained text-infilling model, we build both pipelined and joint Locate&Infill models, which demonstrate the superiority over the Text2Text baselines, especially in expansion informativeness. Experiments verify the feasibility of the TE task and point out potential directions for future research toward better automatic text expansion.
翻訳日:2023-09-19 16:50:22 公開日:2023-09-17
# 病的近視検出のための効率的なピラミッドチャネルアテンションネットワーク

Efficient Pyramid Channel Attention Network for Pathological Myopia Detection ( http://arxiv.org/abs/2309.09196v1 )

ライセンス: Link先を確認
Xiaoqing Zhang, Jilu Zhao, Richu Jin, Yan Li, Hao Wu, Xiangtian Zhou, Jiang Liu(参考訳) 病理性近視症 (PM) は, 視力障害, 視力障害, 視力障害に対する主要な眼疾患である。 PMをできるだけ早期に検出する鍵は, 眼底血管拡張, 萎縮, 黄斑症などのグローバルおよび局所病変領域における情報的特徴を検出することである。 しかし,古典的畳み込みニューラルネットワーク(CNN)を用いて特徴マップのグローバルおよびローカルな病変コンテキスト情報を効率よく強調することは極めて困難である。 この問題に取り組むため,我々はアテンションモジュールの設計により,グローバルおよびローカルな病変情報の可能性を完全に活用することを目指している。 そこで本研究では,機能マップにおけるグローバルおよび局所的病変コンテキスト情報の相対的重要性を動的に探索する,効率的なピラミッドチャネルアテンション(epca)モジュールを提案する。 次に,EPCAモジュールとバックボーンネットワークを組み合わせることで,基礎画像に基づく自動PM検出のためのEPCA-Netを構築する。 さらに、公開データセット(PALMデータセットやODIRデータセットなど)からPMのファンドイメージを収集し、PM-fundusと呼ばれるPMデータセットを構築した。 総合的な実験は3つのデータセットを用いて行われ、EPCA-NetがPM検出の最先端手法より優れていることを示す。 さらに,近年の事前学習・ファインタニングのパラダイムを背景として,PM検出のための訓練済み自然画像モデルを適用し,EPCAモジュールや他の注目モジュールをアダプタとして扱う。 提案手法は,従来の微調整手法との比較により,学習パラメータの少ない手法と比較することで,競争性能が向上することを示す。

Pathological myopia (PM) is the leading ocular disease for impaired vision and blindness worldwide. The key to detecting PM as early as possible is to detect informative features in global and local lesion regions, such as fundus tessellation, atrophy and maculopathy. However, applying classical convolutional neural networks (CNNs) to efficiently highlight global and local lesion context information in feature maps is quite challenging. To tackle this issue, we aim to fully leverage the potential of global and local lesion information with attention module design. Based on this, we propose an efficient pyramid channel attention (EPCA) module, which dynamically explores the relative importance of global and local lesion context information in feature maps. Then we combine the EPCA module with the backbone network to construct EPCA-Net for automatic PM detection based on fundus images. In addition, we construct a PM dataset termed PM-fundus by collecting fundus images of PM from publicly available datasets (e.g., the PALM dataset and ODIR dataset). The comprehensive experiments are conducted on three datasets, demonstrating that our EPCA-Net outperforms state-of-the-art methods in detecting PM. Furthermore, motivated by the recent pretraining-and-finetuning paradigm, we attempt to adapt pre-trained natural image models for PM detection by freezing them and treating the EPCA module and other attention modules as the adapters. The results show that our method with the pretraining-and-finetuning paradigm achieves competitive performance through comparisons to part of methods with traditional fine-tuning methods with fewer tunable parameters.
翻訳日:2023-09-19 16:50:05 公開日:2023-09-17
# 画像逆問題に対するconvex latent-optimized adversarial regularizers

Convex Latent-Optimized Adversarial Regularizers for Imaging Inverse Problems ( http://arxiv.org/abs/2309.09250v1 )

ライセンス: Link先を確認
Huayu Wang, Chen Luo, Taofeng Xie, Qiyu Jin, Guoqing Chen, Zhuo-Xu Cui, Dong Liang(参考訳) 近年,MR画像逆問題に対処する上で,データ駆動技術が顕著な効果を示した。 しかし、これらの手法は解釈可能性や堅牢性の観点からも一定の制限を課している。 これに対して,新しいデータ駆動型パラダイムであるConvex Latent-Optimized Adversarial Regularizers (CLEAR)を紹介する。 CLEARは、ディープラーニング(DL)と変分正規化の融合を表す。 具体的には,入力凸ニューラルネットワークを逆行的に学習するために潜在最適化手法を用い,そのミニマセットは実データ多様体を完全に表現できる。 我々は凸正規化器として利用し、実データ多様体上の画像逆問題の解を導出するCLEARインフォームド変分正規化モデルを定式化する。 その固有凸性を利用して、CLEARインフォームド正規化モデルに対する予測下降降下アルゴリズムの収束を確立した。 この収束は、ある種の仮定に基づく画像逆問題に対する一意な解の達成を保証する。 さらに, CLEARインフォームドモデルのロバスト性を実証し, 測定干渉があっても安定的な再構成を実現する能力を示す。 最後に、MRI再構成を例として、我々のアプローチの優位性について述べる。 本手法は,従来のデータ駆動手法と従来の正規化手法を一貫して上回り,復元品質と堅牢性の両方に優れる。

Recently, data-driven techniques have demonstrated remarkable effectiveness in addressing challenges related to MR imaging inverse problems. However, these methods still exhibit certain limitations in terms of interpretability and robustness. In response, we introduce Convex Latent-Optimized Adversarial Regularizers (CLEAR), a novel and interpretable data-driven paradigm. CLEAR represents a fusion of deep learning (DL) and variational regularization. Specifically, we employ a latent optimization technique to adversarially train an input convex neural network, and its set of minima can fully represent the real data manifold. We utilize it as a convex regularizer to formulate a CLEAR-informed variational regularization model that guides the solution of the imaging inverse problem on the real data manifold. Leveraging its inherent convexity, we have established the convergence of the projected subgradient descent algorithm for the CLEAR-informed regularization model. This convergence guarantees the attainment of a unique solution to the imaging inverse problem, subject to certain assumptions. Furthermore, we have demonstrated the robustness of our CLEAR-informed model, explicitly showcasing its capacity to achieve stable reconstruction even in the presence of measurement interference. Finally, we illustrate the superiority of our approach using MRI reconstruction as an example. Our method consistently outperforms conventional data-driven techniques and traditional regularization approaches, excelling in both reconstruction quality and robustness.
翻訳日:2023-09-19 16:44:06 公開日:2023-09-17
# litetrack: 軽量かつ効率的なビジュアルトラッキングのための非同期機能抽出によるレイヤプルーニング

LiteTrack: Layer Pruning with Asynchronous Feature Extraction for Lightweight and Efficient Visual Tracking ( http://arxiv.org/abs/2309.09249v1 )

ライセンス: Link先を確認
Qingmao Wei, Bi Zeng, Jianqi Liu, Li He, Guotian Zeng(参考訳) トランスフォーマーベースのビジュアルトラッカーの最近の進歩は、その強力なモデリング能力による大きな進歩をもたらした。 しかし、パフォーマンスが向上するにつれてレイテンシが向上し、特に計算制約のあるエッジデバイスにおいて、リアルタイムロボティクスアプリケーションに課題が生じる。 これに対応して,様々なデバイス間の高速操作に最適化された効率的なトランスフォーマーベーストラッキングモデルLiteTrackを導入する。 他の軽量トラッカーと比べて精度と効率のトレードオフが有利だ。 LiteTrackの主なイノベーションは次のとおりである。 1)非同期特徴抽出とテンプレートと検索領域の相互作用による特徴量除去と冗長計算の削減 2) ヘビートラッカからエンコーダ層を刈り取って, 性能と速度の差を洗練させる。 例えば、私たちの最速の変種であるlitetrack-b4は、got-10kベンチマークで65.2%のaoを達成し、以前のすべての効率的なトラッカーを上回り、jetsonやnx edgeデバイス上で100fps以上動作しています。 さらに、私たちのLiteTrack-B9はGOT-10kで72.2% AO、TrackingNetで82.4% AUCに達し、NVIDIA 2080Ti GPUで171fpsで動作する。 コードとデモ資料はhttps://github.com/tsingwei/litetrackで入手できる。

The recent advancements in transformer-based visual trackers have led to significant progress, attributed to their strong modeling capabilities. However, as performance improves, running latency correspondingly increases, presenting a challenge for real-time robotics applications, especially on edge devices with computational constraints. In response to this, we introduce LiteTrack, an efficient transformer-based tracking model optimized for high-speed operations across various devices. It achieves a more favorable trade-off between accuracy and efficiency than the other lightweight trackers. The main innovations of LiteTrack encompass: 1) asynchronous feature extraction and interaction between the template and search region for better feature fushion and cutting redundant computation, and 2) pruning encoder layers from a heavy tracker to refine the balnace between performance and speed. As an example, our fastest variant, LiteTrack-B4, achieves 65.2% AO on the GOT-10k benchmark, surpassing all preceding efficient trackers, while running over 100 fps with ONNX on the Jetson Orin NX edge device. Moreover, our LiteTrack-B9 reaches competitive 72.2% AO on GOT-10k and 82.4% AUC on TrackingNet, and operates at 171 fps on an NVIDIA 2080Ti GPU. The code and demo materials will be available at https://github.com/TsingWei/LiteTrack.
翻訳日:2023-09-19 16:43:44 公開日:2023-09-17
# ピック・アンド・プレイスのためのマニピュレータによる深層強化学習

Sim-to-Real Deep Reinforcement Learning with Manipulators for Pick-and-place ( http://arxiv.org/abs/2309.09247v1 )

ライセンス: Link先を確認
Wenxing Liu, Hanlin Niu, Robert Skilton, Joaquin Carrasco(参考訳) シミュレーションから実世界へ深層強化学習モデルを移す場合,シミュレーションが実世界をうまく模倣できないため,性能は満足できない可能性がある。 この結果、現実世界では長期間にわたって微調整が行われます。 本稿では,ロボットがシミュレーションから実世界へトレーニングモデルを直接転送する際に,オブジェクトを効果的かつ効率的に選択・配置できる自己教師型視覚ベースDRL法を提案する。 高感度アクションポリシは,課題の多い環境において,混み合った,積み重ねられたオブジェクトを扱うための提案手法のために特別に設計されている。 提案手法を用いたトレーニングモデルは, 実世界からの微調整を必要とせず, 高い吸引成功率を維持しながら, 実吸引タスクに直接適用することができる。 また, 実世界の微調整を行なわずに, 吸引成功率90\%の実実験において, 新規物体の吸引に本モデルが適用可能であることを検証した。 実験ビデオは、https://youtu.be/jSTC-EGsoFA.comで公開されている。

When transferring a Deep Reinforcement Learning model from simulation to the real world, the performance could be unsatisfactory since the simulation cannot imitate the real world well in many circumstances. This results in a long period of fine-tuning in the real world. This paper proposes a self-supervised vision-based DRL method that allows robots to pick and place objects effectively and efficiently when directly transferring a training model from simulation to the real world. A height-sensitive action policy is specially designed for the proposed method to deal with crowded and stacked objects in challenging environments. The training model with the proposed approach can be applied directly to a real suction task without any fine-tuning from the real world while maintaining a high suction success rate. It is also validated that our model can be deployed to suction novel objects in a real experiment with a suction success rate of 90\% without any real-world fine-tuning. The experimental video is available at: https://youtu.be/jSTC-EGsoFA.
翻訳日:2023-09-19 16:43:20 公開日:2023-09-17
# トランスフォーマーを用いた腫瘍セグメント化のための画像レベルの監督と自己訓練

Image-level supervision and self-training for transformer-based cross-modality tumor segmentation ( http://arxiv.org/abs/2309.09246v1 )

ライセンス: Link先を確認
Malo de Boisredon and Eugene Vorontsov and William Trung Le and Samuel Kadoury(参考訳) ディープニューラルネットワークは、医用画像のセグメンテーションの自動化に一般的に使用されるが、異なる画像モードにまたがるモデルの一般化にしばしば苦労する。 この問題は、注釈付きデータの可用性が限られているため、より大規模にモデルのデプロイが難しいため、特に問題となっている。 これらの課題を克服するため,我々はmodattsと呼ばれる新しい半監督訓練戦略を提案する。 提案手法は, 欠損したバイモーダルデータセット上での正確な3次元腫瘍セグメンテーションを目的としている。 画像モダリティ間の画像と画像の変換戦略を用いて、アノテーション付き擬似ターゲットボリュームを生成し、アノテーションなしターゲットモダリティへの一般化を改善する。 我々はまた、強力な視覚変換器アーキテクチャを使用し、モダリティ間のドメインギャップをさらに埋めるために反復的な自己学習手順を導入します。 さらに、MoDATTSは、画像レベルのラベルを教師なしの目的で活用することで、トレーニングを未診断のターゲットデータに拡張することができる。 提案手法は,VSセグメンテーションにおけるDiceスコアが0.87+/-0.04と報告されているCrossMoDA 2022チャレンジに参加する他のチームに比べて,優れたパフォーマンスを実現する。 MoDATTSはまた、BraTS 2020チャレンジデータセットと異なる4つのコントラストから構成されるクロスモダリティ脳腫瘍セグメンテーションタスクに基づいて、ベースラインよりもDiceスコアを一貫して改善する。 この最大性能の99%と100%は、対象データの20%と50%が付加注釈を付ければ達成できると報告し、さらにモダットをアノテーションの負担を軽減するために活用できることを示した。

Deep neural networks are commonly used for automated medical image segmentation, but models will frequently struggle to generalize well across different imaging modalities. This issue is particularly problematic due to the limited availability of annotated data, making it difficult to deploy these models on a larger scale. To overcome these challenges, we propose a new semi-supervised training strategy called MoDATTS. Our approach is designed for accurate cross-modality 3D tumor segmentation on unpaired bi-modal datasets. An image-to-image translation strategy between imaging modalities is used to produce annotated pseudo-target volumes and improve generalization to the unannotated target modality. We also use powerful vision transformer architectures and introduce an iterative self-training procedure to further close the domain gap between modalities. MoDATTS additionally allows the possibility to extend the training to unannotated target data by exploiting image-level labels with an unsupervised objective that encourages the model to perform 3D diseased-to-healthy translation by disentangling tumors from the background. The proposed model achieves superior performance compared to other methods from participating teams in the CrossMoDA 2022 challenge, as evidenced by its reported top Dice score of 0.87+/-0.04 for the VS segmentation. MoDATTS also yields consistent improvements in Dice scores over baselines on a cross-modality brain tumor segmentation task composed of four different contrasts from the BraTS 2020 challenge dataset, where 95% of a target supervised model performance is reached. We report that 99% and 100% of this maximum performance can be attained if 20% and 50% of the target data is additionally annotated, which further demonstrates that MoDATTS can be leveraged to reduce the annotation burden.
翻訳日:2023-09-19 16:43:04 公開日:2023-09-17
# 結合非線形キャビティマグノニクスにおける高波長および強非相反性

Highly-tunable and strong nonreciprocity in coupled nonlinear cavity magnonics ( http://arxiv.org/abs/2309.09245v1 )

ライセンス: Link先を確認
Wei Xiong, Zhuanxia Li(参考訳) ローレンツの相互性に反する非相互性は、量子情報処理とネットワークにおいて重要である。 しかし、望まれる高度に調整可能な非相互性を達成することは依然として困難である。 本稿では,非線形キャビティをキャビティに結合した非線形要素をキャビティに挿入したパラメトリックキャビティをカーマグノンを支えるイットリウム・アイアン・ガーネット(yig)球に埋め込んだ結合非線形キャビティマグノニックシステムを提案する。 まず、不動マグノンとの相反性と非相反性の間で臨界条件を導出し、二共共役結合強度またはパラメトリック強度をチューニングすることによって臨界条件を破り、強マグノン非相反性を数値的に示す。 マグノンが駆動されると、臨界条件が保たれたときに強いマグノン非相反性が引き起こされる。 非線形要素を持たない以前の研究と比較すると、導入された非線形要素は臨界条件を弱い状態と強い状態の両方に緩和するだけでなく、マグノン非相互性を調整する別の経路を与える。 我々の研究は、Kerr Magnonsを用いた高利きの非相互デバイスを実現するための有望な道を提供する。

Nonreciprocity, which violates Lorentz reciprocity, is crucial in quantum information processing and network. However, achieving the desired highly-tunable nonreciprocity remains difficult. Here, we propose a coupled nonlinear cavity magnonic system, consisting of a parametric cavity inserted a pumping nonlinear element coupled to a magnonic cavity embedded a yttrium-iron-garnet (YIG) sphere for supporting Kerr magnons, to achieve highly-tunable nonreciprocity by tuning system parameters. We first derive the critical condition for switching between reciprocity and nonreciprocity with undriven magnons, then we numerically demonstrate the strong magnonic nonreciprocity by breaking the critical condition via tuning either the two-cavity coupling strength nor the parametric strength, or both of them. When magnons are driven, we show that a strong magnonic nonreciprocity can be induced when the critical condition is kept. Compared to previous study without the nonlinear element, the introduced nonlinear element not only relaxes the critical condition to both the weak and strong regimes, but also offers another path to adjust the magnonic nonreciprocity. Our work provides a promising avenue to realize highly-tunable nonreciprocal devices with Kerr magnons.
翻訳日:2023-09-19 16:42:33 公開日:2023-09-17
# ニューラルネットワークにおける解の高次元多様体:統計物理学からの考察

High-dimensional manifold of solutions in neural networks: insights from statistical physics ( http://arxiv.org/abs/2309.09240v1 )

ライセンス: Link先を確認
Enrico M. Malatesta(参考訳) これらのペタゴジックノートでは、分類設定において、知覚論アーキテクチャのパラダイム的な例に注目し、ニューラルネットワークに対する統計力学アプローチについてレビューする。 複製法とストレージ設定におけるSAT/UNSAT遷移の導出に基づいてガードナーのアプローチを概観する。 次に,ゼロトレーニングエラー設定が幾何学的にどのように配置されているか,トレーニングセットのサイズが大きくなるにつれてこの配置がどのように変化するかを明らかにする。 また, 解空間の異なる領域を解析的に探究する方法と, 解近傍の景観を特徴付ける方法について説明する。 二重モデルでは、アルゴリズムの硬さが、非常に大きな距離まで広がる解の集合領域の消失の結果であることを示す。 最後に、解間の線形モード接続の研究が、解多様体の平均形状に対する洞察を与える方法を示す。

In these pedagogic notes I review the statistical mechanics approach to neural networks, focusing on the paradigmatic example of the perceptron architecture with binary an continuous weights, in the classification setting. I will review the Gardner's approach based on replica method and the derivation of the SAT/UNSAT transition in the storage setting. Then, I discuss some recent works that unveiled how the zero training error configurations are geometrically arranged, and how this arrangement changes as the size of the training set increases. I also illustrate how different regions of solution space can be explored analytically and how the landscape in the vicinity of a solution can be characterized. I give evidence how, in binary weight models, algorithmic hardness is a consequence of the disappearance of a clustered region of solutions that extends to very large distances. Finally, I demonstrate how the study of linear mode connectivity between solutions can give insights into the average shape of the solution manifold.
翻訳日:2023-09-19 16:42:06 公開日:2023-09-17
# 大域的に収束した$\ell_0$-制約付きマルチ線形スパースロジスティック回帰アルゴリズム

Globally Convergent Accelerated Algorithms for Multilinear Sparse Logistic Regression with $\ell_0$-constraints ( http://arxiv.org/abs/2309.09239v1 )

ライセンス: Link先を確認
Weifeng Yang and Wenwen Min(参考訳) テンソルデータは多次元配列を表す。 低ランクテンソル分解に基づく回帰法は、パラメータ数を減らすために構造情報を活用する。 多重線形ロジスティック回帰は多次元データ解析の強力なツールである。 有効性と解釈性を向上させるために,$\ell_0$-constraints ($\ell_0$-MLSR) を用いたマルチ線形スパースロジスティック回帰モデルを提案する。 $\ell_1$-normと$\ell_2$-normとは対照的に、$\ell_0$-norm制約は機能選択に適している。 しかし、その非凸および非滑らかな性質のため、解決は困難であり、収束保証が不足している。 さらに$\ell_0$-MLSRの多重線形演算も非凸性をもたらす。 これらの課題に対処するために,Adaptive Momentum (APALM$^+$) 法を用いた Accelerated Proximal Alternating Linearized Minimization を提案し,$\ell_0$-MLSR モデルを解く。 APALM$^+$ が $\ell_0$-MLSR の目的関数の収束を保証できることを示す。 また, apalm$^+$ が一階臨界点に大域的に収束すると同時に, kurdyka-lojasiewicz の性質を用いて収束速度を確立することを実証した。 合成および実世界のデータセットから得られた実験結果は、他の最先端手法と比較して精度と速度の両方でアルゴリズムの優れた性能を評価する。

Tensor data represents a multidimensional array. Regression methods based on low-rank tensor decomposition leverage structural information to reduce the parameter count. Multilinear logistic regression serves as a powerful tool for the analysis of multidimensional data. To improve its efficacy and interpretability, we present a Multilinear Sparse Logistic Regression model with $\ell_0$-constraints ($\ell_0$-MLSR). In contrast to the $\ell_1$-norm and $\ell_2$-norm, the $\ell_0$-norm constraint is better suited for feature selection. However, due to its nonconvex and nonsmooth properties, solving it is challenging and convergence guarantees are lacking. Additionally, the multilinear operation in $\ell_0$-MLSR also brings non-convexity. To tackle these challenges, we propose an Accelerated Proximal Alternating Linearized Minimization with Adaptive Momentum (APALM$^+$) method to solve the $\ell_0$-MLSR model. We provide a proof that APALM$^+$ can ensure the convergence of the objective function of $\ell_0$-MLSR. We also demonstrate that APALM$^+$ is globally convergent to a first-order critical point as well as establish convergence rate by using the Kurdyka-Lojasiewicz property. Empirical results obtained from synthetic and real-world datasets validate the superior performance of our algorithm in terms of both accuracy and speed compared to other state-of-the-art methods.
翻訳日:2023-09-19 16:41:50 公開日:2023-09-17
# 複合施設における安全対策のための消防車の検出と配置

Detection and Localization of Firearm Carriers in Complex Scenes for Improved Safety Measures ( http://arxiv.org/abs/2309.09236v1 )

ライセンス: Link先を確認
Arif Mahmood, Abdul Basit, M. Akhtar Munir, Mohsen Ali(参考訳) 銃器を検知し、それらを画像やビデオで正確に位置決めすることは、セキュリティ、監視、コンテンツカスタマイズにおいて最重要となる。 しかし, この課題は, 乱雑さや銃器の多様な形状が原因で, 複雑な環境において重大な課題となる。 この問題に対処するため,我々は,火器と火器の相互作用情報を活用する新しいアプローチを提案する。 本手法は,人間と銃器を背景から効果的に区別する注意機構を組み込んだものである。 さらに,入力画像のフォアグラウンド情報を保持しながら,重要な特徴を学習するための局所性保存制約を導入する。 これらのコンポーネントを組み合わせることで、新しく提案されたデータセットで特別な結果が得られる。 各種サイズの入力を処理するため,適応平均プーリング層を用いて,注目マスク付き対の人火器インスタンスをディープネットワークを介してチャネルとして通過する。 本研究では,人間と物体の相互作用検出における既存の手法に対するアプローチを広く評価し,ベースラインアプローチ(AP=63.1\%)と比較して有意な結果(AP=77.8\%)を得た。 このことは、人-火器相互作用の正確な検出に注意機構と塩分による局所性保存を活用することの有効性を示す。 我々の発見は、セキュリティと監視の分野の発展に寄与し、様々なシナリオにおけるより効率的な銃器のローカライゼーションと識別を可能にします。

Detecting firearms and accurately localizing individuals carrying them in images or videos is of paramount importance in security, surveillance, and content customization. However, this task presents significant challenges in complex environments due to clutter and the diverse shapes of firearms. To address this problem, we propose a novel approach that leverages human-firearm interaction information, which provides valuable clues for localizing firearm carriers. Our approach incorporates an attention mechanism that effectively distinguishes humans and firearms from the background by focusing on relevant areas. Additionally, we introduce a saliency-driven locality-preserving constraint to learn essential features while preserving foreground information in the input image. By combining these components, our approach achieves exceptional results on a newly proposed dataset. To handle inputs of varying sizes, we pass paired human-firearm instances with attention masks as channels through a deep network for feature computation, utilizing an adaptive average pooling layer. We extensively evaluate our approach against existing methods in human-object interaction detection and achieve significant results (AP=77.8\%) compared to the baseline approach (AP=63.1\%). This demonstrates the effectiveness of leveraging attention mechanisms and saliency-driven locality preservation for accurate human-firearm interaction detection. Our findings contribute to advancing the fields of security and surveillance, enabling more efficient firearm localization and identification in diverse scenarios.
翻訳日:2023-09-19 16:41:25 公開日:2023-09-17
# グラフィカルモデルによる量子状態の確率的学習

Provable learning of quantum states with graphical models ( http://arxiv.org/abs/2309.09235v1 )

ライセンス: Link先を確認
Liming Zhao, Naixu Guo, Ming-Xing Luo and Patrick Rebentrost(参考訳) 量子状態$n$の完全学習には、指数的に$n$のサンプルが必要である。 いくつかの研究は、安定化状態や高温ギブス状態のような多項式サンプルの複雑さで学習できる量子状態のサブクラスを考える。 他の著作では、PAC学習やシャドウトモグラフィーのような学習の弱さを考察している。 本研究では,ニューラルネットワークの量子状態に近い学習状態について考察する。これは制限ボルツマン機械(rbms)と呼ばれるグラフィカルモデルによって効率的に表現できる。 この目的のために、強磁性および局所一貫したRBMのための効率よく証明可能な2ホップ近傍学習アルゴリズムの堅牢性を示す。 L_p$-ノルムは極限における全変動距離と最大ノルム距離の両方を含む閉度の測定値であると考える。 以上の結果から,特定の量子状態は単純トモグラフィよりも複雑なサンプルで学習できることがわかった。 したがって、効率的に学習可能な量子状態の新しいクラスを提供し、それらを学ぶために新しい戦略を適用する。

The complete learning of an $n$-qubit quantum state requires samples exponentially in $n$. Several works consider subclasses of quantum states that can be learned in polynomial sample complexity such as stabilizer states or high-temperature Gibbs states. Other works consider a weaker sense of learning, such as PAC learning and shadow tomography. In this work, we consider learning states that are close to neural network quantum states, which can efficiently be represented by a graphical model called restricted Boltzmann machines (RBMs). To this end, we exhibit robustness results for efficient provable two-hop neighborhood learning algorithms for ferromagnetic and locally consistent RBMs. We consider the $L_p$-norm as a measure of closeness, including both total variation distance and max-norm distance in the limit. Our results allow certain quantum states to be learned with a sample complexity \textit{exponentially} better than naive tomography. We hence provide new classes of efficiently learnable quantum states and apply new strategies to learn them.
翻訳日:2023-09-19 16:40:57 公開日:2023-09-17
# 二重正規化フロー:柔軟なベイズガウス過程の学習

Double Normalizing Flows: Flexible Bayesian Gaussian Process ODEs Learning ( http://arxiv.org/abs/2309.09222v1 )

ライセンス: Link先を確認
Jian Xu, Shian Du, Junmei Yang, Xinghao Ding, John Paisley, Delu Zeng(参考訳) 近年、ガウス過程を用いて連続力学系のベクトル場をモデル化している。 そのようなモデルに対するベイズ推論は広範囲に研究され、時系列予測のようなタスクに応用され、不確定な推定を提供する。 しかし、以前のガウス過程常微分方程式(ode)モデルは、制約された事前値と平均場後方値が柔軟性を欠くため、非ガウス過程前駆値を持つデータセットに過小評価される可能性がある。 この制限に対処するために、正規化フローを組み込んでODEのベクトル場を再パラメータ化し、より柔軟で表現力のある事前分布をもたらす。 さらに, 正規化流れの解析的抽出可能な確率密度関数により, GP ODE の後部推定に適用し, 非ガウス的後部推定を行う。 正規化フローの2つの応用により、ベイジアンガウス過程ODEの精度と不確実性の推定を改善する。 本手法の有効性は, 時系列予測やデータ復元の欠如といったタスクを含む, シミュレーションされた動的システムと実世界の人間の動きデータに対して実証された。 実験の結果,提案手法は精度を高めつつ,モデルの不確かさを効果的に捉えていることがわかった。

Recently, Gaussian processes have been utilized to model the vector field of continuous dynamical systems. Bayesian inference for such models \cite{hegde2022variational} has been extensively studied and has been applied in tasks such as time series prediction, providing uncertain estimates. However, previous Gaussian Process Ordinary Differential Equation (ODE) models may underperform on datasets with non-Gaussian process priors, as their constrained priors and mean-field posteriors may lack flexibility. To address this limitation, we incorporate normalizing flows to reparameterize the vector field of ODEs, resulting in a more flexible and expressive prior distribution. Additionally, due to the analytically tractable probability density functions of normalizing flows, we apply them to the posterior inference of GP ODEs, generating a non-Gaussian posterior. Through these dual applications of normalizing flows, our model improves accuracy and uncertainty estimates for Bayesian Gaussian Process ODEs. The effectiveness of our approach is demonstrated on simulated dynamical systems and real-world human motion data, including tasks such as time series prediction and missing data recovery. Experimental results indicate that our proposed method effectively captures model uncertainty while improving accuracy.
翻訳日:2023-09-19 16:40:43 公開日:2023-09-17
# 低エネルギーでのクーロン力によるブレット相互作用:低速衝突における予期せぬ効率のイオン化機構

Breit interaction overtaking Coulomb force at low energies: an unexpectedly efficient mechanism for ionization in slow collisions ( http://arxiv.org/abs/2309.09280v1 )

ライセンス: Link先を確認
A. Jacob, C. M\"uller and A. B. Voitkiv(参考訳) 一般的に、光原子粒子の遅い衝突におけるイオン化(電子と核)は、光速よりも桁違いに小さい速度で動くが、クーロン力によってのみ駆動されると考えられている。 しかし、ここでは、電子間のクーロン相互作用に対する相対論的補正であるブライト相互作用が、衝突系が量子放射場に共鳴的に結合するときに主役となることを示す。 その結果、このイオン化機構は、ガス中に伝播する恒星プラズマや原子ビームなど、密度の低い様々な物理環境において非常に効率的であることが判明した。

It is generally assumed that ionization in slow collisions of light atomic particles, whose constituents (electrons and nuclei) move with velocities orders of magnitude smaller than the speed of light, is driven solely by the Coulomb force. Here we show, however, that the Breit interaction -- a relativistic correction to the Coulomb interaction between electrons -- can become the main actor when the colliding system couples resonantly to the quantum radiation field. Our results demonstrate that this ionization mechanism can be very efficient in various not too dense physical environments, including stellar plasmas and atomic beams propagating in gases.
翻訳日:2023-09-19 16:32:20 公開日:2023-09-17
# MVP: リモートセンシング画像シーン分類のためのメタビジュアルプロンプトチューニング

MVP: Meta Visual Prompt Tuning for Few-Shot Remote Sensing Image Scene Classification ( http://arxiv.org/abs/2309.09276v1 )

ライセンス: Link先を確認
Junjie Zhu, Yiying Li, Chunping Qiu, Ke Yang, Naiyang Guan, Xiaodong Yi(参考訳) Vision Transformer (ViT) モデルは、様々な視覚タスクのための強力で汎用的なモデルとして最近登場した。 近年、PMFと呼ばれる研究は、事前学習された視覚変換器モデルを利用して、数ショット画像分類において有望な成果を上げている。 しかし、pmfは下流タスクを学習するために完全な微調整を採用しており、特にリモートセンシング領域において、大きな過剰フィッティングとストレージの問題を引き起こしている。 これらの問題に対処するために、最近提案されたVPTのようなパラメータ効率のよいチューニング手法に目を向け、事前学習したバックボーンを凍結させながら、新たに追加されたプロンプトパラメータのみを更新する。 本稿ではVPTにインスパイアされたMeta Visual Prompt Tuning(MVP)手法を提案する。 具体的には、VPTメソッドをメタラーニングフレームワークに統合し、それをリモートセンシングドメインに調整することで、Few-Shot Remote Sensing Scene Classification (FS-RSSC) の効率的なフレームワークを実現する。 さらに,分類目的のシーンの表現と多様性を高めるために,パッチ埋め込み組換えに基づく新しいデータ拡張戦略を導入する。 FS-RSSCベンチマークによる実験結果から,様々な方向可変ショット,多様な方向ワンショット,ドメイン間の適応など,既存の手法よりもMVPの方が優れた性能を示した。

Vision Transformer (ViT) models have recently emerged as powerful and versatile models for various visual tasks. Recently, a work called PMF has achieved promising results in few-shot image classification by utilizing pre-trained vision transformer models. However, PMF employs full fine-tuning for learning the downstream tasks, leading to significant overfitting and storage issues, especially in the remote sensing domain. In order to tackle these issues, we turn to the recently proposed parameter-efficient tuning methods, such as VPT, which updates only the newly added prompt parameters while keeping the pre-trained backbone frozen. Inspired by VPT, we propose the Meta Visual Prompt Tuning (MVP) method. Specifically, we integrate the VPT method into the meta-learning framework and tailor it to the remote sensing domain, resulting in an efficient framework for Few-Shot Remote Sensing Scene Classification (FS-RSSC). Furthermore, we introduce a novel data augmentation strategy based on patch embedding recombination to enhance the representation and diversity of scenes for classification purposes. Experiment results on the FS-RSSC benchmark demonstrate the superior performance of the proposed MVP over existing methods in various settings, such as various-way-various-shot, various-way-one-shot, and cross-domain adaptation.
翻訳日:2023-09-19 16:32:07 公開日:2023-09-17
# ファクトチェックのためのクレームのチェック適性を測定するための社会的談話の活用

Leveraging Social Discourse to Measure Check-worthiness of Claims for Fact-checking ( http://arxiv.org/abs/2309.09274v1 )

ライセンス: Link先を確認
Megha Sundriyal, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) オンラインソーシャルメディアプラットフォームの拡大は、オンラインコンテンツ消費の急増につながっている。 しかし、これは虚偽の主張や誤報を広める道を開いた。 その結果、実質的な労働力の要求が増大し、そのような不確実なクレームを回避し、検証する。 現在、これらの主張はファクトチェッカーによって手動で検証されている。 それでも、オンラインコンテンツの量は、しばしばその強みを上回っており、すべての主張をタイムリーに検証することは困難である。 したがって、どの主張が事実確認に値するかを判断し、直ちに注意を要する主張を優先することが重要である。 クレームが事実確認を必要とするかどうか、その事実の正しさ、公衆への影響の可能性、憎しみを誘発する確率などを含む複数の要因が決定に寄与する。 クレームチェックの信頼性に関するいくつかの取り組みにもかかわらず、これらの要因を特定するための体系的なアプローチは、依然としてオープンな課題である。 そこで本研究では,これらすべての要因を基礎として,請求項のチェック価値を識別するための人間的根拠を提示する,クレームチェックの精細化という新たな課題について紹介する。 CheckItは、手動でアノテートされた大規模なTwitterデータセットで、きめ細かいクレームチェックの安全性を提供する。 私たちは、クレームがチェックに値するかどうかを共同で判断する統一的なアプローチであるCheckMateに対して、データセットをベンチマークします。 提案システムといくつかのベースラインシステムを比較した。 最後に、結果と人格評価の徹底的な分析を行い、事実確認に値するクレームの検出におけるチェック評価要素の統合の有効性を検証する。

The expansion of online social media platforms has led to a surge in online content consumption. However, this has also paved the way for disseminating false claims and misinformation. As a result, there is an escalating demand for a substantial workforce to sift through and validate such unverified claims. Currently, these claims are manually verified by fact-checkers. Still, the volume of online content often outweighs their potency, making it difficult for them to validate every single claim in a timely manner. Thus, it is critical to determine which assertions are worth fact-checking and prioritize claims that require immediate attention. Multiple factors contribute to determining whether a claim necessitates fact-checking, encompassing factors such as its factual correctness, potential impact on the public, the probability of inciting hatred, and more. Despite several efforts to address claim check-worthiness, a systematic approach to identify these factors remains an open challenge. To this end, we introduce a new task of fine-grained claim check-worthiness, which underpins all of these factors and provides probable human grounds for identifying a claim as check-worthy. We present CheckIt, a manually annotated large Twitter dataset for fine-grained claim check-worthiness. We benchmark our dataset against a unified approach, CheckMate, that jointly determines whether a claim is check-worthy and the factors that led to that conclusion. We compare our suggested system with several baseline systems. Finally, we report a thorough analysis of results and human assessment, validating the efficacy of integrating check-worthiness factors in detecting claims worth fact-checking.
翻訳日:2023-09-19 16:31:43 公開日:2023-09-17
# 軽量自己監督単眼深度推定のための深部近傍層凝集

Deep Neighbor Layer Aggregation for Lightweight Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2309.09272v1 )

ライセンス: Link先を確認
Boya Wang, Shuo Wang, Ziwen Dou, Dong Ye(参考訳) ロボット工学や自律運転における自己監督単眼深度推定の頻繁な利用により、モデルの効率性はますます重要になっている。 現在のアプローチのほとんどは、より大きく複雑なネットワークを適用して、深さ推定の精度を向上させる。 一部の研究者は、Transformerを自己教師付き単眼深度推定に組み込んで、より良い性能を実現した。 しかし、この手法は高いパラメータと高い計算につながる。 文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。 unet++やhrnetと比較して、私たちは長距離融合ではなく、小さなターゲットや高速に動くオブジェクトの情報を保存するために、高解像度で低解像度の機能を使用します。 さらに,デコーダ段の畳み込みに基づく軽量チャネルアテンションを用いた深さ推定結果をさらに促進する。 本手法は精度を犠牲にすることなくパラメータを削減する。 KITTIベンチマーク実験により,本手法は,約30パラメータのMonodepth2のような大規模モデルよりも優れた結果が得られることが示された。 ソースコードはhttps://github.com/boyagesmile/DNA-Depth.comで入手できる。

With the frequent use of self-supervised monocular depth estimation in robotics and autonomous driving, the model's efficiency is becoming increasingly important. Most current approaches apply much larger and more complex networks to improve the precision of depth estimation. Some researchers incorporated Transformer into self-supervised monocular depth estimation to achieve better performance. However, this method leads to high parameters and high computation. We present a fully convolutional depth estimation network using contextual feature fusion. Compared to UNet++ and HRNet, we use high-resolution and low-resolution features to reserve information on small targets and fast-moving objects instead of long-range fusion. We further promote depth estimation results employing lightweight channel attention based on convolution in the decoder stage. Our method reduces the parameters without sacrificing accuracy. Experiments on the KITTI benchmark show that our method can get better results than many large models, such as Monodepth2, with only 30 parameters. The source code is available at https://github.com/boyagesmile/DNA-Depth.
翻訳日:2023-09-19 16:31:17 公開日:2023-09-17
# ディープラーニングに基づく音声強調のための発声過程の連続的モデル化

Continuous Modeling of the Denoising Process for Speech Enhancement Based on Deep Learning ( http://arxiv.org/abs/2309.09270v1 )

ライセンス: Link先を確認
Zilu Guo, Jun Du, CHin-Hui Lee(参考訳) 本稿では,ディープラーニングに基づく音声強調のための連続的モデリング手法について検討する。 状態変数を使用して、denoisingプロセスを示します。 開始状態はうるさいスピーチであり、終了状態は清潔なスピーチである。 状態変数のノイズ成分は、ノイズ成分が0になるまで状態指数の変化に伴って減少する。 トレーニング中、UNetのようなニューラルネットワークは、連続的な認知プロセスからサンプリングされたすべての状態変数を推定する。 テストでは、ゼロから1まで、ニューラルネットワークへの埋め込みとして制御因子を導入し、ノイズ低減のレベルを制御できるようにします。 このアプローチは、制御可能な音声強調を可能にし、様々なアプリケーションシナリオに適応できる。 実験結果から,クリーンターゲットにおける少量の雑音の保持は,客観的な音声計測と自動音声認識性能の改善により,音声強調に有効であることが示唆された。

In this paper, we explore a continuous modeling approach for deep-learning-based speech enhancement, focusing on the denoising process. We use a state variable to indicate the denoising process. The starting state is noisy speech and the ending state is clean speech. The noise component in the state variable decreases with the change of the state index until the noise component is 0. During training, a UNet-like neural network learns to estimate every state variable sampled from the continuous denoising process. In testing, we introduce a controlling factor as an embedding, ranging from zero to one, to the neural network, allowing us to control the level of noise reduction. This approach enables controllable speech enhancement and is adaptable to various application scenarios. Experimental results indicate that preserving a small amount of noise in the clean target benefits speech enhancement, as evidenced by improvements in both objective speech measures and automatic speech recognition performance.
翻訳日:2023-09-19 16:31:00 公開日:2023-09-17
# 数値ブートストラップ法によるダブルウェル・アンハーモニック発振器の非摂動式

A non-perturbative formula unifying double-wells and anharmonic oscillators under the numerical bootstrap approach ( http://arxiv.org/abs/2309.09269v1 )

ライセンス: Link先を確認
Wei Fan and Huipen Zhang(参考訳) 量子非調和振動子の基底状態と最初の励起状態との間のエネルギーギャップを数値ブートストラップ法を用いて研究する。 結合状態の制限に関する摂動式に基づいて,すべての結合値間のエネルギーギャップの定性式を提案し,その制限条件を接続する。 数値パラメータの詳細な値以外は、最近arXiv:2308.11516で提案された2重井戸ポテンシャルの基底状態分割式と同じ機能を持つ。 これはアンハーモニック振動子とダブルウェルポテンシャルを結びつけるが、基礎となる物理は異なる。 提案式はオクティックアンハーモニシティまでブートストラップデータに基づいて正当化される。

We study the energy gap between the ground state and the first excited state of quantum anharmonic oscillators, using the numerical bootstrap method. Based on perturbative formulae of limiting coupling regimes, we propose a qualitative formula of the energy gap across all coupling values, connecting the limiting regimes. Except detailed numerical parameter values, the proposed formula has the same functional form as the formula of ground state level splitting of double-well potentials, proposed recently in arXiv:2308.11516. This connects the anharmonic oscillators with the double-well potentials, although the underlying physics of them are different. The proposed formula is justified on bootstrap data up to the octic anharmonicities.
翻訳日:2023-09-19 16:30:46 公開日:2023-09-17
# トランスフォーマーを用いたコード品質評価

Code quality assessment using transformers ( http://arxiv.org/abs/2309.09264v1 )

ライセンス: Link先を確認
Mosleh Mahamud and Isak Samsten(参考訳) プログラムの割り当ての正確性を自動的に評価するのは、ユニットテストと統合テストを使って簡単にできる。 しかし、プログラミングタスクは複数の方法で解決できるが、その多くが正しくない。 例えば、過剰なブランチ、命名の難しさ、反復性がコードの理解とメンテナンスを困難にします。 これらの主観的なコード品質は、現在の技術を使って自動的に評価するのは難しい。 本研究では,Javaコードに品質スコアを自動的に割り当てるCodeBERTについて検討する。 異なるモデルとトレーニングパラダイムを実験します。 コード品質評価のための新しいデータセット上で,モデルの精度を検討する。 最後に, 塩分マップを用いて予測の質を評価する。 コード品質はある程度予測可能であり、タスク適応型事前学習を用いたトランスフォーマーベースモデルは、他の手法よりも効率的にタスクを解くことができる。

Automatically evaluate the correctness of programming assignments is rather straightforward using unit and integration tests. However, programming tasks can be solved in multiple ways, many of which, although correct, are inelegant. For instance, excessive branching, poor naming or repetitiveness make the code hard to understand and maintain. These subjective qualities of code are hard to automatically assess using current techniques. In this work we investigate the use of CodeBERT to automatically assign quality score to Java code. We experiment with different models and training paradigms. We explore the accuracy of the models on a novel dataset for code quality assessment. Finally, we assess the quality of the predictions using saliency maps. We find that code quality to some extent is predictable and that transformer based models using task adapted pre-training can solve the task more efficiently than other techniques.
翻訳日:2023-09-19 16:30:34 公開日:2023-09-17
# 2層ニューラルネットワーク上のロジスティック損失に対するSGDのグローバル収束

Global Convergence of SGD For Logistic Loss on Two Layer Neural Nets ( http://arxiv.org/abs/2309.09258v1 )

ライセンス: Link先を確認
Pulkit Gopalani, Samyak Jha, Anirbit Mukherjee(参考訳) 本稿では、任意のデータとシグモイドやタンのような適切に滑らかで有界なアクティベーションを持つゲート数に対して、SGDが適切に正規化された2ドルネットのロジスティックな経験的リスクのグローバルミニマに、一級の証明可能な収束を示す。 また,連続時間sgdに対する指数関数的に高速な収束速度を証明し,softplus のような滑らかな非バウンドアクティベーションにも適用した。 我々のキーとなる考え方は、「ビラニ関数」である定数サイズのニューラルネット上でのフロベニウスノルム正規化ロジスティック損失関数の存在を示し、そのような目的に基づいてSGDを解析することによって最近の進歩を構築できることである。

In this note, we demonstrate a first-of-its-kind provable convergence of SGD to the global minima of appropriately regularized logistic empirical risk of depth $2$ nets -- for arbitrary data and with any number of gates with adequately smooth and bounded activations like sigmoid and tanh. We also prove an exponentially fast convergence rate for continuous time SGD that also applies to smooth unbounded activations like SoftPlus. Our key idea is to show the existence of Frobenius norm regularized logistic loss functions on constant-sized neural nets which are "Villani functions" and thus be able to build on recent progress with analyzing SGD on such objectives.
翻訳日:2023-09-19 16:30:23 公開日:2023-09-17
# 拡散確率モデルを用いたLiDARデータ合成

LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2309.09256v1 )

ライセンス: Link先を確認
Kazuto Nakashima, Ryo Kurazume(参考訳) 3D LiDARデータの生成モデリングは、スケーラブルなシミュレーション、シーン操作、LiDARポイントクラウドのスパース・トゥ・ディエンス・コンプリートといった自律移動ロボットのための有望なアプリケーションにおいて、新たな課題である。 既存のアプローチでは、画像ベースのLiDARデータ生成は深層生成モデルで実現可能であるが、生成データの完全性やトレーニング不安定性に苦慮している。 本研究では,LDARデータのための新しい生成モデルであるR2DMを提案する。R2DMは,距離と反射強度のイメージ表現に基づいて,多種多様で高忠実な3Dシーンポイント雲を生成できる。 提案手法は拡散確率モデル (DDPM) に基づいており, 生成モデルフレームワークにおいて顕著な結果が得られ, 近年, 著しく進歩している。 lidarドメイン上でddpmを効果的にトレーニングするために,まずデータ表現,トレーニング目標,空間的インダクティブバイアスに関する詳細な分析を行う。 設計したR2DMに基づいて、DDPMの強力な特性を利用した柔軟なLiDAR補完パイプラインも導入する。 提案手法は,KITTI-360データセットとKITTI-Rawデータセットの生成タスクと,KITTI-360データセットのアップサンプリングタスクのベースラインよりも優れていることを示す。 私たちのコードとトレーニング済みのウェイトは、https://github.com/kazuto1011/r2dmで利用可能です。

Generative modeling of 3D LiDAR data is an emerging task with promising applications for autonomous mobile robots, such as scalable simulation, scene manipulation, and sparse-to-dense completion of LiDAR point clouds. Existing approaches have shown the feasibility of image-based LiDAR data generation using deep generative models while still struggling with the fidelity of generated data and training instability. In this work, we present R2DM, a novel generative model for LiDAR data that can generate diverse and high-fidelity 3D scene point clouds based on the image representation of range and reflectance intensity. Our method is based on the denoising diffusion probabilistic models (DDPMs), which have demonstrated impressive results among generative model frameworks and have been significantly progressing in recent years. To effectively train DDPMs on the LiDAR domain, we first conduct an in-depth analysis regarding data representation, training objective, and spatial inductive bias. Based on our designed model R2DM, we also introduce a flexible LiDAR completion pipeline using the powerful properties of DDPMs. We demonstrate that our method outperforms the baselines on the generation task of KITTI-360 and KITTI-Raw datasets and the upsampling task of KITTI-360 datasets. Our code and pre-trained weights will be available at https://github.com/kazuto1011/r2dm.
翻訳日:2023-09-19 16:30:08 公開日:2023-09-17
# 階層型連合学習における無線ネットワーク上のユーザ割当とリソース割当

User Assignment and Resource Allocation for Hierarchical Federated Learning over Wireless Networks ( http://arxiv.org/abs/2309.09253v1 )

ライセンス: Link先を確認
Tinghao Zhang, Kwok-Yan Lam, Jun Zhao(参考訳) 無線利用者の多さは、データソース機械学習(ML)のキードライバーである。 しかし、データのプライバシーは依然として大きな問題だ。 フェデレートラーニング(FL)は、ユーザのデバイスを離れるデータを必要とせずにML内のデータ共有を奨励するが、モバイルデバイスに大量の計算と通信のオーバーヘッドを課す。 階層型fl(hfl)はエッジサーバで部分モデル集約を行うことでこの問題を軽減する。 HFLは、効率的なリソース割り当てと適切なユーザ割り当てによって、エネルギー消費とレイテンシーを効果的に削減できる。 それでも、HFLのリソース割り当てには複数の変数の最適化が伴い、目的関数はエネルギー消費と遅延の両方を考慮すべきであり、リソース割り当てアルゴリズムの開発は非常に複雑である。 さらに,大規模な検索空間における組合せ最適化問題であるユーザ割当を行うことも困難である。 本稿では,スペクトル資源最適化アルゴリズム(SROA)とHFLのための2段階反復アルゴリズム(TSIA)を提案する。 任意のユーザ割り当てパターンが与えられた場合、SROAはCPU周波数、送信電力、帯域幅を最適化し、システムコストを最小限に抑える。 TSIAの目的は、システム全体のコストを大幅に削減するユーザー割り当てパターンを見つけることである。 実験結果は,既存のエネルギー・レイテンシ低減研究よりもhflフレームワークが優れていることを示した。

The large population of wireless users is a key driver of data-crowdsourced Machine Learning (ML). However, data privacy remains a significant concern. Federated Learning (FL) encourages data sharing in ML without requiring data to leave users' devices but imposes heavy computation and communications overheads on mobile devices. Hierarchical FL (HFL) alleviates this problem by performing partial model aggregation at edge servers. HFL can effectively reduce energy consumption and latency through effective resource allocation and appropriate user assignment. Nevertheless, resource allocation in HFL involves optimizing multiple variables, and the objective function should consider both energy consumption and latency, making the development of resource allocation algorithms very complicated. Moreover, it is challenging to perform user assignment, which is a combinatorial optimization problem in a large search space. This article proposes a spectrum resource optimization algorithm (SROA) and a two-stage iterative algorithm (TSIA) for HFL. Given an arbitrary user assignment pattern, SROA optimizes CPU frequency, transmit power, and bandwidth to minimize system cost. TSIA aims to find a user assignment pattern that considerably reduces the total system cost. Experimental results demonstrate the superiority of the proposed HFL framework over existing studies in energy and latency reduction.
翻訳日:2023-09-19 16:29:46 公開日:2023-09-17
# 因果干渉によるテキストビデオ検索におけるフレーム長バイアスの除去

Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal Intervention ( http://arxiv.org/abs/2309.09311v1 )

ライセンス: Link先を確認
Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim(参考訳) 多くの研究は、テキストビデオ検索における事前学習の改善や新しいバックボーンの開発に焦点を当てている。 しかし、既存の手法は、他のテキストビデオ関連タスクで示唆されているように、学習と推論バイアスの問題に悩まされる可能性がある。 例えば、アクション認識における空間的外観特徴や、ビデオシーングラフ生成における時間的オブジェクトの共起は、散発的な相関を引き起こす可能性がある。 本研究では,テキスト・ビデオ検索タスクにおける最初の試みであるトリミングビデオクリップのトレーニングセットとテストセットのフレーム長の相違による時間的偏りに関する一意的かつ体系的な研究を,我々の知る限りにおいて提示する。 まず、ベースライン研究で示されたモデルにどのように影響するかのバイアスを仮説化し検証します。 次に、因果脱バイアス法を提案し、Epic-Kitchens-100, YouCook2, MSR-VTTデータセットに関する広範な実験およびアブレーション研究を行う。 本モデルでは,nDCGのベースラインとSOTAを超越し,そのバイアスを緩和する意味関連性に着目した評価指標である。

Many studies focus on improving pretraining or developing new backbones in text-video retrieval. However, existing methods may suffer from the learning and inference bias issue, as recent research suggests in other text-video-related tasks. For instance, spatial appearance features on action recognition or temporal object co-occurrences on video scene graph generation could induce spurious correlations. In this work, we present a unique and systematic study of a temporal bias due to frame length discrepancy between training and test sets of trimmed video clips, which is the first such attempt for a text-video retrieval task, to the best of our knowledge. We first hypothesise and verify the bias on how it would affect the model illustrated with a baseline study. Then, we propose a causal debiasing approach and perform extensive experiments and ablation studies on the Epic-Kitchens-100, YouCook2, and MSR-VTT datasets. Our model overpasses the baseline and SOTA on nDCG, a semantic-relevancy-focused evaluation metric which proves the bias is mitigated, as well as on the other conventional metrics.
翻訳日:2023-09-19 16:24:00 公開日:2023-09-17
# UGC: 画像から画像への効率的な翻訳のための統一GAN圧縮

UGC: Unified GAN Compression for Efficient Image-to-Image Translation ( http://arxiv.org/abs/2309.09310v1 )

ライセンス: Link先を確認
Yuxi Ren, Jie Wu, Peng Zhang, Manlin Zhang, Xuefeng Xiao, Qian He, Rui Wang, Min Zheng, Xin Pan(参考訳) 近年,画像と画像の翻訳におけるGAN(Generative Adversarial Networks)の進歩が注目されている。 しかし、これらのganモデルの成功は、計算コストと労働効率のトレーニングデータにかかっている。 現在の効率的なGAN学習技術は、しばしば2つの直交的な側面に該当する。 一 計算コストの低減によるモデルスリム化 二 トレーニングデータ/ラベルの少ないデータ/ラベル効率の学習。 両世界の長所を組み合わせるために,モデル効率とラベル効率の学習の相乗効果をシームレスに促進するために,統一された最適化目標を備えた新しい学習パラダイムUnified GAN Compression(UGC)を提案する。 ugcは半教師付きネットワークアーキテクチャ探索と適応型オンライン半教師付き蒸留ステージを順次設定し、異種相互学習スキームを定式化し、アーキテクチャフレキシブルでラベル効率が高く、性能に優れるモデルを得る。

Recent years have witnessed the prevailing progress of Generative Adversarial Networks (GANs) in image-to-image translation. However, the success of these GAN models hinges on ponderous computational costs and labor-expensive training data. Current efficient GAN learning techniques often fall into two orthogonal aspects: i) model slimming via reduced calculation costs; ii)data/label-efficient learning with fewer training data/labels. To combine the best of both worlds, we propose a new learning paradigm, Unified GAN Compression (UGC), with a unified optimization objective to seamlessly prompt the synergy of model-efficient and label-efficient learning. UGC sets up semi-supervised-driven network architecture search and adaptive online semi-supervised distillation stages sequentially, which formulates a heterogeneous mutual learning scheme to obtain an architecture-flexible, label-efficient, and performance-excellent model.
翻訳日:2023-09-19 16:23:39 公開日:2023-09-17
# 改良型変圧器とコアテンション融合による効果的な画像改ざん

Effective Image Tampering Localization via Enhanced Transformer and Co-attention Fusion ( http://arxiv.org/abs/2309.09306v1 )

ライセンス: Link先を確認
Kun Guo, Haochen Zhu, Gang Cao(参考訳) 強力な操作技術により、視覚異常を残さずに、デジタル画像偽造を容易に作成し、広めることができる。 画像鑑定では, 異常領域の視覚的局在が極めて重要である。 本稿では,注意に基づく特徴融合を用いた2分岐エンコーダを用いた画像改ざん型位置決めネットワーク(eitlnet)を提案する。 具体的には、トランスエンコーダの特徴表現能力を向上する機能拡張モジュールを設計する。 rgbおよびノイズストリームから抽出された特徴を複数のスケールで座標注意型融合モジュールにより効果的に融合する。 提案手法が様々なベンチマークデータセットにおける最先端の一般化能力とロバスト性を実現することを検証する。 コードはhttps://github.com/multimediafor/eitlnetで公開される。

Powerful manipulation techniques have made digital image forgeries be easily created and widespread without leaving visual anomalies. The blind localization of tampered regions becomes quite significant for image forensics. In this paper, we propose an effective image tampering localization network (EITLNet) based on a two-branch enhanced transformer encoder with attention-based feature fusion. Specifically, a feature enhancement module is designed to enhance the feature representation ability of the transformer encoder. The features extracted from RGB and noise streams are fused effectively by the coordinate attention-based fusion module at multiple scales. Extensive experimental results verify that the proposed scheme achieves the state-of-the-art generalization ability and robustness in various benchmark datasets. Code will be public at https://github.com/multimediaFor/EITLNet.
翻訳日:2023-09-19 16:23:23 公開日:2023-09-17
# RenderIH:3次元干渉型ハンドポース推定のための大規模合成データセット

RenderIH: A Large-scale Synthetic Dataset for 3D Interacting Hand Pose Estimation ( http://arxiv.org/abs/2309.09301v1 )

ライセンス: Link先を確認
Lijun Li, Linrui Tian1, Xindi Zhang, Qi Wang, Bang Zhang, Liefeng Bo, Mengyuan Liu, and Chen Chen(参考訳) 現在の相互作用ハンド(IH)データセットは、背景とテクスチャの観点から比較的単純であり、手関節は機械アノテーションによって注釈付けされ、不正確な結果となり、ポーズ分布の多様性が制限される。 しかし,背景,ポーズ分布,テクスチャの多様性は,一般化能力に大きな影響を及ぼす。 そこで我々は,高精度かつ多様なポーズアノテーションで手と対話するための大規模合成データセットRenderIHを提案する。 データセットには、背景、視点、手のテクスチャの異なる100万枚の写真リアル画像が含まれている。 自然および多様に相互作用するポーズを生成するために,新しいポーズ最適化アルゴリズムを提案する。 さらに, 姿勢推定精度を向上させるために, 相互作用手間の相関を活用し, 結果改善におけるrenderihの有効性を検証するために, トランストランスベースポーズ推定ネットワークであるtranshandを導入する。 我々のデータセットはモデル非依存であり、他の実データや合成データセットと比較して任意の手ポーズ推定方法の精度を向上させることができる。 実験により, 合成データの事前学習は6.76mmから5.79mmに大幅に誤差を減少させることが示された。 私たちのデータセットとコードはhttps://github.com/adwardlee/RenderIH.orgで公開されています。

The current interacting hand (IH) datasets are relatively simplistic in terms of background and texture, with hand joints being annotated by a machine annotator, which may result in inaccuracies, and the diversity of pose distribution is limited. However, the variability of background, pose distribution, and texture can greatly influence the generalization ability. Therefore, we present a large-scale synthetic dataset RenderIH for interacting hands with accurate and diverse pose annotations. The dataset contains 1M photo-realistic images with varied backgrounds, perspectives, and hand textures. To generate natural and diverse interacting poses, we propose a new pose optimization algorithm. Additionally, for better pose estimation accuracy, we introduce a transformer-based pose estimation network, TransHand, to leverage the correlation between interacting hands and verify the effectiveness of RenderIH in improving results. Our dataset is model-agnostic and can improve more accuracy of any hand pose estimation method in comparison to other real or synthetic datasets. Experiments have shown that pretraining on our synthetic data can significantly decrease the error from 6.76mm to 5.79mm, and our Transhand surpasses contemporary methods. Our dataset and code are available at https://github.com/adwardlee/RenderIH.
翻訳日:2023-09-19 16:23:11 公開日:2023-09-17
# AutoAM: 自動およびユニバーサル引数マイニングのためのエンドツーエンドニューラルネットワーク

AutoAM: An End-To-End Neural Model for Automatic and Universal Argument Mining ( http://arxiv.org/abs/2309.09300v1 )

ライセンス: Link先を確認
Lang Cao(参考訳) 引数マイニングは、引数構造を分析し、非構造化テキストから重要な引数情報を抽出することである。 議論マイニングシステムは、テキストの背後にある因果情報と論理情報を自動的に得るのに役立つ。 議論的コーパスが徐々に増加し、ソーシャルメディア上で議論や議論を始めるにつれて、議論的マイニングがますます重要になっている。 しかし, 自然言語処理の難しさから, 議論マイニングは依然として大きな課題であり, 相対的手法は未熟である。 例えば、木以外の議論採掘の研究はもっと行う必要がある。 ほとんどの作業は、ツリー構造引数情報を抽出することに集中している。 さらに、現在の手法では、引数関係を正確に記述およびキャプチャすることができず、それらの型を予測できない。 本稿では,これらの問題を解決するために,AutoAMと呼ばれるニューラルモデルを提案する。 まず,議論成分の注意機構をモデルに導入する。 引数コンポーネント間の関連情報をキャプチャできるので、私たちのモデルは引数マイニングをよりうまく実行できます。 私たちのモデルは、木構造のような制約なしに引数構造を解析し、1つのモデルで引数マイニングの3つのサブタスクを完了できる、普遍的なエンドツーエンドフレームワークです。 実験の結果,提案モデルは2つの公開データセットにおいて,複数のメトリクスを用いた既存の作業よりも優れていることがわかった。

Argument mining is to analyze argument structure and extract important argument information from unstructured text. An argument mining system can help people automatically gain causal and logical information behind the text. As argumentative corpus gradually increases, like more people begin to argue and debate on social media, argument mining from them is becoming increasingly critical. However, argument mining is still a big challenge in natural language tasks due to its difficulty, and relative techniques are not mature. For example, research on non-tree argument mining needs to be done more. Most works just focus on extracting tree structure argument information. Moreover, current methods cannot accurately describe and capture argument relations and do not predict their types. In this paper, we propose a novel neural model called AutoAM to solve these problems. We first introduce the argument component attention mechanism in our model. It can capture the relevant information between argument components, so our model can better perform argument mining. Our model is a universal end-to-end framework, which can analyze argument structure without constraints like tree structure and complete three subtasks of argument mining in one model. The experiment results show that our model outperforms the existing works on several metrics in two public datasets.
翻訳日:2023-09-19 16:22:51 公開日:2023-09-17
# OWL:IT運用のための大規模言語モデル

OWL: A Large Language Model for IT Operations ( http://arxiv.org/abs/2309.09298v1 )

ライセンス: Link先を確認
Hongcheng Guo, Jian Yang, Jiaheng Liu, Liqun Yang, Linzheng Chai, Jiaqi Bai, Junran Peng, Xiaorong Hu, Chao Chen, Dongfeng Zhang, Xu Shi, Tieqiao Zheng, Liangfan Zheng, Bo Zhang, Ke Xu, Zhoujun Li(参考訳) IT運用の急速な発展に伴い、実用的なアプリケーションのために大量のデータを効率的に管理し、分析することがますます重要になっている。 自然言語処理(NLP)の技術は、名前付きエンティティ認識、機械翻訳、対話システムなど、様々なタスクに顕著な能力を示している。 最近、LLM(Large Language Models)は様々なNLPダウンストリームタスクで大幅に改善されている。 しかし、IT運用には特殊なLLMが不足している。 本稿では,様々なドメインやタスクにまたがるパラメーター効率のチューニングを改善するために,多種多様なit関連情報を含む,我々の収集したowl-instructデータセット上でトレーニングされた大規模言語モデルであるowlを紹介する。 さらに、当社が確立したOWL-Bench上でのOWLの性能を評価し、IT関連ベンチマークをオープンにする。 OWLはITタスクにおける優れたパフォーマンス結果を示しており、既存のモデルをかなり上回っている。 さらに、私たちの研究の成果が、専門的なLLMでIT運用の技術に革命をもたらすことを願っています。

With the rapid development of IT operations, it has become increasingly crucial to efficiently manage and analyze large volumes of data for practical applications. The techniques of Natural Language Processing (NLP) have shown remarkable capabilities for various tasks, including named entity recognition, machine translation and dialogue systems. Recently, Large Language Models (LLMs) have achieved significant improvements across various NLP downstream tasks. However, there is a lack of specialized LLMs for IT operations. In this paper, we introduce the OWL, a large language model trained on our collected OWL-Instruct dataset with a wide range of IT-related information, where the mixture-of-adapter strategy is proposed to improve the parameter-efficient tuning across different domains or tasks. Furthermore, we evaluate the performance of our OWL on the OWL-Bench established by us and open IT-related benchmarks. OWL demonstrates superior performance results on IT tasks, which outperforms existing models by significant margins. Moreover, we hope that the findings of our work will provide more insights to revolutionize the techniques of IT operations with specialized LLMs.
翻訳日:2023-09-19 16:22:31 公開日:2023-09-17
# 昼も夜も追う - イベントカメラによるロバストで効率的な一日中物体検出に向けて

Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera ( http://arxiv.org/abs/2309.09297v1 )

ライセンス: Link先を確認
Jiahang Cao, Xu Zheng, Yuanhuiyi Lyu, Jiaxu Wang, Renjing Xu, Lin Wang(参考訳) The ability to detect objects in all lighting (i.e., normal-, over-, and under-exposed) conditions is crucial for real-world applications, such as self-driving.Traditional RGB-based detectors often fail under such varying lighting conditions.Therefore, recent works utilize novel event cameras to supplement or guide the RGB modality; however, these methods typically adopt asymmetric network structures that rely predominantly on the RGB modality, resulting in limited robustness for all-day detection. 本稿では,RGBとイベントモダリティの両方を融合させて,堅牢かつ効率的な全日検出を実現する新しいオブジェクト検出フレームワークであるEOLOを提案する。 我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。 そこで我々は,まずイベント時間注意(eta)モジュールを導入し,重要なエッジ情報を保持しながらイベントから高い時間情報を学ぶ。 第2に、様々なモードが様々な照明条件下で様々な重要性を示すため、特定のモダリティに頼ることなくRGBイベント機能を効果的に融合するSymmetric RGB-Event Fusion (SREF) モジュールを提案する。 さらに,全日連続トレーニングと評価のためのRGB-Eventデータセットの欠如を補うために,単一露光画像からイベントフレームを直接生成可能なランダム化光学フローに基づくイベント合成手法を提案する。 さらに、人気のあるベンチマークであるMSCOCOとPASCAL VOCに基づいて、E-MSCOCOとE-VOCという2つの新しいデータセットを構築します。 大規模な実験により、我々のEOLOはすべての照明条件において最先端の検出器、例えばRENetよりも相当なマージン(+3.74% mAP50)を上回り、我々のコードとデータセットはhttps://vlislab22.github.io/EOLO/で利用可能となる。

The ability to detect objects in all lighting (i.e., normal-, over-, and under-exposed) conditions is crucial for real-world applications, such as self-driving.Traditional RGB-based detectors often fail under such varying lighting conditions.Therefore, recent works utilize novel event cameras to supplement or guide the RGB modality; however, these methods typically adopt asymmetric network structures that rely predominantly on the RGB modality, resulting in limited robustness for all-day detection. In this paper, we propose EOLO, a novel object detection framework that achieves robust and efficient all-day detection by fusing both RGB and event modalities. Our EOLO framework is built based on a lightweight spiking neural network (SNN) to efficiently leverage the asynchronous property of events. Buttressed by it, we first introduce an Event Temporal Attention (ETA) module to learn the high temporal information from events while preserving crucial edge information. Secondly, as different modalities exhibit varying levels of importance under diverse lighting conditions, we propose a novel Symmetric RGB-Event Fusion (SREF) module to effectively fuse RGB-Event features without relying on a specific modality, thus ensuring a balanced and adaptive fusion for all-day detection. In addition, to compensate for the lack of paired RGB-Event datasets for all-day training and evaluation, we propose an event synthesis approach based on the randomized optical flow that allows for directly generating the event frame from a single exposure image. We further build two new datasets, E-MSCOCO and E-VOC based on the popular benchmarks MSCOCO and PASCAL VOC. Extensive experiments demonstrate that our EOLO outperforms the state-of-the-art detectors,e.g.,RENet,by a substantial margin (+3.74% mAP50) in all lighting conditions.Our code and datasets will be available at https://vlislab22.github.io/EOLO/
翻訳日:2023-09-19 16:22:13 公開日:2023-09-17
# 知識グラフ補完のためのモデルベースサブサンプリング

Model-based Subsampling for Knowledge Graph Completion ( http://arxiv.org/abs/2309.09296v1 )

ライセンス: Link先を確認
Xincan Feng, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe(参考訳) サブサンプリングはKGE(Knowledge Graph Embedding)において、KG(Knowledge Graph)データセットのスパーシリティに起因するオーバーフィッティングを低減するために有効である。 しかし、現在のサブサンプリングアプローチでは、エンティティとその関係からなるクエリの頻度のみを考慮する。 このように、既存のサブサンプリングは、エンティティや関係の頻度が高い場合でも、頻繁なクエリの出現確率を過小評価する可能性がある。 そこで本研究では,モデルベースサブサンプリング (MBS) と混合サブサンプリング (MIX) を提案し,その出現確率をKGEモデルの予測により推定する。 FB15k-237, WN18RR, YAGO3-10のデータセットによる評価結果から, 提案手法により, 一般的なKGEモデル, RotatE, TransE, HAKE, ComplEx, DistMultのKG完了性能が向上した。

Subsampling is effective in Knowledge Graph Embedding (KGE) for reducing overfitting caused by the sparsity in Knowledge Graph (KG) datasets. However, current subsampling approaches consider only frequencies of queries that consist of entities and their relations. Thus, the existing subsampling potentially underestimates the appearance probabilities of infrequent queries even if the frequencies of their entities or relations are high. To address this problem, we propose Model-based Subsampling (MBS) and Mixed Subsampling (MIX) to estimate their appearance probabilities through predictions of KGE models. Evaluation results on datasets FB15k-237, WN18RR, and YAGO3-10 showed that our proposed subsampling methods actually improved the KG completion performances for popular KGE models, RotatE, TransE, HAKE, ComplEx, and DistMult.
翻訳日:2023-09-19 16:21:40 公開日:2023-09-17
# livelyspeaker:semantic-aware co-speechジェスチャ生成に向けて

LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation ( http://arxiv.org/abs/2309.09294v1 )

ライセンス: Link先を確認
Yihao Zhi, Xiaodong Cun, Xuelin Chen, Xi Shen, Wen Guo, Shaoli Huang, Shenghua Gao(参考訳) ジェスチャーは非言語的だが人々のスピーチに付随する重要な行動である。 従来の手法では音声リズム同期ジェスチャを生成できるが、音声の意味的文脈は概してジェスチャーに欠けている。 セマンティックジェスチャは人間の発話ではあまり頻繁には発生しないが、これは聴衆がより没入的な環境で音声の文脈を理解するための鍵である。 そこで我々は,semantics-aware co-speechジェスチャ生成を実現するフレームワークであるlivelyspeakerを紹介する。 特に,本手法は,スクリプトベースのジェスチャー生成と音声誘導によるリズム改善の2段階に分割する。 具体的には、スクリプトベースのジェスチャー生成は、トレーニング済みのCLIPテキスト埋め込みを、スクリプトに高度にセマンティックに整合したジェスチャーを生成するためのガイダンスとして活用する。 そこで,本研究では,音声信号のみに適応した単純な拡散に基づくジェスチャー生成バックボーンを考案し,現実的な動作で身振りを学習する。 音声信号を用いたスクリプトガイドジェスチャ,特にゼロショット設定では,rhymeよりもこれほど強力である。 新たな2段階生成フレームワークでは,ジェスチレーションスタイルの変更,テキストプロンプトによる協調ジェスチャの編集,ガイド拡散による意味認識とリズムアライメントの制御など,いくつかの応用が可能となる。 大規模な実験は、競合する手法よりも提案されたフレームワークの利点を実証する。 さらに,コア拡散に基づく生成モデルも2つのベンチマークで最先端の性能を実現する。 コードとモデルは、将来の研究を促進するためにリリースされる。

Gestures are non-verbal but important behaviors accompanying people's speech. While previous methods are able to generate speech rhythm-synchronized gestures, the semantic context of the speech is generally lacking in the gesticulations. Although semantic gestures do not occur very regularly in human speech, they are indeed the key for the audience to understand the speech context in a more immersive environment. Hence, we introduce LivelySpeaker, a framework that realizes semantics-aware co-speech gesture generation and offers several control handles. In particular, our method decouples the task into two stages: script-based gesture generation and audio-guided rhythm refinement. Specifically, the script-based gesture generation leverages the pre-trained CLIP text embeddings as the guidance for generating gestures that are highly semantically aligned with the script. Then, we devise a simple but effective diffusion-based gesture generation backbone simply using pure MLPs, that is conditioned on only audio signals and learns to gesticulate with realistic motions. We utilize such powerful prior to rhyme the script-guided gestures with the audio signals, notably in a zero-shot setting. Our novel two-stage generation framework also enables several applications, such as changing the gesticulation style, editing the co-speech gestures via textual prompting, and controlling the semantic awareness and rhythm alignment with guided diffusion. Extensive experiments demonstrate the advantages of the proposed framework over competing methods. In addition, our core diffusion-based generative model also achieves state-of-the-art performance on two benchmarks. The code and model will be released to facilitate future research.
翻訳日:2023-09-19 16:21:20 公開日:2023-09-17
# 2次元UVフェムト秒励起ラマン分光法による分子偏光子:暗黒状態以上

Two-dimensional UV femtosecond stimulated Raman spectroscopy for molecular polaritons: dark states and beyond ( http://arxiv.org/abs/2309.09289v1 )

ライセンス: Link先を確認
Jianhua Ren, Zhedong Zhang(参考訳) 我々は,光学キャビティにおけるN$分子に対するフェムト秒励起ラマン分光法(UV-FSRS)を開発した。 このスキームは、分子分極子の集団力学と振動との結合のリアルタイムモニタリングと、分極子と暗黒状態の間のクロストークを可能にする。 UV-FSRS信号の多次元投影を通して、共鳴技術では見えないような経路や時間スケールといった暗黒状態の明確な署名を同定する。 UV-FSRSのために顕微鏡理論が開発され、互いに相互作用する分極性集団とコヒーレンスダイナミクスを明らかにする。 得られた信号は暗黒状態を可視化し、暗黒状態のダイナミクスとポラリトンモードとの相関を検出する新しい技術を提供する。

We have developed a femtosecond ultra-voilet (UV) stimulated Raman spectroscopy (UV-FSRS) for $N$ molecules in optical cavities. The scheme enables a real-time monitoring of collective dynamics of molecular polaritons and their coupling to vibrations, along with a crosstalk between polariton and dark states. Through multidimensional projections of the UV-FSRS signal, we identify clear signature of the dark states, e.g., pathways and timescales that used to be invisible in resonant technique. A microscopic theory is developed for the UV-FSRS, so as to reveal the polaritonic population and coherence dynamics that interplay with each other. The resulting signal makes the dark states visible, thereby providing a new technique for probing dark state dynamics and their correlation with polariton modes.
翻訳日:2023-09-19 16:20:53 公開日:2023-09-17
# トランスフォーマーを用いた構音障害児の音声明瞭度分類の試み

A Few-Shot Approach to Dysarthric Speech Intelligibility Level Classification Using Transformers ( http://arxiv.org/abs/2309.09329v1 )

ライセンス: Link先を確認
Paleti Nikhil Chowdary, Vadlapudi Sai Aravind, Gorantla V N S L Vishnu Vardhan, Menta Sai Akshay, Menta Sai Aashish, Jyothish Lal. G(参考訳) 発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。 患者の生活の質と効果的なコミュニケーション能力を向上させるために、治療計画の作成や支援に使用できるため、変形症の検出はいくつかの理由から重要である。 文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。 本研究の目的は、変形器モデルを用いた数発のアプローチを用いて、変形性の有無を正確に分類し、限られたデータを用いてインテリジェンスレベルに関する情報を提供するモデルを開発することである。 この研究は、過去の研究で見られるデータ漏洩にも取り組みます。 中等度患者を含むUASpeechデータセットのサブセットをトレーニングしたWhisper-large-v2トランスフォーマーモデルは,精度85%,精度0.92,リコール0.8F1スコア0.85,特異度0.91を得た。 実験の結果,'ワード'データセットを用いてトレーニングしたモデルは,'レター'データセットと'ディジット'データセットでトレーニングされたモデルよりも優れた性能を示した。 さらに,マルチクラスモデルの精度は67%であった。

Dysarthria is a speech disorder that hinders communication due to difficulties in articulating words. Detection of dysarthria is important for several reasons as it can be used to develop a treatment plan and help improve a person's quality of life and ability to communicate effectively. Much of the literature focused on improving ASR systems for dysarthric speech. The objective of the current work is to develop models that can accurately classify the presence of dysarthria and also give information about the intelligibility level using limited data by employing a few-shot approach using a transformer model. This work also aims to tackle the data leakage that is present in previous studies. Our whisper-large-v2 transformer model trained on a subset of the UASpeech dataset containing medium intelligibility level patients achieved an accuracy of 85%, precision of 0.92, recall of 0.8 F1-score of 0.85, and specificity of 0.91. Experimental results also demonstrate that the model trained using the 'words' dataset performed better compared to the model trained on the 'letters' and 'digits' dataset. Moreover, the multiclass model achieved an accuracy of 67%.
翻訳日:2023-09-19 16:14:00 公開日:2023-09-17
# 拡散強調画像を用いた変形性膝関節症の重症度分類

Enhancing Knee Osteoarthritis severity level classification using diffusion augmented images ( http://arxiv.org/abs/2309.09328v1 )

ライセンス: Link先を確認
Paleti Nikhil Chowdary, Gorantla V N S L Vishnu Vardhan, Menta Sai Akshay, Menta Sai Aashish, Vadlapudi Sai Aravind, Garapati Venkata Krishna Rayalu, Aswathy P(参考訳) 本研究は, 変形性膝関節症 (OA) の重症度をコンピュータビジョンモデルと拡張技術を用いて分類する。 本研究では,CLAHE(Contrast-Limited Adaptive Histogram Equalization)や拡散モデルを用いたデータ拡張など,データ前処理の有効性について検討した。 3つの実験が実施された。最初のデータセットのトレーニングモデル、前処理データセットのトレーニングモデル、拡張データセットのトレーニングモデルである。 その結果,データの事前処理と拡張によりモデルの精度は大幅に向上した。 EfficientNetB3モデルは、拡張データセットで84\%の精度を達成した。 さらに、Grad-CAMのような注意可視化技術を使用して、詳細な注意マップを提供し、モデルの理解と信頼性を高める。 これらの知見は, 膝OA重症度分類のための高度なモデルと拡張データと注意可視化を組み合わせる可能性を強調した。

This research paper explores the classification of knee osteoarthritis (OA) severity levels using advanced computer vision models and augmentation techniques. The study investigates the effectiveness of data preprocessing, including Contrast-Limited Adaptive Histogram Equalization (CLAHE), and data augmentation using diffusion models. Three experiments were conducted: training models on the original dataset, training models on the preprocessed dataset, and training models on the augmented dataset. The results show that data preprocessing and augmentation significantly improve the accuracy of the models. The EfficientNetB3 model achieved the highest accuracy of 84\% on the augmented dataset. Additionally, attention visualization techniques, such as Grad-CAM, are utilized to provide detailed attention maps, enhancing the understanding and trustworthiness of the models. These findings highlight the potential of combining advanced models with augmented data and attention visualization for accurate knee OA severity classification.
翻訳日:2023-09-19 16:13:40 公開日:2023-09-17
# アゾレスにおける漁業持続可能性と政策のための経験型データ再構成

Experiential-Informed Data Reconstruction for Fishery Sustainability and Policies in the Azores ( http://arxiv.org/abs/2309.09326v1 )

ライセンス: Link先を確認
Brenda Nogueira, Gui M. Menezes, Nuno Moniz(参考訳) 漁業分析は、生物種の長期持続可能性と、食料と収入のために漁業に依存する何百万人もの人々の生活を維持する上で重要である。 漁具は海洋生物にとって重要な要素であり、種や魚の大きさを選択的に狙う。 漁業ストックアセスメントおよび管理におけるメティエによる商業的漁獲や上陸の分析は重要であり、漁業活動とその海洋生態系への影響をしっかりと見積もっている。 本稿では,2010年から2017年の間,アゾレス諸島の漁獲データ収集プログラムから収集したユニークなデータセットに着目した。 我々の主な目的は、データセットの再構築に取り組み、ドメイン知識と機械学習を利用して、魚の上陸毎にメティア関連情報を検索または関連付けることである。 多様なモデリング手法を用いて,本課題の有効性を実証的に検証し,今後の魚類の個体数評価,管理,保全に不可欠である,異なる漁業の行動に対する新たな洞察と,時間とともにメティアが与える影響を実証する。

Fishery analysis is critical in maintaining the long-term sustainability of species and the livelihoods of millions of people who depend on fishing for food and income. The fishing gear, or metier, is a key factor significantly impacting marine habitats, selectively targeting species and fish sizes. Analysis of commercial catches or landings by metier in fishery stock assessment and management is crucial, providing robust estimates of fishing efforts and their impact on marine ecosystems. In this paper, we focus on a unique data set from the Azores' fishing data collection programs between 2010 and 2017, where little information on metiers is available and sparse throughout our timeline. Our main objective is to tackle the task of data set reconstruction, leveraging domain knowledge and machine learning methods to retrieve or associate metier-related information to each fish landing. We empirically validate the feasibility of this task using a diverse set of modeling approaches and demonstrate how it provides new insights into different fisheries' behavior and the impact of metiers over time, which are essential for future fish population assessments, management, and conservation efforts.
翻訳日:2023-09-19 16:13:14 公開日:2023-09-17
# 量子インラインコヒーレントイメージングを用いたリアルタイムサブミクロン深度モニタリングのための理論的枠組み

Theoretical framework for real time sub-micron depth monitoring using quantum inline coherent imaging ( http://arxiv.org/abs/2309.09325v1 )

ライセンス: Link先を確認
Alexander Wainwright and Khaled Madhoun(参考訳) インラインコヒーレントイメージング(ICI)は、キーホール溶接、添加物製造、マイクロ加工など、様々なレーザプロセスのリアルタイム監視のための信頼性の高い手法である。 しかし、軸分解能は2 {\mu}mを超えるため、iciはサブミクロンプロセスの監視には不向きである。 ホン・オ・マンデル干渉計(HOM)を用いた量子光コヒーレンス・トモグラフィ(QOCT)の進歩は、この問題に1.mu}m以上の深さ分解能を達成して解決する可能性がある。 時間分解QOCTは遅いが、フーリエ領域QOCT(FD-QOCT)はこの制限を克服し、サブミクロンスケールのリアルタイムプロセス監視を可能にする。 本稿では、FD-QOCTとQOCTの基礎を概観し、FD-QOCTに基づく量子インラインコヒーレントイメージングシステムを提案する。 今日利用可能な周波数の絡み合ったソースを使用すると、理論的な分解能は0.17ミクロンとなり、サブミクロンリアルタイムプロセス監視に適している。

Inline Coherent Imaging (ICI) is a reliable method for real-time monitoring of various laser processes, including keyhole welding, additive manufacturing, and micromachining. However, the axial resolution is limited to greater than 2 {\mu}m making ICI unsuitable for monitoring submicron processes. Advancements in Quantum Optical Coherence Tomography (QOCT), which uses a Hong-Ou-Mandel (HOM) interferometer, has the potential to address this issue by achieving better than 1 {\mu}m depth resolution. While time-resolved QOCT is slow, Fourier domain QOCT (FD-QOCT) overcomes this limitation, enabling submicron scale real-time process monitoring. Here we review the fundamentals of FD-QOCT and QOCT and propose a Quantum Inline Coherent Imaging system based on FD-QOCT. Using frequency entangled sources available today the system has a theoretical resolution of 0.17 microns, making it suitable for submicron real-time process monitoring.
翻訳日:2023-09-19 16:12:39 公開日:2023-09-17
# ダイナミックゼロ共有政策をどう認識するか--評価理論の視点からのふりかえり分析

How People Perceive The Dynamic Zero-COVID Policy: A Retrospective Analysis From The Perspective of Appraisal Theory ( http://arxiv.org/abs/2309.09324v1 )

ライセンス: Link先を確認
Na Yang and Kyrie Zhixuan Zhou and Yunzhe Li(参考訳) 中国のダイナミックゼロウイルス政策は3年間にわたって行われ、さまざまな感情的な反応が観測されている。 本稿では,政策に対する世論や認識,特に時間とともにどのように発展してきたか,人々の生活経験との関連性について振り返って分析する。 評価理論のレンズを用いた深部談話分析において,2,358件のWeiboポストの感情分析を通じて,政策初期化,鋭い感情変化,最低感情スコア,政策終了という4つの代表点を同定した。 最終的に、我々は、ダイナミックゼロウイルス政策に対する世論の進化を反映し、今後の危機に対する効果的な感染予防と対策について提案した。

The Dynamic Zero-COVID Policy in China spanned three years and diverse emotional responses have been observed at different times. In this paper, we retrospectively analyzed public sentiments and perceptions of the policy, especially regarding how they evolved over time, and how they related to people's lived experiences. Through sentiment analysis of 2,358 collected Weibo posts, we identified four representative points, i.e., policy initialization, sharp sentiment change, lowest sentiment score, and policy termination, for an in-depth discourse analysis through the lens of appraisal theory. In the end, we reflected on the evolving public sentiments toward the Dynamic Zero-COVID Policy and proposed implications for effective epidemic prevention and control measures for future crises.
翻訳日:2023-09-19 16:11:46 公開日:2023-09-17
# discoscmsによる3層問合せ応答

Answering Layer 3 queries with DiscoSCMs ( http://arxiv.org/abs/2309.09323v1 )

ライセンス: Link先を確認
Heyang Gong(参考訳) 因果推論の領域では、主要なフレームワークは、整合性規則を規定した潜在的アウトカム(PO)と構造因果モデル(SCM)である。 しかし、レイヤ3のバリュエーション、すなわち、個人レベルのセマンティクスに固有の反事実クエリに直面すると、どちらも一貫性ルールによるデジェネレーションの問題のために不十分に思える。 例えば、インターネット業界におけるパーソナライズされたインセンティブシナリオでは、ある特定のユーザが準拠者である確率は、$P(y_x, y'_{x'})$で表され、0または1の値しか取ることができないパラメータに縮退する。 本稿では,POとSCMの長所を結合した因果モデリングの新しい枠組みである,先述の逆ファクト・デジェネレーション問題に理論的に対処するために,DiscoSCMフレームワークを活用する。 論文は、因果モデリングフレームワークの背景に関する簡単な紹介から始まります。 次に、例として、強力な仮定を課すことなく、データから反現実的パラメータを復元する難しさを説明している。 次に,この問題に対処するために,独立ポテンシャル雑音枠組みを持つdiscoscmを提案する。 その後, 単位選択問題におけるいくつかの重要な結果から, discoscm フレームワークの反事実的質問への回答における優れた性能を示す。 そして、この優越性は個人の因果性の哲学に由来することを解明する。 結論として, DiscoSCM は, 因果モデリング分野における重要なマイルストーンとして機能する可能性が示唆された。

In the realm of causal inference, the primary frameworks are the Potential Outcome (PO) and the Structural Causal Model (SCM), both predicated on the consistency rule. However, when facing Layer 3 valuations, i.e., counterfactual queries that inherently belong to individual-level semantics, they both seem inadequate due to the issue of degeneration caused by the consistency rule. For instance, in personalized incentive scenarios within the internet industry, the probability of one particular user being a complier, denoted as $P(y_x, y'_{x'})$, degenerates to a parameter that can only take values of 0 or 1. This paper leverages the DiscoSCM framework to theoretically tackle the aforementioned counterfactual degeneration problem, which is a novel framework for causal modeling that combines the strengths of both PO and SCM, and could be seen as an extension of them. The paper starts with a brief introduction to the background of causal modeling frameworks. It then illustrates, through an example, the difficulty in recovering counterfactual parameters from data without imposing strong assumptions. Following this, we propose the DiscoSCM with independent potential noise framework to address this problem. Subsequently, the superior performance of the DiscoSCM framework in answering counterfactual questions is demonstrated by several key results in the topic of unit select problems. We then elucidate that this superiority stems from the philosophy of individual causality. In conclusion, we suggest that DiscoSCM may serve as a significant milestone in the causal modeling field for addressing counterfactual queries.
翻訳日:2023-09-19 16:11:26 公開日:2023-09-17
# NFTコレクターがオンラインNFTコミュニティをいかに経験したか:Bored Apeを事例として

How NFT Collectors Experience Online NFT Communities: A Case Study of Bored Ape ( http://arxiv.org/abs/2309.09320v1 )

ライセンス: Link先を確認
Allison Sinnott and Kyrie Zhixuan Zhou(参考訳) 非偽造トークン(NFT)は、デジタルメディアの所有権を表すユニークな暗号資産である。 NFTの人気と取引価格が上昇している。 しかし、特にNFTプロジェクトを中心に形成された利害関係者やオンラインコミュニティに関して、NFTに関する文献には大きなギャップがある。 Bored Ape Yacht Club (BAYC) は最も影響力のあるNFTプロジェクトの一つである。 ソーシャルメディアプラットフォーム上でのオンラインBAYCコミュニティの観察調査と、BAYC NFTを所有する4人の参加者との半構造化インタビューを通じて、オンラインNFTコミュニティにおけるNFTコレクターの経験を調査した。 個人的表現とアイデンティティ,BAYC保有者間の相互サポート,オンラインおよびオフラインイベントへの排他的アクセスなど,ポジティブなコミュニティ体験が表現された。 問題となったのは詐欺やNFTの「キャッシュ・グラブ」プロジェクト、そしてトロリングだった。 本研究の結果は,NFTコミュニティの歓迎的かつ肯定的な性質を示唆するものであり,NFTの初歩的な普及の因果関係であると考えられる。 一方、デモティベーターは消費者の間でNFT技術の確立された信頼性に対抗した。

Non-fungible tokens (NFTs) are unique cryptographic assets representing the ownership of digital media. NFTs have soared in popularity and trading prices. However, there exists a large gap in the literature regarding NFTs, especially regarding the stakeholders and online communities that have formed around NFT projects. Bored Ape Yacht Club (BAYC) is one of the most influential NFT projects. Through an observational study of online BAYC communities across social media platforms and semi-structured interviews with four participants who owned BAYC NFTs, we explored the experiences of NFT collectors within the online NFT community. Positive community experiences, i.e., personal expression and identity, mutual support among BAYC holders, and exclusive access to online and offline events, were expressed. Encountered challenges included scams and "cash grab" NFT projects as well as trolling. The results of this study point towards the welcoming, positive nature of the NFT community, which is a possible causation factor of the initial rise in popularity of NFTs. Demotivators, on the other hand, countered the established trustworthiness of NFT technology among its consumers.
翻訳日:2023-09-19 16:10:58 公開日:2023-09-17
# 多クラスラベルクエリを用いた意味セグメンテーションのためのアクティブラーニング

Active Learning for Semantic Segmentation with Multi-class Label Query ( http://arxiv.org/abs/2309.09319v1 )

ライセンス: Link先を確認
Sehyun Hwang, Sohyun Lee, Hoyoung Kim, Minhyeon Oh, Jungseul Ok, Suha Kwak(参考訳) 本稿ではセマンティックセグメンテーションのための新しいアクティブラーニング手法を提案する。 私たちのメソッドのコアは、新しいアノテーションクエリ設計にあります。 情報的局所画像領域(スーパーピクセルなど)をサンプリングし、それぞれの領域に対して、その領域に存在する全てのクラスを示すマルチホットベクトルに対してオラクルを要求する。 このマルチクラスラベリング戦略は、セグメンテーション、ポリゴン、さらにはクリックあたりのアノテーション時間という観点で支配的なクラスラベリングといった既存のものよりもはるかに効率的である。 しかし、個々のピクセルに部分ラベル(すなわち、候補クラスの集合)を割り当てているため、トレーニングにおいてクラスあいまいさが問題となる。 そこで本稿では,部分ラベルを2段階に分けながらセマンティックセグメンテーションを学習するアルゴリズムを提案する。 第1段階では、部分ラベル学習と複数インスタンス学習によって動機付けられた2つの新しい損失関数を通じて、部分ラベルと直接セグメントモデルを訓練する。 第2段階では、モデルの教師付き学習に使用されるピクセル単位の擬似ラベルを生成して、部分ラベルの曖昧さを解消する。 マルチクラスラベリングに特化した新たな取得機能を備え,アノテーションコストの低減を図りつつ,Cityscapes と PASCAL VOC 2012 の先行研究に優れていた。

This paper proposes a new active learning method for semantic segmentation. The core of our method lies in a new annotation query design. It samples informative local image regions (e.g., superpixels), and for each of such regions, asks an oracle for a multi-hot vector indicating all classes existing in the region. This multi-class labeling strategy is substantially more efficient than existing ones like segmentation, polygon, and even dominant class labeling in terms of annotation time per click. However, it introduces the class ambiguity issue in training since it assigns partial labels (i.e., a set of candidate classes) to individual pixels. We thus propose a new algorithm for learning semantic segmentation while disambiguating the partial labels in two stages. In the first stage, it trains a segmentation model directly with the partial labels through two new loss functions motivated by partial label learning and multiple instance learning. In the second stage, it disambiguates the partial labels by generating pixel-wise pseudo labels, which are used for supervised learning of the model. Equipped with a new acquisition function dedicated to the multi-class labeling, our method outperformed previous work on Cityscapes and PASCAL VOC 2012 while spending less annotation cost.
翻訳日:2023-09-19 16:10:40 公開日:2023-09-17
# 潜在確率微分モデルを用いた運動学的軌道生成と予測

Kinematics-aware Trajectory Generation and Prediction with Latent Stochastic Differential Modeling ( http://arxiv.org/abs/2309.09317v1 )

ライセンス: Link先を確認
Ruochen Jiao, Yixuan Wang, Xiangguo Liu, Chao Huang, Qi Zhu(参考訳) 軌道生成と軌道予測は、開発中に様々な軌道を生成し、運用中の周辺車両の軌道を予測する、自律走行車両にとって2つの重要なタスクである。 しかしながら、性能向上の著しい進展にもかかわらず、生成/予測された軌道が現実的、説明可能、物理的に実現可能であることを保証することは依然として困難な問題である。 既存のモデルベースメソッドは、説明可能な結果を提供するが、事前定義されたモデル構造によって制約され、複雑なシナリオに対処する能力を制限する。 逆に、既存のディープラーニングベースの手法は、さまざまなトラフィックシナリオを学習し、全体的なパフォーマンスを改善する上で大きな可能性を秘めている。 本研究では,ニューラル確率微分方程式(SDE)とキネマティック知識を統合し,新しい潜在キネマティックス対応SDE(LK-SDE)に基づく変分オートエンコーダを開発した。 私たちのアプローチは、モデルベースとディープラーニングベースの両方の利点を組み合わせています。 実験の結果,本手法は,現実的かつ物理的に実現可能であり,正確に制御可能な車両軌道を生成する上でのベースラインアプローチを著しく上回っており,生成と予測の双方に有益であることがわかった。

Trajectory generation and trajectory prediction are two critical tasks for autonomous vehicles, which generate various trajectories during development and predict the trajectories of surrounding vehicles during operation, respectively. However, despite significant advances in improving their performance, it remains a challenging problem to ensure that the generated/predicted trajectories are realistic, explainable, and physically feasible. Existing model-based methods provide explainable results, but are constrained by predefined model structures, limiting their capabilities to address complex scenarios. Conversely, existing deep learning-based methods have shown great promise in learning various traffic scenarios and improving overall performance, but they often act as opaque black boxes and lack explainability. In this work, we integrate kinematic knowledge with neural stochastic differential equations (SDE) and develop a variational autoencoder based on a novel latent kinematics-aware SDE (LK-SDE) to generate vehicle motions. Our approach combines the advantages of both model-based and deep learning-based techniques. Experimental results demonstrate that our method significantly outperforms baseline approaches in producing realistic, physically-feasible, and precisely-controllable vehicle trajectories, benefiting both generation and prediction tasks.
翻訳日:2023-09-19 16:10:18 公開日:2023-09-17
# MOVIN:単一LiDARを用いたリアルタイムモーションキャプチャ

MOVIN: Real-time Motion Capture using a Single LiDAR ( http://arxiv.org/abs/2309.09314v1 )

ライセンス: Link先を確認
Deok-Kyeong Jang, Dongseok Yang, Deok-Yun Jang, Byeoli Choi, Taeil Jin, and Sung-Hee Lee(参考訳) 近年の技術進歩は、エンドユーザーが仮想アバターを介して相互に対話するソーシャルメタバースのような、インタラクティブな新しいタイプのアプリケーションを生み出している。 このようなアプリケーションでは、没入型体験と仮想アバターとの具現化には、正確な全身追跡が不可欠である。 しかし、現在のモーションキャプチャシステムは、高コスト、操作する特別なスキルの要求、ウェアラブルデバイスに関連する不快感などにより、エンドユーザにとって容易にはアクセスできない。 本稿では,単一のlidarセンサを用いて,グローバルトラッキングを用いたリアルタイムモーションキャプチャのためのデータ駆動生成手法であるmovinを提案する。 我々の自己回帰的条件付き変分オートエンコーダ(CVAE)モデルは,所与の3Dポイントクラウド上で条件付けられたポーズ変動の分布をLiDARから学習し,高精度なモーションキャプチャーの要素として,歴史的3Dポイントクラウドデータとグローバルな局所的なポーズ特徴との相関関係を学習する特徴エンコーダを提案する。 グローバルなポーズの特徴は、ルート翻訳、回転、足の接触、局所的な特徴は関節の位置と回転である。 その後、ポーズ生成器は、サンプリングされた潜時変数と前フレームの特徴とを考慮し、可塑性電流ポーズを生成する。 提案手法は,フレーム間の時間的コヒーレントな動きを効果的に考慮しながら,演奏者の3次元グローバル情報と局所ジョイント詳細を正確に予測する。 定量的・質的評価を行い,最先端手法と比較し,アーキテクチャの有効性を実証する。 さらに,本手法を実世界のシナリオで示すために,リアルタイムアプリケーションを実装した。 MOVINデータセットは \url{https://movin3d.github.io/movin_pg2023/} で利用可能である。

Recent advancements in technology have brought forth new forms of interactive applications, such as the social metaverse, where end users interact with each other through their virtual avatars. In such applications, precise full-body tracking is essential for an immersive experience and a sense of embodiment with the virtual avatar. However, current motion capture systems are not easily accessible to end users due to their high cost, the requirement for special skills to operate them, or the discomfort associated with wearable devices. In this paper, we present MOVIN, the data-driven generative method for real-time motion capture with global tracking, using a single LiDAR sensor. Our autoregressive conditional variational autoencoder (CVAE) model learns the distribution of pose variations conditioned on the given 3D point cloud from LiDAR.As a central factor for high-accuracy motion capture, we propose a novel feature encoder to learn the correlation between the historical 3D point cloud data and global, local pose features, resulting in effective learning of the pose prior. Global pose features include root translation, rotation, and foot contacts, while local features comprise joint positions and rotations. Subsequently, a pose generator takes into account the sampled latent variable along with the features from the previous frame to generate a plausible current pose. Our framework accurately predicts the performer's 3D global information and local joint details while effectively considering temporally coherent movements across frames. We demonstrate the effectiveness of our architecture through quantitative and qualitative evaluations, comparing it against state-of-the-art methods. Additionally, we implement a real-time application to showcase our method in real-world scenarios. MOVIN dataset is available at \url{https://movin3d.github.io/movin_pg2023/}.
翻訳日:2023-09-19 16:09:53 公開日:2023-09-17
# 自動調整型MPCとエコロジークルーズ制御への応用

An Automatic Tuning MPC with Application to Ecological Cruise Control ( http://arxiv.org/abs/2309.09358v1 )

ライセンス: Link先を確認
Mohammad Abtahi, Mahdis Rabbani, and Shima Nazari(参考訳) モデル予測制御(MPC)は、制約の処理能力とプレビュー情報の活用により、動的システムの計画と制御を行う強力なツールである。 それでも、MPCの性能はコスト関数チューニングパラメータの選択に大きく依存している。 本研究では,mpcコントローラのオンライン自動チューニングへのアプローチを実証し,道路グレードのプレビューを用いて燃料を節約する環境クルーズ制御システムへの適用例を示す。 動的プログラミングを用いて,グローバル燃料消費最小化問題をオフラインで解決し,逆最適化問題を解くことで対応するMPCコスト関数を求める。 これらのオフライン結果に適応したニューラルネットワークを用いて、オンライン操作中に所望のmpcコスト関数重みを生成する。 提案手法の有効性は道路形状の異なるシミュレーションにより検証された。

Model predictive control (MPC) is a powerful tool for planning and controlling dynamical systems due to its capacity for handling constraints and taking advantage of preview information. Nevertheless, MPC performance is highly dependent on the choice of cost function tuning parameters. In this work, we demonstrate an approach for online automatic tuning of an MPC controller with an example application to an ecological cruise control system that saves fuel by using a preview of road grade. We solve the global fuel consumption minimization problem offline using dynamic programming and find the corresponding MPC cost function by solving the inverse optimization problem. A neural network fitted to these offline results is used to generate the desired MPC cost function weight during online operation. The effectiveness of the proposed approach is verified in simulation for different road geometries.
翻訳日:2023-09-19 16:04:18 公開日:2023-09-17
# Talk2Care: 大規模言語モデルによる非同期患者プロバイダ通信の実現

Talk2Care: Facilitating Asynchronous Patient-Provider Communication with Large-Language-Model ( http://arxiv.org/abs/2309.09357v1 )

ライセンス: Link先を確認
Ziqi Yang, Xuhai Xu, Bingsheng Yao, Shao Zhang, Ethan Rogers, Stephen Intille, Nawar Shara, Guodong (Gordon) Gao, Dakuo Wang(参考訳) 在宅高齢者や医療提供者を支援するための遠隔医療アプリケーションが多いにもかかわらず、基本的なメッセージングや電話は依然として最も一般的なコミュニケーション方法であり、可用性や情報損失、プロセスの非効率に苦しんでいる。 患者と提供者のコミュニケーションを促進する有望な解決策の1つは、強力な自然会話と要約機能を備えた大規模言語モデル(llm)を活用することである。 しかし、通信におけるllmsの役割の理解は限られている。 まず,高齢者 (N=10) と医療提供者 (N=9) の2つのインタビュー研究を行い, 患者支援非同期コミュニケーションにおけるLSMの必要性と機会について検討した。 1)高齢者向けに音声アシスタント(vas)の利便性とアクセシビリティを活用し,効果的な情報収集のためにllmを利用したvaインターフェースを構築した。 2)健康提供者向けに,高齢者のvaとの会話に基づく重要な健康情報を要約し提示するための,llmベースのダッシュボードを構築した。 さらに,高齢者と提供者との2つのユーザスタディを行い,システムのユーザビリティを評価した。 その結果,Talk2Careはコミュニケーションプロセスを促進し,高齢者の健康情報を充実させ,提供者の努力と時間を著しく節約できることがわかった。 我々は,医療と対人コミュニケーションの交点におけるllmsの能力の探索として,我々の研究を期待する。

Despite the plethora of telehealth applications to assist home-based older adults and healthcare providers, basic messaging and phone calls are still the most common communication methods, which suffer from limited availability, information loss, and process inefficiencies. One promising solution to facilitate patient-provider communication is to leverage large language models (LLMs) with their powerful natural conversation and summarization capability. However, there is a limited understanding of LLMs' role during the communication. We first conducted two interview studies with both older adults (N=10) and healthcare providers (N=9) to understand their needs and opportunities for LLMs in patient-provider asynchronous communication. Based on the insights, we built an LLM-powered communication system, Talk2Care, and designed interactive components for both groups: (1) For older adults, we leveraged the convenience and accessibility of voice assistants (VAs) and built an LLM-powered VA interface for effective information collection. (2) For health providers, we built an LLM-based dashboard to summarize and present important health information based on older adults' conversations with the VA. We further conducted two user studies with older adults and providers to evaluate the usability of the system. The results showed that Talk2Care could facilitate the communication process, enrich the health information collected from older adults, and considerably save providers' efforts and time. We envision our work as an initial exploration of LLMs' capability in the intersection of healthcare and interpersonal communication.
翻訳日:2023-09-19 16:04:06 公開日:2023-09-17
# 物性構造:化学要素埋め込みと化学特性の正確な予測のための深層学習アプローチ

Structure to Property: Chemical Element Embeddings and a Deep Learning Approach for Accurate Prediction of Chemical Properties ( http://arxiv.org/abs/2309.09355v1 )

ライセンス: Link先を確認
Shokirbek Shermukhamedov, Dilorom Mamurjonova, Michael Probst(参考訳) 機械学習(ML)技術の計算化学への応用は、分子特性の予測、薬物発見の加速、材料設計において大きな進歩をもたらした。 mlモデルは、複雑なデータセットや大規模データセットから隠れたパターンや関係を抽出でき、高い精度で様々な化学的特性を予測できる。 このような方法を用いることで、それまで同定が困難だった分子や材料の発見が可能となった。 本稿では,階層化タスクのための多層エンコーダやデコーダアーキテクチャなど,ディープラーニング技術に基づく新しいmlモデルを提案する。 有機および無機化合物を含む各種入力データに適用することで,本手法がもたらす機会を実証する。 特に, 結晶特性と薬物設計関連ベンチマークを含むMatebench と Moleculenet ベンチマークを用いて, モデルの開発と試験を行った。 また, 化合物のベクトル表現の包括的解析を行い, 分子データの基盤となるパターンに光を当てる。 この研究で使用されるモデルは高い予測力を示し、分子および材料データセットに適用した場合に、洗練された機械学習で達成できる進歩を裏付ける。 例えば、tox21データセットでは、平均精度96%を達成し、以前の最高の結果を10%上回っています。 私たちのコードはhttps://github.com/dmamur/elembert.comで公開されています。

The application of machine learning (ML) techniques in computational chemistry has led to significant advances in predicting molecular properties, accelerating drug discovery, and material design. ML models can extract hidden patterns and relationships from complex and large datasets, allowing for the prediction of various chemical properties with high accuracy. The use of such methods has enabled the discovery of molecules and materials that were previously difficult to identify. This paper introduces a new ML model based on deep learning techniques, such as a multilayer encoder and decoder architecture, for classification tasks. We demonstrate the opportunities offered by our approach by applying it to various types of input data, including organic and inorganic compounds. In particular, we developed and tested the model using the Matbench and Moleculenet benchmarks, which include crystal properties and drug design-related benchmarks. We also conduct a comprehensive analysis of vector representations of chemical compounds, shedding light on the underlying patterns in molecular data. The models used in this work exhibit a high degree of predictive power, underscoring the progress that can be made with refined machine learning when applied to molecular and material datasets. For instance, on the Tox21 dataset, we achieved an average accuracy of 96%, surpassing the previous best result by 10%. Our code is publicly available at https://github.com/dmamur/elembert.
翻訳日:2023-09-19 16:03:40 公開日:2023-09-17
# 全量子ウェーブレット変換のための効率的な量子アルゴリズム

Efficient Quantum Algorithm for All Quantum Wavelet Transforms ( http://arxiv.org/abs/2309.09350v1 )

ライセンス: Link先を確認
Mohsen Bagherimehrab and Alan Aspuru-Guzik(参考訳) ウェーブレット変換は、フーリエ変換によって無視される情報を特徴付ける数学的ツールとして、科学や工学の様々な分野で広く使われている。 ユニークなフーリエ変換とは異なり、ウェーブレット変換は使用するウェーブレットの種類とシーケンスの長さを指定する順序パラメータに関連付けられた数列によって指定される。 古典的フーリエ変換の量子アナログである量子フーリエ変換は量子コンピューティングにおいて中心的な役割を担っているが、量子ウェーブレット変換(QWT)に関する以前の研究は特定のウェーブレットの2階と4階に限られていた。 ここでは,量子コンピュータ上で任意のウェーブレット変換を実行するための,単純かつ効率的な量子アルゴリズムを開発した。 本手法は,実装が容易なモジュラー量子算術演算により計算可能なユニタリ (lcu) の線形結合としてウェーブレット変換のカーネル行列を分解し,lcu法を用いて確率的手順を構築し,qwt を \textit{known} 成功確率で実装する。 次に、振幅増幅戦略の単一実行により、ウェーブレットの特性を用いてこのアプローチを決定的とする。 我々は、多レベルウェーブレット変換と一般化バージョンであるパケットウェーブレット変換にアプローチを拡張し、ウェーブレット順序$m$、変換行列の次元$n$、変換レベル$d$という3つのパラメータで計算の複雑さを確立する。 コストは$N$で対数、$d$で線形、$M$で準線形であることを示す。 提案した量子ウェーブレット変換は、確立された量子フーリエ変換と同様の方法で量子計算アルゴリズムで利用することができる。

Wavelet transforms are widely used in various fields of science and engineering as a mathematical tool with features that reveal information ignored by the Fourier transform. Unlike the Fourier transform, which is unique, a wavelet transform is specified by a sequence of numbers associated with the type of wavelet used and an order parameter specifying the length of the sequence. While the quantum Fourier transform, a quantum analog of the classical Fourier transform, has been pivotal in quantum computing, prior works on quantum wavelet transforms (QWTs) were limited to the second and fourth order of a particular wavelet, the Daubechies wavelet. Here we develop a simple yet efficient quantum algorithm for executing any wavelet transform on a quantum computer. Our approach is to decompose the kernel matrix of a wavelet transform as a linear combination of unitaries (LCU) that are compilable by easy-to-implement modular quantum arithmetic operations and use the LCU technique to construct a probabilistic procedure to implement a QWT with a \textit{known} success probability. We then use properties of wavelets to make this approach deterministic by a single execution of the amplitude amplification strategy. We extend our approach to a multilevel wavelet transform and a generalized version, the packet wavelet transform, establishing computational complexities in terms of three parameters: the wavelet order $M$, the dimension $N$ of the transformation matrix, and the transformation level $d$. We show the cost is logarithmic in $N$, linear in $d$ and quasilinear in $M$. Our proposed quantum wavelet transforms could be used in quantum computing algorithms in a similar manner to their well-established counterpart, the quantum Fourier transform.
翻訳日:2023-09-19 16:03:18 公開日:2023-09-17
# 音声ジェスチャーGAN:ロボットとエージェントのためのジェスチャー生成

Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents ( http://arxiv.org/abs/2309.09346v1 )

ライセンス: Link先を確認
Carson Yu Liu, Gelareh Mohammadi, Yang Song and Wafa Johal(参考訳) 身体化されたエージェントは、仮想エージェントやソーシャルロボットという形で急速に普及している。 人間と人間の相互作用では、人間は態度、感情、意図を伝えるために非言語的な行動を使う。 したがって、人間との相互作用の質と効果を高めるためには、具体化剤にもこの能力が必要である。 本稿では,音声テキストと音声の発話から,関節角度の連続を生成できる新しいフレームワークを提案する。 条件付き生成型adversarial network(gan)に基づいて,提案するニューラルネットワークモデルは,音声入力から,協調ジェスチャと意味的・音響的特徴の関係を学習する。 ニューラルネットモデルをトレーニングするために,男性1人の英語話者から抽出した音声音声の発話に対応する音声ジェスチャーを含む公開データセットを用いた。 客観的および主観的評価の結果から,ロボットと身体エージェントのためのジェスチャー生成フレームワークの有効性が示された。

Embodied agents, in the form of virtual agents or social robots, are rapidly becoming more widespread. In human-human interactions, humans use nonverbal behaviours to convey their attitudes, feelings, and intentions. Therefore, this capability is also required for embodied agents in order to enhance the quality and effectiveness of their interactions with humans. In this paper, we propose a novel framework that can generate sequences of joint angles from the speech text and speech audio utterances. Based on a conditional Generative Adversarial Network (GAN), our proposed neural network model learns the relationships between the co-speech gestures and both semantic and acoustic features from the speech input. In order to train our neural network model, we employ a public dataset containing co-speech gestures with corresponding speech audio utterances, which were captured from a single male native English speaker. The results from both objective and subjective evaluations demonstrate the efficacy of our gesture-generation framework for Robots and Embodied Agents.
翻訳日:2023-09-19 16:02:45 公開日:2023-09-17
# 深いパラメタライズド量子回路のためのバレンプラトーの統一理論

A Unified Theory of Barren Plateaus for Deep Parametrized Quantum Circuits ( http://arxiv.org/abs/2309.09342v1 )

ライセンス: Link先を確認
Michael Ragone, Bojko N. Bakalov, Fr\'ed\'eric Sauvage, Alexander F. Kemper, Carlos Ortiz Marrero, Martin Larocca, and M. Cerezo(参考訳) 変分量子コンピューティングスキームは、高い汎用性と、短期量子デバイスを実用化する可能性から、かなりの注目を集めている。 これらのモデルは、パラメータ化された量子回路を通じて初期状態を送信し、回路の出力で演算子の期待値を評価することで損失関数を訓練する。 これらのアルゴリズムは, パラメータ化量子回路の表現性, 入力データの絡み合い, 可観測値の局所性, ハードウェアノイズの存在によって生じる不規則なプラトーを示すことが示されている。 この時点まで、これらの不毛の台地は独立したものとされ、特定の回路構造のためにのみ研究されてきた。 本研究では,特定のノイズモデルが存在する場合でも,十分に深いパラメータ化された量子回路の損失関数の分散の正確な表現を提供する一般リー代数理論を提案する。 この結果は, エンタングルメントと作用素の局所性という一般化された(およびサブシステムに依存しない)概念と, ノイズによる代数的デコヒーレンスの概念を活用することによって, 上記のバレンプラトーのすべての源を単一の枠組みで統一する。 この理論的な跳躍は、パラメトリズド回路の生成元のリー代数の次元とコスト集中の関係に関する定在予想を解決している。

Variational quantum computing schemes have received considerable attention due to their high versatility and potential to make practical use of near-term quantum devices. At their core, these models train a loss function by sending an initial state through a parametrized quantum circuit, and evaluating the expectation value of some operator at the circuit's output. Despite their promise, it has been shown that these algorithms can exhibit barren plateaus induced by the expressiveness of the parametrized quantum circuit, the entanglement of the input data, the locality of the observable or the presence of hardware noise. Up to this point, these sources of barren plateaus have been regarded as independent and have been studied only for specific circuit architectures. In this work, we present a general Lie algebraic theory that provides an exact expression for the variance of the loss function of sufficiently deep parametrized quantum circuits, even in the presence of certain noise models. Our results unify under one single framework all aforementioned sources of barren plateaus by leveraging generalized (and subsystem independent) notions of entanglement and operator locality, as well as generalized notions of algebraic decoherence due to noise. This theoretical leap resolves a standing conjecture about a connection between cost concentration and the dimension of the Lie algebra of the generators of the parametrized circuit.
翻訳日:2023-09-19 16:02:29 公開日:2023-09-17
# 事前学習型大規模言語モデルGPT-4の短解像自動生成における性能評価

Performance of the Pre-Trained Large Language Model GPT-4 on Automated Short Answer Grading ( http://arxiv.org/abs/2309.09338v1 )

ライセンス: Link先を確認
Gerd Kortemeyer(参考訳) 自動短解像(ASAG)は10年以上にわたって機械学習研究の活発な領域であった。 児童生徒が限られているにもかかわらず、大入学コースのフリーフォームの反応を教育者が評価し、フィードバックすることを約束している。 長年にわたり、注意深く訓練されたモデルはより高いレベルのパフォーマンスを実現してきた。 最近では、事前訓練された大規模言語モデル(llm)がコモディティとして登場し、追加のトレーニングなしで汎用ツールがどのように専門モデルと比較されるのか、興味深い疑問が投げかけられた。 また,標準ベンチマーク2-wayおよび3-wayデータセットscientsbankおよびklumiteにおけるgpt-4の性能について検討した。 総合的に, 訓練済み汎用GPT-4 LLMの性能は手作りモデルに匹敵するが, 専門訓練を施したLLMよりは劣ることがわかった。

Automated Short Answer Grading (ASAG) has been an active area of machine-learning research for over a decade. It promises to let educators grade and give feedback on free-form responses in large-enrollment courses in spite of limited availability of human graders. Over the years, carefully trained models have achieved increasingly higher levels of performance. More recently, pre-trained Large Language Models (LLMs) emerged as a commodity, and an intriguing question is how a general-purpose tool without additional training compares to specialized models. We studied the performance of GPT-4 on the standard benchmark 2-way and 3-way datasets SciEntsBank and Beetle, where in addition to the standard task of grading the alignment of the student answer with a reference answer, we also investigated withholding the reference answer. We found that overall, the performance of the pre-trained general-purpose GPT-4 LLM is comparable to hand-engineered models, but worse than pre-trained LLMs that had specialized training.
翻訳日:2023-09-19 16:02:02 公開日:2023-09-17
# シミュレーションに基づく惑星外大気探索の推測:正規化流を用いたアリエルデータチャレンジ2023の勝利からの洞察

Simulation-based Inference for Exoplanet Atmospheric Retrieval: Insights from winning the Ariel Data Challenge 2023 using Normalizing Flows ( http://arxiv.org/abs/2309.09337v1 )

ライセンス: Link先を確認
Mayeul Aubin (1,2), Carolina Cuesta-Lazaro (1), Ethan Tregidga (1,3), Javier Via\~na (4), Cecilia Garraffo (1), Iouli E. Gordon (1), Mercedes L\'opez-Morales (1), Robert J. Hargreaves (1), Vladimir Yu. Makhnev (1), Jeremy J. Drake (1), Douglas P. Finkbeiner (1), and Phillip Cargile (1) ( (1) Center for Astrophysics | Harvard & Smithsonian, (2) Ecole Polytechnique, (3) University of Southampton, (4) Kavli Institute for Astrophysics and Space Research | Massachusetts Institute of Technology)(参考訳) 宇宙望遠鏡の進歩は、太陽系外惑星の大気スペクトルに関する膨大なデータを集めるための新しい道を開いた。 しかし、これらのスペクトルから化学的・物理的性質を正確に抽出することは、基礎となる物理学の非線形性のために大きな課題となる。 本稿では,Ariel Data Challenge 2023のためにAstroAIチームが開発した新しい機械学習モデルについて述べる。 正規化フローを利用して,大気パラメータの後方確率分布を異なる仮定で予測する。 さらに,勝敗モデルよりも高い性能を示す代替モデルを提案する。 これらの結果は、評価基準の再評価の必要性を浮き彫りにして、惑星外大気スペクトル分析のより効率的で正確なアプローチを探求する。 最後に、課題とモデルを強化するための推奨事項を提示し、実際の観測データに対する将来の応用に価値ある洞察を提供する。 これらの進歩は、地球外惑星の大気特性をより効果的かつタイムリーに分析し、これらの遠い世界の理解を深める道を開く。

Advancements in space telescopes have opened new avenues for gathering vast amounts of data on exoplanet atmosphere spectra. However, accurately extracting chemical and physical properties from these spectra poses significant challenges due to the non-linear nature of the underlying physics. This paper presents novel machine learning models developed by the AstroAI team for the Ariel Data Challenge 2023, where one of the models secured the top position among 293 competitors. Leveraging Normalizing Flows, our models predict the posterior probability distribution of atmospheric parameters under different atmospheric assumptions. Moreover, we introduce an alternative model that exhibits higher performance potential than the winning model, despite scoring lower in the challenge. These findings highlight the need to reevaluate the evaluation metric and prompt further exploration of more efficient and accurate approaches for exoplanet atmosphere spectra analysis. Finally, we present recommendations to enhance the challenge and models, providing valuable insights for future applications on real observational data. These advancements pave the way for more effective and timely analysis of exoplanet atmospheric properties, advancing our understanding of these distant worlds.
翻訳日:2023-09-19 16:01:42 公開日:2023-09-17
# インド北東部における降雨予測のための動的モード分解と深層学習の力を解き放つ

Unleashing the Power of Dynamic Mode Decomposition and Deep Learning for Rainfall Prediction in North-East India ( http://arxiv.org/abs/2309.09336v1 )

ライセンス: Link先を確認
Paleti Nikhil Chowdary, Sathvika P, Pranav U, Rohan S, Sowmya V, Gopalakrishnan E A, Dhanya M(参考訳) 正確な降雨予報は、洪水や地すべりなどの極端な気象現象が発生しやすいインド北東部の災害対策と緩和に不可欠である。 本研究では,インド気象局の1日降雨データを用いた118年間の降雨予測に,動的モード分解(DMD)と長期短期記憶(LSTM)という2つのデータ駆動手法を用いて検討した。 降雨パターンの予測における相対的有効性を決定するため,これらの手法の比較分析を行った。 複数の気象観測所から得られた過去の降雨データを用いて,将来の降雨パターンを予測するためのモデルを訓練し,検証した。 その結果,DMDとLSTMは降雨予測に有効であり,LSTMの精度はDMDよりも優れており,LSTMはデータの複雑な非線形関係を捉える能力を有しており,降雨予測の強力なツールであることがわかった。 本研究は,dmdなどのデータ駆動手法やlstmのような深層学習手法が,インド北東部における降雨予測精度を著しく向上し,極端な気象現象の影響を緩和し,気候変動へのレジリエンスを高めることを示唆する。

Accurate rainfall forecasting is crucial for effective disaster preparedness and mitigation in the North-East region of India, which is prone to extreme weather events such as floods and landslides. In this study, we investigated the use of two data-driven methods, Dynamic Mode Decomposition (DMD) and Long Short-Term Memory (LSTM), for rainfall forecasting using daily rainfall data collected from India Meteorological Department in northeast region over a period of 118 years. We conducted a comparative analysis of these methods to determine their relative effectiveness in predicting rainfall patterns. Using historical rainfall data from multiple weather stations, we trained and validated our models to forecast future rainfall patterns. Our results indicate that both DMD and LSTM are effective in forecasting rainfall, with LSTM outperforming DMD in terms of accuracy, revealing that LSTM has the ability to capture complex nonlinear relationships in the data, making it a powerful tool for rainfall forecasting. Our findings suggest that data-driven methods such as DMD and deep learning approaches like LSTM can significantly improve rainfall forecasting accuracy in the North-East region of India, helping to mitigate the impact of extreme weather events and enhance the region's resilience to climate change.
翻訳日:2023-09-19 16:01:22 公開日:2023-09-17
# Feynmanの量子コンピュータの効率性

The Efficiency of Feynman's Quantum Computer ( http://arxiv.org/abs/2309.09331v1 )

ライセンス: Link先を確認
Ralph Jason Costales, Ali Gunning, Tony Dorlas(参考訳) ファインマンの回路-ハミルトニアン構成は、量子回路を時間非依存のハミルトニアンにマッピングすることを可能にする。 ここでは、ファインマンの時間発展演算子 $e^{-i\hat{h}t}$ for feynman's clock hamiltonian $\hat{h}$ を分析して、ファインマンの量子コンピュータの効率を調べる。 任意の数の演算を実行する量子コンピュータに対して、所望の計算が時刻$t$で完了する確率$p_k(t)$に対して一般的な公式が確立される。 最適停止時間は$\tau$ で表され、この確率の最初の局所的な最大値の時間として定義される。 この最適停止時間と演算数の間に線形関係があることが数値的に分かる: $\tau = 0.50 k + 2.37$。 理論的には、この線形挙動は、$\tau = \frac{1}{2} k + 1$, $p_k(\tau)$ がほぼ最大であることを示すことによって補う。 また、$\tau$ と $p_k(\tau)$ の間の関係を、大量の$k$ の演算の制限で確立する。 解析的に、最大で$p_k(\tau)$は$k^{-2/3}$のように振る舞う。 これはさらに数値的に証明され、逆立方根関係 $p_k(\tau) = 6.76 \; k^{-2/3}$ を見つける。 これは量子計算のパラダイムモデルよりもはるかに効率的である。

Feynman's circuit-to-Hamiltonian construction enables the mapping of a quantum circuit to a time-independent Hamiltonian. Here we investigate the efficiency of Feynman's quantum computer by analysing the time evolution operator $e^{-i\hat{H}t}$ for Feynman's clock Hamiltonian $\hat{H}$. A general formula is established for the probability, $P_k(t)$, that the desired computation is complete at time $t$ for a quantum computer which executes an arbitrary number $k$ of operations. The optimal stopping time, denoted by $\tau$, is defined as the time of the first local maximum of this probability. We find numerically that there is a linear relationship between this optimal stopping time and the number of operations, $\tau = 0.50 k + 2.37$. Theoretically, we corroborate this linear behaviour by showing that at $\tau = \frac{1}{2} k + 1$, $P_k(\tau)$ is approximately maximal. We also establish a relationship between $\tau$ and $P_k(\tau)$ in the limit of a large number $k$ of operations. We show analytically that at the maximum, $P_k(\tau)$ behaves like $k^{-2/3}$. This is further proven numerically where we find the inverse cubic root relationship $P_k(\tau) = 6.76 \; k^{-2/3}$. This is significantly more efficient than paradigmatic models of quantum computation.
翻訳日:2023-09-19 16:00:58 公開日:2023-09-17
# 大規模言語モデルを用いた音声言語理解のためのテキスト拡張

Augmenting text for spoken language understanding with Large Language Models ( http://arxiv.org/abs/2309.09390v1 )

ライセンス: Link先を確認
Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer(参考訳) Spoken semantic parsing (SSP) は入力音声から機械理解可能なパースを生成する。 既存のアプリケーションドメインをトレーニングデータで表現したり、新しいドメインに拡張したりするための堅牢なモデルのトレーニングには、高コストな音声書き起こし構文解析データの対応する三つ子が必要である。 本稿では,対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)を利用できる手法を検討することで,この問題に対処する。 まず、既存のテキストコーパスからアンペアテキストを描画する場合、アンペアテキストの音声表現を生成する方法として、ジョイントオーディオテキスト(jat)とtext-to-speech(tts)を比較する。 STOPデータセットの実験では、既存のドメインと新しいドメインの未ペアテキストは、それぞれ絶対エクササイズマッチ(EM)で2%と30%パフォーマンスを改善している。 第二に、既存のテキストコーパスでは未ペアテキストが利用できない場合について考察する。 既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。 実験によると、インテントと共起する例や単語はllama 2.0で非ペアテキストを生成するのに使うことができる。 JAT と TTS で生成されたテキストを音声意味解析に使用すると、STOP の EM は 1.4% と 2.6% に向上する。

Spoken semantic parsing (SSP) involves generating machine-comprehensible parses from input speech. Training robust models for existing application domains represented in training data or extending to new domains requires corresponding triplets of speech-transcript-semantic parse data, which is expensive to obtain. In this paper, we address this challenge by examining methods that can use transcript-semantic parse data (unpaired text) without corresponding speech. First, when unpaired text is drawn from existing textual corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways to generate speech representations for unpaired text. Experiments on the STOP dataset show that unpaired text from existing and new domains improves performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we consider the setting when unpaired text is not available in existing textual corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired text for existing and new domains. Experiments show that examples and words that co-occur with intents can be used to generate unpaired text with Llama 2.0. Using the generated text with JAT and TTS for spoken semantic parsing improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains respectively.
翻訳日:2023-09-19 15:52:43 公開日:2023-09-17
# Forman-Ricci曲率の増大による過スムージングと過スワッシングの緩和

Mitigating Over-Smoothing and Over-Squashing using Augmentations of Forman-Ricci Curvature ( http://arxiv.org/abs/2309.09384v1 )

ライセンス: Link先を確認
Lukas Fesser and Melanie Weber(参考訳) グラフニューラルネットワーク(GNN)は、ドメイン間のグラフ構造化データ学習に成功しているが、いくつかの潜在的な落とし穴が最近説明されている。 それらは、長距離接続でエンコードされた情報を正確に活用できないことや、ネットワークの深さを増加させることで、近くのノードの学習した表現を区別することの困難さを含む。 両効果を特徴づける効果的な方法は離散曲率である: オーバースキャッシング効果の根底にある長距離接続は低曲率であるが、オーバースムーシングに寄与するエッジは高曲率である。 この観察は、過剰なスムーシングと過剰なスケーシングを緩和するためにエッジを追加または削除する技術を生み出した。 グラフの曲率やラプラシアンのスペクトルなどのグラフ特性を利用するいくつかの再配線手法が提案されている。 しかし、既存の手法、特に曲率に基づく手法は、しばしば高価なサブルーチンと注意深いハイパーパラメータチューニングを必要とし、大規模なグラフに適用性を制限する。 本稿では、線形時間で計算可能なスケーラブルな曲率表記法であるAFRC(Augmented Forman-Ricci curvature)に基づく書き換え手法を提案する。 AFRCはメッセージパッシングGNNにおける過剰なスムースと過剰なスキャッシング効果を効果的に特徴付ける。 提案手法は,他の手法と比較して計算コストを大幅に削減しつつ,最先端の性能を実現することを示す実験により理論的結果を補完する。 離散曲率の基本特性を生かして,高コストなハイパーパラメータ探索を回避し,提案手法のスケーラビリティを向上する,曲率ベースリワイアリングにおけるハイパーパラメータの効果的なヒューリスティックスを提案する。

While Graph Neural Networks (GNNs) have been successfully leveraged for learning on graph-structured data across domains, several potential pitfalls have been described recently. Those include the inability to accurately leverage information encoded in long-range connections (over-squashing), as well as difficulties distinguishing the learned representations of nearby nodes with growing network depth (over-smoothing). An effective way to characterize both effects is discrete curvature: Long-range connections that underlie over-squashing effects have low curvature, whereas edges that contribute to over-smoothing have high curvature. This observation has given rise to rewiring techniques, which add or remove edges to mitigate over-smoothing and over-squashing. Several rewiring approaches utilizing graph characteristics, such as curvature or the spectrum of the graph Laplacian, have been proposed. However, existing methods, especially those based on curvature, often require expensive subroutines and careful hyperparameter tuning, which limits their applicability to large-scale graphs. Here we propose a rewiring technique based on Augmented Forman-Ricci curvature (AFRC), a scalable curvature notation, which can be computed in linear time. We prove that AFRC effectively characterizes over-smoothing and over-squashing effects in message-passing GNNs. We complement our theoretical results with experiments, which demonstrate that the proposed approach achieves state-of-the-art performance while significantly reducing the computational cost in comparison with other methods. Utilizing fundamental properties of discrete curvature, we propose effective heuristics for hyperparameters in curvature-based rewiring, which avoids expensive hyperparameter searches, further improving the scalability of the proposed approach.
翻訳日:2023-09-19 15:52:18 公開日:2023-09-17
# 時間的不均質性における連合学習

Federated Learning in Temporal Heterogeneity ( http://arxiv.org/abs/2309.09381v1 )

ライセンス: Link先を確認
Junghwan Lee(参考訳) 本研究では,クライアント間の時間的不均質性における連合学習について検討した。 固定長列で訓練した大域的モデルでは, 可変長列よりも高速に収束することが観察された。 本研究では,経験的観察に基づく効率的なフェデレーション学習のための時間的不均一性を軽減する手法を提案する。

In this work, we explored federated learning in temporal heterogeneity across clients. We observed that global model obtained by \texttt{FedAvg} trained with fixed-length sequences shows faster convergence than varying-length sequences. We proposed methods to mitigate temporal heterogeneity for efficient federated learning based on the empirical observation.
翻訳日:2023-09-19 15:51:45 公開日:2023-09-17
# ソフトラベル符号化を用いた言語モデルのショートカット緩和

Mitigating Shortcuts in Language Models with Soft Label Encoding ( http://arxiv.org/abs/2309.09380v1 )

ライセンス: Link先を確認
Zirui He, Huiqi Deng, Haiyan Zhao, Ninghao Liu, Mengnan Du(参考訳) 近年の研究では、大きな言語モデルは自然言語理解(NLU)タスクのデータに急激な相関に依存することが示されている。 本研究では,トレーニングデータの基底的真理ラベルを変更することで,スプリアス相関を低減できるのか? 具体的には,ソフトラベル符号化(SoftLE)という,シンプルで効果的なデバイアス処理フレームワークを提案する。 まず教師モデルをハードラベルでトレーニングし,各サンプルがショートカットに依存する程度を判断する。 次に1つのダミークラスを追加して近道次数をエンコードし、基底真理ラベル内の他の次元を滑らかにしてソフトラベルを生成する。 新しいground truthラベルは、より堅牢な学生モデルのトレーニングに使用される。 2つのNLUベンチマークタスクに対する大規模な実験により、SoftLEは分布内精度を維持しながら分布外一般化を著しく改善することが示された。

Recent research has shown that large language models rely on spurious correlations in the data for natural language understanding (NLU) tasks. In this work, we aim to answer the following research question: Can we reduce spurious correlations by modifying the ground truth labels of the training data? Specifically, we propose a simple yet effective debiasing framework, named Soft Label Encoding (SoftLE). We first train a teacher model with hard labels to determine each sample's degree of relying on shortcuts. We then add one dummy class to encode the shortcut degree, which is used to smooth other dimensions in the ground truth label to generate soft labels. This new ground truth label is used to train a more robust student model. Extensive experiments on two NLU benchmark tasks demonstrate that SoftLE significantly improves out-of-distribution generalization while maintaining satisfactory in-distribution accuracy.
翻訳日:2023-09-19 15:51:39 公開日:2023-09-17
# 多視点ステレオにおける濃密画像マッチングの不確実性定量化のための内部信頼性の臨界解析

a critical analysis of internal reliability for uncertainty quantification of dense image matching in multi-view stereo ( http://arxiv.org/abs/2309.09379v1 )

ライセンス: Link先を確認
Debao Huang, Rongjun Qin(参考訳) 今日では、フォトグラムから派生した点雲は、低コストと買収の柔軟性のため、多くの民間アプリケーションで広く使われている。 通常、測光点雲はライダー点雲のような参照データによって評価される。 しかし、参照データが入手できない場合、測光点雲の評価は困難である。 これらの点雲はアルゴリズム的に導出されるため、カメラネットワーク、シーン複雑性、高密度画像マッチング(dim)アルゴリズムによって精度や精度が著しく変化し、点当たり誤差を決定する標準誤差メートル法は存在しない。 カメラネットワークの内部信頼性の理論は、既知の測定誤差を仮定した3D点の誤差を理解するために用いられるバンドル調整(BA)の1次誤差推定によってよく研究されている。 しかし、DIMアルゴリズムの測定誤差は、各点が画素強度、テクスチャエントロピー、表面の滑らかさなどの要因によって決定される誤差関数を持つ程度に複雑である。 この複雑さにもかかわらず、導出点の後方信頼度を推定する過程、特に冗長性が存在する場合のマルチビューステレオ(MVS)設定において、いくつかの一般的な指標が存在する。 本稿では,LiDAR参照データを用いた空中斜めフォトグラムブロックを用いて,放射光収束,交叉角,DIMエネルギーなどの統計情報を含む,共通MVSフレームワーク内のいくつかの内部マッチングメトリクスを解析する。

Nowadays, photogrammetrically derived point clouds are widely used in many civilian applications due to their low cost and flexibility in acquisition. Typically, photogrammetric point clouds are assessed through reference data such as LiDAR point clouds. However, when reference data are not available, the assessment of photogrammetric point clouds may be challenging. Since these point clouds are algorithmically derived, their accuracies and precisions are highly varying with the camera networks, scene complexity, and dense image matching (DIM) algorithms, and there is no standard error metric to determine per-point errors. The theory of internal reliability of camera networks has been well studied through first-order error estimation of Bundle Adjustment (BA), which is used to understand the errors of 3D points assuming known measurement errors. However, the measurement errors of the DIM algorithms are intricate to an extent that every single point may have its error function determined by factors such as pixel intensity, texture entropy, and surface smoothness. Despite the complexity, there exist a few common metrics that may aid the process of estimating the posterior reliability of the derived points, especially in a multi-view stereo (MVS) setup when redundancies are present. In this paper, by using an aerial oblique photogrammetric block with LiDAR reference data, we analyze several internal matching metrics within a common MVS framework, including statistics in ray convergence, intersection angles, DIM energy, etc.
翻訳日:2023-09-19 15:51:25 公開日:2023-09-17
# 完全畳み込み生成型機械学習による非平衡グリーン関数シミュレーションの高速化

Fully Convolutional Generative Machine Learning Method for Accelerating Non-Equilibrium Greens Function Simulations ( http://arxiv.org/abs/2309.09374v1 )

ライセンス: Link先を確認
Preslav Aleksandrov, Ali Rezaei, Nikolas Xeni, Tapas Dutta, Asen Asenov, Vihar Georgiev(参考訳) 本稿では,機械学習とデバイスモデリングシミュレーションを組み合わせた新しいシミュレーション手法について述べる。 デバイスシミュレーションは、量子力学的非平衡グリーンズ関数(NEGF)アプローチに基づいており、機械学習手法は畳み込み生成ネットワークの拡張である。 我々は、新しいシミュレーション手法ML-NEGFを命名し、NESS(nano-electronics Simulations software)と呼ばれる社内シミュレータに実装した。 その結果,ML-NEGF法では標準NEGF法と比較して収束速度が向上した。 訓練されたMLモデルは、ナノシートトランジスタの挙動の基礎となる物理を効果的に学習し、結合されたPoisson-NEGFシミュレーションを高速に収束させる。 定量的に,我々のML-NEGF手法は平均収束加速度60%を実現し,同じ精度を維持しながら計算時間を著しく短縮する。

This work describes a novel simulation approach that combines machine learning and device modelling simulations. The device simulations are based on the quantum mechanical non-equilibrium Greens function (NEGF) approach and the machine learning method is an extension to a convolutional generative network. We have named our new simulation approach ML-NEGF and we have implemented it in our in-house simulator called NESS (nano-electronics simulations software). The reported results demonstrate the improved convergence speed of the ML-NEGF method in comparison to the standard NEGF approach. The trained ML model effectively learns the underlying physics of nano-sheet transistor behaviour, resulting in faster convergence of the coupled Poisson-NEGF simulations. Quantitatively, our ML- NEGF approach achieves an average convergence acceleration of 60%, substantially reducing the computational time while maintaining the same accuracy.
翻訳日:2023-09-19 15:51:01 公開日:2023-09-17
# マルチパスTCPにおける混雑制御とスケジューリングに関する調査:機械学習と古典的アプローチ

A Survey on Congestion Control and Scheduling for Multipath TCP: Machine Learning vs Classical Approaches ( http://arxiv.org/abs/2309.09372v1 )

ライセンス: Link先を確認
Maisha Maliha, Golnaz Habibi and Mohammed Atiquzzaman(参考訳) マルチパスTCP(MPTCP)は多くのアプリケーションにおいて効率的な通信方法として広く利用されている。 データセンター、スマートフォン、ネットワークオペレータは、MPTCPを使用してネットワーク内のトラフィックのバランスをとる。 MPTCPはTCP(Transmission Control Protocol)の拡張であり、複数のパスを提供し、高いスループットと低レイテンシをもたらす。 MPTCPは多くのアプリケーションでTCPよりも優れた性能を示しているが、独自の課題がある。 サブフローレートが正しく決定されていない場合、複数のパス(サブフロー)の大量のトラフィックのためにネットワークが混雑する可能性がある。 さらに、パケットがサブフロー間で正しくスケジュールされていない場合、通信遅延が発生する。 本稿では,データ駆動型(古典的)とデータ駆動型(機械学習)の2つのアプローチに基づいて,上記の問題を解決する手法についてレビューする。 本稿では,これら2つのアプローチを比較し,その長所と短所を強調し,コミュニケーションのための機械学習のエキサイティングな領域における将来の研究者の動機付けを目的とした。 本稿では,MPTCPとその実環境における実装のシミュレーションについて詳述する。

Multipath TCP (MPTCP) has been widely used as an efficient way for communication in many applications. Data centers, smartphones, and network operators use MPTCP to balance the traffic in a network efficiently. MPTCP is an extension of TCP (Transmission Control Protocol), which provides multiple paths, leading to higher throughput and low latency. Although MPTCP has shown better performance than TCP in many applications, it has its own challenges. The network can become congested due to heavy traffic in the multiple paths (subflows) if the subflow rates are not determined correctly. Moreover, communication latency can occur if the packets are not scheduled correctly between the subflows. This paper reviews techniques to solve the above-mentioned problems based on two main approaches; non data-driven (classical) and data-driven (Machine Learning) approaches. This paper compares these two approaches and highlights their strengths and weaknesses with a view to motivating future researchers in this exciting area of machine learning for communications. This paper also provides details on the simulation of MPTCP and its implementations in real environments.
翻訳日:2023-09-19 15:50:47 公開日:2023-09-17
# リソース効率の良い量子シミュレーションのためのハミルトン部分空間符号化

Unleashing Quantum Simulation Advantages: Hamiltonian Subspace Encoding for Resource Efficient Quantum Simulations ( http://arxiv.org/abs/2309.09370v1 )

ライセンス: Link先を確認
M. H. Cheng, Yu-Cheng Chen, Qian Wang, V. Bartsch, M. S. Kim, Alice Hu, Min-Hsiu Hsieh(参考訳) 量子ビットコストを指数関数的に削減するフェルミオンハミルトニアンに対する数保存部分空間符号化は、変分量子固有ソルバ(vqe)の量子長所において必要である。 しかし、量子ビット圧縮と測定コストの増大の間のトレードオフを最適化することは困難である。 線形コード上のGilbert-Varshamov境界を用いることで、量子ビットスケーリング $\mathcal{O}(N\log_2M)$と測定コスト $\mathcal{O}(M^4)$をM$モードで最適化する。 この圧縮は、VQE上の6-31G*とSTO-3G/6-31G*のそれぞれで$\text{H}_2$とLiHのランダム化線形符号化(RLE)アルゴリズムで実装される。 結果として生じるサブスペース回路の表現性とトレーサビリティは、回路の深さが少なく、高いノイズ耐性で向上する。

Number-conserved subspace encoding for fermionic Hamiltonians, which exponentially reduces qubit cost, is necessary for quantum advantages in variational quantum eigensolver (VQE). However, optimizing the trade-off between qubit compression and increased measurement cost poses a challenge. By employing the Gilbert-Varshamov bound on linear code, we optimize qubit scaling $\mathcal{O}(N\log_2M)$ and measurement cost $\mathcal{O}(M^4)$ for $M$ modes $N$ electrons chemistry problems. The compression is implemented with the Randomized Linear Encoding (RLE) algorithm on VQE for $\text{H}_2$ and LiH in the 6-31G* and STO-3G/6-31G* basis respectively. The resulting subspace circuit expressivity and trainability are enhanced with less circuit depth and higher noise tolerance.
翻訳日:2023-09-19 15:50:31 公開日:2023-09-17
# リッチインサイトのためのエンブレス多様性:多文書要約ベンチマークとニュース記事からの異種情報の要約に関する事例研究

Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles ( http://arxiv.org/abs/2309.09369v1 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Philippe Laban, Alexander R. Fabbri, Prafulla Kumar Choubey, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu(参考訳) 複数文書のニュース要約に関するこれまでの研究は、通常、すべての情報源が同意する情報の照合に集中している。 しかし、我々の知識では、イベントに関する複数の記事に分散した多様な情報の要約は、以前にも研究されていない。 後者は、要約モデルに対して異なる課題のセットを課している。 本稿では,同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約するタスクを提案する。 この作業を容易にするために,我々は,多様な情報を識別するためのデータ収集スキーマを概説し, differentsumm というデータセットをキュレートした。 データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。 さらに,大規模言語モデル(llm)に基づく指標を用いて要約文のカバレッジと忠実性を評価する場合の位置と冗長性バイアスと,その人間評価との相関関係を包括的に分析した。 本稿では,LLMが複数のニュース記事をどのように要約するかを,LLMが識別できる多様な情報の種類を分析して検討した。 本研究は, 単一文書要約におけるLCMの異常な能力にもかかわらず, GPT-4は平均的な多様性情報の40%以下しかカバーできないため, 提案課題は依然として複雑であることを示す。

Previous research in multi-document news summarization has typically concentrated on collating information that all sources agree upon. However, to our knowledge, the summarization of diverse information dispersed across multiple articles about an event has not been previously investigated. The latter imposes a different set of challenges for a summarization model. In this paper, we propose a new task of summarizing diverse information encountered in multiple news articles encompassing the same event. To facilitate this task, we outlined a data collection schema for identifying diverse information and curated a dataset named DiverseSumm. The dataset includes 245 news stories, with each story comprising 10 news articles and paired with a human-validated reference. Moreover, we conducted a comprehensive analysis to pinpoint the position and verbosity biases when utilizing Large Language Model (LLM)-based metrics for evaluating the coverage and faithfulness of the summaries, as well as their correlation with human assessments. We applied our findings to study how LLMs summarize multiple news articles by analyzing which type of diverse information LLMs are capable of identifying. Our analyses suggest that despite the extraordinary capabilities of LLMs in single-document summarization, the proposed task remains a complex challenge for them mainly due to their limited coverage, with GPT-4 only able to cover less than 40% of the diverse information on average.
翻訳日:2023-09-19 15:50:08 公開日:2023-09-17
# 言語モデルは医学的応用において不正確な患者の自己診断の影響を受けやすい

Language models are susceptible to incorrect patient self-diagnosis in medical applications ( http://arxiv.org/abs/2309.09362v1 )

ライセンス: Link先を確認
Rojin Ziaei and Samuel Schmidgall(参考訳) 大規模言語モデル(llm)は、臨床医、研究者、患者間のコミュニケーションを支援する医療の潜在的なツールとして、ますます重要になっている。 しかし,医学試験におけるLCMの従来の評価は,実際の患者と医師の相互作用の複雑さを反映していない。 この複雑さの例としては、患者が様々なソースから自身の疾患を診断しようとする患者自己診断の導入がある。 患者は、しばしば正確な結論に達するが、バイアス検証情報に対する過度な強調により、よりしばしば誤診断へと導かれる。 本研究は, 患者からの自己診断報告を含むように修正された米国医学会試験からの複数項目の質問を含む多種多様なLSMを提示する。 以上の結果から, 誤バイアス検証情報を提案すると, LLMの診断精度は劇的に低下し, 自己診断における誤りの可能性が示唆された。

Large language models (LLMs) are becoming increasingly relevant as a potential tool for healthcare, aiding communication between clinicians, researchers, and patients. However, traditional evaluations of LLMs on medical exam questions do not reflect the complexity of real patient-doctor interactions. An example of this complexity is the introduction of patient self-diagnosis, where a patient attempts to diagnose their own medical conditions from various sources. While the patient sometimes arrives at an accurate conclusion, they more often are led toward misdiagnosis due to the patient's over-emphasis on bias validating information. In this work we present a variety of LLMs with multiple-choice questions from United States medical board exams which are modified to include self-diagnostic reports from patients. Our findings highlight that when a patient proposes incorrect bias-validating information, the diagnostic accuracy of LLMs drop dramatically, revealing a high susceptibility to errors in self-diagnosis.
翻訳日:2023-09-19 15:49:44 公開日:2023-09-17
# ChatGPTは回答の帰属時に幻覚する

ChatGPT Hallucinates when Attributing Answers ( http://arxiv.org/abs/2309.09401v1 )

ライセンス: Link先を確認
Guido Zuccon, Bevan Koopman, Razia Shaik(参考訳) chatgptはその答えを支持する証拠を提供できるか? その証拠は実際に存在し、本当にその答えを支持しているのだろうか? 本稿では、これらの質問をドメイン固有の知識に基づく質問の集合を用いて調査し、特にChatGPTに対して、外部ソースへの参照という形で、回答と証拠の両方を提供するよう促す。 また、異なるプロンプトが答えや証拠にどのように影響するかも調べる。 約半数のケース(50.6%)でChatGPTが正しい、あるいは部分的に正しい回答を提供することがわかったが、提案されている基準は14%に過ぎなかった。 さらに、生成された参照について、ChatGPTが生成する参照の共通特性を明らかにし、モデルが提供する参照が存在するとしても、その参照がChatGPTのクレームをサポートしない場合が多いことを示す。 本研究は,(1)ChatGPTが解答において生成した参照を体系的に解析した最初の事例であり,(2)本モデルが正しい解答を生成する際に,良質な情報を活用することができるが,その解答を裏付ける真の証拠を説明できないことを示唆するものである。 プロンプト、生の結果ファイル、手動分析が公開されている。

Can ChatGPT provide evidence to support its answers? Does the evidence it suggests actually exist and does it really support its answer? We investigate these questions using a collection of domain-specific knowledge-based questions, specifically prompting ChatGPT to provide both an answer and supporting evidence in the form of references to external sources. We also investigate how different prompts impact answers and evidence. We find that ChatGPT provides correct or partially correct answers in about half of the cases (50.6% of the times), but its suggested references only exist 14% of the times. We further provide insights on the generated references that reveal common traits among the references that ChatGPT generates, and show how even if a reference provided by the model does exist, this reference often does not support the claims ChatGPT attributes to it. Our findings are important because (1) they are the first systematic analysis of the references created by ChatGPT in its answers; (2) they suggest that the model may leverage good quality information in producing correct answers, but is unable to attribute real evidence to support its answers. Prompts, raw result files and manual analysis are made publicly available.
翻訳日:2023-09-19 15:42:33 公開日:2023-09-17
# culturax: 167言語における大規模言語モデルのためのクリーンで巨大な多言語データセット

CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages ( http://arxiv.org/abs/2309.09400v1 )

ライセンス: Link先を確認
Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi and Thien Huu Nguyen(参考訳) 印象的な学習能力を持つ大規模言語モデル(llm)の開発を支える要因は、そのコロッサルモデルのサイズと広範なトレーニングデータセットである。 自然言語処理の進歩とともに、llmはより深い調査と応用を促進するために、しばしば一般に公開されている。 しかしながら、これらのLLM、特に最近の最先端モデルのデータセットのトレーニングに関しては、完全には公開されていないことが多い。 高性能LLMのためのトレーニングデータを作成するには、必要な品質レベルを確保するために、広範囲なクリーニングと重複が伴う。 トレーニングデータの透明性の欠如は、llmにおける幻覚とバイアスの問題の帰属と対処に関する研究の妨げとなり、レプリケーションの努力とコミュニティのさらなる進歩を妨げている。 これらの課題は、利用可能な多言語テキストデータセットが不十分に収集され、クリーン化される、多言語学習シナリオにおいてさらに顕著になる。 その結果、複数の言語でLLMを効果的にトレーニングするために、オープンソースで容易に利用できるデータセットが不足している。 この問題を解決するために,167言語で6.3兆のトークンを持つ多言語データセットであるCulturaXを提案する。 我々のデータセットは、言語識別、URLベースのフィルタリング、メトリックベースのクリーニング、文書の洗練、データ重複といったモデルトレーニングの最高の品質を達成するために、複数のステージからなる厳密なパイプラインを通して、綿密なクリーニングとデデューズを行う。 culturaxは、多言語llmの研究と進歩を促進するために、hughingfaceで完全に一般公開されている。

The driving factors behind the development of large language models (LLMs) with impressive learning capabilities are their colossal model sizes and extensive training datasets. Along with the progress in natural language processing, LLMs have been frequently made accessible to the public to foster deeper investigation and applications. However, when it comes to training datasets for these LLMs, especially the recent state-of-the-art models, they are often not fully disclosed. Creating training data for high-performing LLMs involves extensive cleaning and deduplication to ensure the necessary level of quality. The lack of transparency for training data has thus hampered research on attributing and addressing hallucination and bias issues in LLMs, hindering replication efforts and further advancements in the community. These challenges become even more pronounced in multilingual learning scenarios, where the available multilingual text datasets are often inadequately collected and cleaned. Consequently, there is a lack of open-source and readily usable dataset to effectively train LLMs in multiple languages. To overcome this issue, we present CulturaX, a substantial multilingual dataset with 6.3 trillion tokens in 167 languages, tailored for LLM development. Our dataset undergoes meticulous cleaning and deduplication through a rigorous pipeline of multiple stages to accomplish the best quality for model training, including language identification, URL-based filtering, metric-based cleaning, document refinement, and data deduplication. CulturaX is fully released to the public in HuggingFace to facilitate research and advancements in multilingual LLMs: https://huggingface.co/datasets/uonlp/CulturaX.
翻訳日:2023-09-19 15:42:11 公開日:2023-09-17
# 大きなgptモデルは言語表現において道徳的次元を発見するか? 文の埋め込みに関するトポロジ的研究

Do Large GPT Models Discover Moral Dimensions in Language Representations? A Topological Study Of Sentence Embeddings ( http://arxiv.org/abs/2309.09397v1 )

ライセンス: Link先を確認
Stephen Fitz(参考訳) 大規模言語モデルが人工知能システムに展開され、人間の社会とますます統合されるにつれて、内部構造を研究することがこれまで以上に重要になる。 GPT-3.5のようなLCMの高レベルの能力は、数兆の単語の事前学習中に生のテキストデータから誘導される情報的言語表現により、多くが出現する。 これらの埋め込みは数千次元のベクトル空間に存在し、その処理は数兆の順序でパラメータの総数を持つ複数のベクトル空間間の写像を含む。 さらに、これらの言語表現は勾配最適化によって誘導され、解釈が難しいブラックボックスシステムとなる。 本稿では,Chat-GPTの基礎言語モデル「脳」における神経活動のトポロジ的構造を考察し,公平性の概念を表す指標として分析する。 我々はGPTの道徳的次元を可視化するための新しいアプローチを開発する。 まず、社会心理学の文献に触発された公平度指標を計算し、人間の公正度評価(正当性、ニーズ、責任など)に影響を与える要因を特定する。 その後、多様体の形状を、この計量から位相が導かれる低次元単純複体を用いて要約する。 このフェアネスメトリックと関連づけたヒートマップで色付けし,高次元文多様体の可読可視化を行う。 その結果, GPT-3.5に基づく文の埋め込みは, 公平かつ不公平な道徳判断に対応する2つのサブ多様体に分解できることがわかった。 このことは,GPTに基づく言語モデルが表現空間内で道徳的次元を発達させ,学習過程における公平さの理解を促すことを示唆している。

As Large Language Models are deployed within Artificial Intelligence systems, that are increasingly integrated with human society, it becomes more important than ever to study their internal structures. Higher level abilities of LLMs such as GPT-3.5 emerge in large part due to informative language representations they induce from raw text data during pre-training on trillions of words. These embeddings exist in vector spaces of several thousand dimensions, and their processing involves mapping between multiple vector spaces, with total number of parameters on the order of trillions. Furthermore, these language representations are induced by gradient optimization, resulting in a black box system that is hard to interpret. In this paper, we take a look at the topological structure of neuronal activity in the "brain" of Chat-GPT's foundation language model, and analyze it with respect to a metric representing the notion of fairness. We develop a novel approach to visualize GPT's moral dimensions. We first compute a fairness metric, inspired by social psychology literature, to identify factors that typically influence fairness assessments in humans, such as legitimacy, need, and responsibility. Subsequently, we summarize the manifold's shape using a lower-dimensional simplicial complex, whose topology is derived from this metric. We color it with a heat map associated with this fairness metric, producing human-readable visualizations of the high-dimensional sentence manifold. Our results show that sentence embeddings based on GPT-3.5 can be decomposed into two submanifolds corresponding to fair and unfair moral judgments. This indicates that GPT-based language models develop a moral dimension within their representation spaces and induce an understanding of fairness during their training process.
翻訳日:2023-09-19 15:41:38 公開日:2023-09-17
# 縦型単スライス腹部ctハーモニゼーションのための深部条件生成モデル

Deep conditional generative models for longitudinal single-slice abdominal computed tomography harmonization ( http://arxiv.org/abs/2309.09392v1 )

ライセンス: Link先を確認
Xin Yu, Qi Yang, Yucheng Tang, Riqiang Gao, Shunxing Bao, Leon Y. Cai, Ho Hin Lee, Yuankai Huo, Ann Zenobia Moore, Luigi Ferrucci, Bennett A. Landman(参考訳) 2次元腹部CTは高分解能の詳細な組織マップを提供し、健康状態と加齢の関係を定量的に評価する。 しかし, これらのスキャンによる体組成変化の経時的解析は, 異なる年数で獲得したスライスの位置変化により困難であり, 異なる臓器や組織を捕捉した。 そこで本研究では,腹部領域の任意の軸スライスを条件とし,潜在空間の構造変化を推定し,予め定義された椎骨レベルスライスを生成するc-スライスゲンを提案する。 2015年のマルチアトラス・アブドメン・ラベルリング・チャレンジ・データセット(BTCV)から得られた2つの社内データセットと50の被験者からの2608のCTデータに対する実験により、我々のモデルは現実的で類似した高品質な画像を生成することができることを示した。 さらに,長大な腹部スライスを含むボルチモア縦断的老化研究(BLSA)データセットから,1033名の被験者の縦断的位置変化を調和させる手法の有効性を検証し,内臓脂肪面積でスライス位置変化を調和させることができることを確認した。 このアプローチは、異なる脊椎レベルからターゲットスライスにスライスをマッピングし、単一スライス縦断解析のための位置分散を低減するための有望な方向を提供する。 ソースコードはhttps://github.com/masilab/c-slicegen。

Two-dimensional single-slice abdominal computed tomography (CT) provides a detailed tissue map with high resolution allowing quantitative characterization of relationships between health conditions and aging. However, longitudinal analysis of body composition changes using these scans is difficult due to positional variation between slices acquired in different years, which leading to different organs/tissues captured. To address this issue, we propose C-SliceGen, which takes an arbitrary axial slice in the abdominal region as a condition and generates a pre-defined vertebral level slice by estimating structural changes in the latent space. Our experiments on 2608 volumetric CT data from two in-house datasets and 50 subjects from the 2015 Multi-Atlas Abdomen Labeling Challenge dataset (BTCV) Challenge demonstrate that our model can generate high-quality images that are realistic and similar. We further evaluate our method's capability to harmonize longitudinal positional variation on 1033 subjects from the Baltimore Longitudinal Study of Aging (BLSA) dataset, which contains longitudinal single abdominal slices, and confirmed that our method can harmonize the slice positional variance in terms of visceral fat area. This approach provides a promising direction for mapping slices from different vertebral levels to a target slice and reducing positional variance for single-slice longitudinal analysis. The source code is available at: https://github.com/MASILab/C-SliceGen.
翻訳日:2023-09-19 15:41:08 公開日:2023-09-17
# Prompted Chain-of-Contactsによる人間とシーンの統一インタラクション

Unified Human-Scene Interaction via Prompted Chain-of-Contacts ( http://arxiv.org/abs/2309.07918v2 )

ライセンス: Link先を確認
Zeqi Xiao, Tai Wang, Jingbo Wang, Jinkun Cao, Wenwei Zhang, Bo Dai, Dahua Lin, Jiangmiao Pang(参考訳) HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。 動作品質と物理的妥当性の進歩にもかかわらず、2つの重要な要因、多目的インタラクション制御とユーザフレンドリなインターフェースの開発は、HSIの実用化前にさらなる探索を必要とする。 本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一HSIフレームワークUniHSIを提案する。 この枠組みは、接触の連鎖(CoC: Chain of Contacts)としての相互作用の定義に基づいて構築されている。 この定義に基づいて、unihsiは、言語プロンプトをcocの形式でタスクプランに翻訳する大規模言語モデル(llm)プランナーと、cocを統一されたタスク実行に変換する統一コントローラを構成する。 トレーニングと評価を容易にするために,多様なシナリオに基づいてLLMが生成する数千のタスク計画を含むScenePlanというデータセットを新たに収集した。 汎用的なタスク実行と実際のスキャンシーンに対する一般化性におけるフレームワークの有効性を総合的に検証した。 プロジェクトページはhttps://github.com/OpenRobotLab/UniHSI にある。

Human-Scene Interaction (HSI) is a vital component of fields like embodied AI and virtual reality. Despite advancements in motion quality and physical plausibility, two pivotal factors, versatile interaction control and the development of a user-friendly interface, require further exploration before the practical application of HSI. This paper presents a unified HSI framework, UniHSI, which supports unified control of diverse interactions through language commands. This framework is built upon the definition of interaction as Chain of Contacts (CoC): steps of human joint-object part pairs, which is inspired by the strong correlation between interaction types and human-object contact regions. Based on the definition, UniHSI constitutes a Large Language Model (LLM) Planner to translate language prompts into task plans in the form of CoC, and a Unified Controller that turns CoC into uniform task execution. To facilitate training and evaluation, we collect a new dataset named ScenePlan that encompasses thousands of task plans generated by LLMs based on diverse scenarios. Comprehensive experiments demonstrate the effectiveness of our framework in versatile task execution and generalizability to real scanned scenes. The project page is at https://github.com/OpenRobotLab/UniHSI .
翻訳日:2023-09-19 10:08:51 公開日:2023-09-17
# TFNet: 高速かつ正確なLiDARセマンティックセグメンテーションのための時間キューの爆発

TFNet: Exploiting Temporal Cues for Fast and Accurate LiDAR Semantic Segmentation ( http://arxiv.org/abs/2309.07849v2 )

ライセンス: Link先を確認
Rong Li, ShiJie Li, Xieyuanli Chen, Teli Ma, Wang Hao, Juergen Gall, Junwei Liang(参考訳) LiDARセマンティックセグメンテーションは、自律走行とロボットが周囲を正確かつ堅牢に理解できるようにする上で重要な役割を果たす。 ポイントベース、レンジイメージベース、極ベース、ハイブリッドメソッドなど、さまざまなタイプの方法がある。 これらのうち、範囲画像に基づく手法は、その効率性から広く用いられている。 しかし、範囲画像の水平および垂直角分解能の制限によって生じる「many-to-one」問題として知られる重大な課題に直面している。 その結果、3dポイントの約20\%をオクルードすることができる。 本稿では,この問題を解決するために,時間情報を利用した範囲画像に基づくlidarセマンティクスセグメンテーション手法であるtfnetを提案する。 具体的には,過去のスキャンから有用な情報を抽出し,現在のスキャンと統合するために,時間的融合層を組み込む。 次に,誤りの予測,特に `many-to-one'' 問題に起因した予測を正すために,max-votingに基づく後処理手法を設計する。 提案手法を2つのベンチマークで評価し,ポストプロセッシング手法が汎用的であり,様々なネットワークに適用可能であることを示す。 コードとモデルをリリースします。

LiDAR semantic segmentation plays a crucial role in enabling autonomous driving and robots to understand their surroundings accurately and robustly. There are different types of methods, such as point-based, range-image-based, polar-based, and hybrid methods. Among these, range-image-based methods are widely used due to their efficiency. However, they face a significant challenge known as the ``many-to-one'' problem caused by the range image's limited horizontal and vertical angular resolution. As a result, around 20\% of the 3D points can be occluded. In this paper, we present TFNet, a range-image-based LiDAR semantic segmentation method that utilizes temporal information to address this issue. Specifically, we incorporate a temporal fusion layer to extract useful information from previous scans and integrate it with the current scan. We then design a max-voting-based post-processing technique to correct false predictions, particularly those caused by the ``many-to-one'' issue. We evaluated the approach on two benchmarks and demonstrate that the post-processing technique is generic and can be applied to various networks. We will release our code and models.
翻訳日:2023-09-19 10:08:31 公開日:2023-09-17