このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231230となっている論文です。

PDF登録状況(公開日: 20231230)

TitleAuthorsAbstract論文公表日・翻訳日
# 期待されるIoT行動のデータ交換のためのオープンで分散化されたマーケットプレースの実現

Realizing Open and Decentralized Marketplace for Exchanging Data of Expected IoT Behaviors ( http://arxiv.org/abs/2401.00141v1 )

ライセンス: Link先を確認
Song Guo, Minzhao Lyu, Hassan Habibi Gharakheili, (参考訳) IoTデバイスのセキュリティに対する懸念が高まっているため、ネットワークオペレーターは潜在的なリスクを扱うためのより良い方法が必要である。 幸いなことに、IoTデバイスは通信方法に一貫したパターンを示している。 しかし、これまでの努力にも拘わらず、これらのパターンのどのような知識が利用できるのかは、まだ不明である。 データマーケットプレースがさまざまなドメインで普及するにつれて、このペーパー1では、IoTサイバーセキュリティに重点を置く特別なマーケットプレースの構築を提案している。 目標は、Manufacturer Usage Description (MUD)ファイルのような構造化データフォーマットを使用して、IoTデバイスの動作に関する知識をオープンに共有することだ。 ブロックチェーンやスマートコントラクトといった技術を使って、IoTデバイスがネットワーク上でどのように振る舞うべきかに関する重要な情報を共有し、アクセスするための、実用的でセキュアな基盤を構築しています。 私たちの貢献は2倍です。 1)IoTデバイスの期待行動に関連するデータ共有に有効なマーケットプレースの本質的特徴を明らかにする。 我々は,Ethereumブロックチェーン上に5つの具体的な機能を備えたスマートコントラクトを開発し,(2)プライベートチェーン環境のコードでマーケットプレースのプロトタイプを公開している。 消費者IoTデバイスからのMUDファイルを含む実験を通じて、マーケットプレースがいかに効果的に機能するかを実証する。 私たちのマーケットプレースでは、サプライヤーやコンシューマがEthereumブロックチェーン上でMUDデータを100ドル以下で共有し、アクセシビリティと参加を促進することができます。

With rising concerns about the security of IoT devices, network operators need better ways to handle potential risks. Luckily, IoT devices show consistent patterns in how they communicate. But despite previous efforts, it remains unclear how knowledge of these patterns can be made available. As data marketplaces become popular in different domains, this paper1 proposes creating a special marketplace focused on IoT cybersecurity. The goal is to openly share knowledge about IoT devices' behavior, using structured data formats like Manufacturer Usage Description (MUD) files. To make this work, we employ technologies like blockchain and smart contracts to build a practical and secure foundation for sharing and accessing important information about how IoT devices should behave on the network. Our contributions are two-fold. (1) We identify the essential features of an effective marketplace for sharing data related to the expected behaviors of IoT devices. We develop a smart contract on the Ethereum blockchain with five concrete functions; and, (2) We implement a prototype of our marketplace in a private chain environment-our codes are publicly released. We demonstrate how effectively our marketplace functions through experiments involving MUD files from consumer IoT devices. Our marketplace enables suppliers and consumers to share MUD data on the Ethereum blockchain for under a hundred dollars, promoting accessibility and participation.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-30
# 非対称ビザンチン量子を用いたブロックチェーンオラクルの信頼問題への取り組み

Addressing Trust Challenges in Blockchain Oracles Using Asymmetric Byzantine Quorums ( http://arxiv.org/abs/2401.00175v1 )

ライセンス: Link先を確認
Fahad Rahman, Chafiq Titouna, Farid Nait-Abdesselam, (参考訳) ブロックチェーン技術における分散コンピューティング(BCT)は、独立したノード間の信頼前提に基づいている。 サードパーティのインターフェースやBlockchain Oracleと呼ばれるものなしでは、外部の世界と対話することはできない。 このOracleは、外部データをブロックチェーンに供給することで、Smart Contractsをリアルタイムで正確に動作させることで、重要な役割を担います。 オラクルの問題は、これらのオラクルが引き起こしたデータの真正性を検証するのに固有の困難から生じる。 ブロックチェーンの信頼性、信頼性、スケーラビリティに直接影響を与えるため、Oracleの真性は最重要である。 これらの課題に対処するために、ビザンチンの耐障害性に根ざした戦略を導入する。 さらに,ヒューリスティック検出に基づくサステナビリティと可聴性のための自律システムを提案する。 提案された戦略の有効性と精度は、ブロックチェーンOracleの信頼性基準を満たすことを目的とした、2つの実世界のデータセットを使用した既存の手法よりも優れていた。

Distributed Computing in Blockchain Technology (BCT) hinges on a trust assumption among independent nodes. Without a third-party interface or what is known as a Blockchain Oracle, it can not interact with the external world. This Oracle plays a crucial role by feeding extrinsic data into the Blockchain, ensuring that Smart Contracts operate accurately in real time. The Oracle problem arises from the inherent difficulty in verifying the truthfulness of the data sourced by these Oracles. The genuineness of a Blockchain Oracle is paramount, as it directly influences the Blockchain's reliability, credibility, and scalability. To tackle these challenges, a strategy rooted in Byzantine fault tolerance {\phi} is introduced. Furthermore, an autonomous system for sustainability and audibility, built on heuristic detection, is put forth. The effectiveness and precision of the proposed strategy outperformed existing methods using two real-world datasets, aimed to meet the authenticity standards for Blockchain Oracles.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-30
# 自律的な脅威追跡 - AI駆動型脅威知能のパラダイム

Autonomous Threat Hunting: A Future Paradigm for AI-Driven Threat Intelligence ( http://arxiv.org/abs/2401.00286v1 )

ライセンス: Link先を確認
Siva Raja Sindiramutty, (参考訳) サイバーセキュリティの進化は、AIによる脅威知能の領域における重要なパラダイムとして、自律的な脅威狩りが出現するきっかけとなった。 このレビューは、自律的な脅威狩りの複雑な風景をナビゲートし、その重要性とサイバー防御機構の強化における重要な役割を探求する。 本稿では,人工知能(AI)と従来の脅威知能手法の融合に着目し,現代のサイバー脅威と戦うための自律的アプローチの必要性と進化について述べる。 基本的AI駆動の脅威インテリジェンスに関する包括的な調査を通じて、このレビューは、従来の脅威インテリジェンスプラクティスに対するAIと機械学習の変革的な影響を強調している。 それは、自律的な脅威狩りの基盤となる概念的枠組みを解明し、そのコンポーネントをスポットライトし、脅威狩りプロセス内でAIアルゴリズムをシームレスに統合する。 と。 AI駆動モデルにおけるスケーラビリティ、解釈可能性、倫理的考慮を含む課題に関する洞察豊かな議論は、この議論を豊かにする。 さらに、ケーススタディと評価を照らし、実世界の実践を紹介し、AIによる脅威知能を取り入れた組織が学んだ成功談と教訓について説明する。 結論として、このレビューは重要な洞察を集約し、サイバーセキュリティの未来に対する自律的な脅威狩りの実質的な影響を強調した。 それは、進化する脅威に対してサイバー防衛を強化するためのAI駆動アプローチの可能性を活用するために、継続的な研究と協力的な努力の重要性を浮き彫りにしている。

The evolution of cybersecurity has spurred the emergence of autonomous threat hunting as a pivotal paradigm in the realm of AI-driven threat intelligence. This review navigates through the intricate landscape of autonomous threat hunting, exploring its significance and pivotal role in fortifying cyber defense mechanisms. Delving into the amalgamation of artificial intelligence (AI) and traditional threat intelligence methodologies, this paper delineates the necessity and evolution of autonomous approaches in combating contemporary cyber threats. Through a comprehensive exploration of foundational AI-driven threat intelligence, the review accentuates the transformative influence of AI and machine learning on conventional threat intelligence practices. It elucidates the conceptual framework underpinning autonomous threat hunting, spotlighting its components, and the seamless integration of AI algorithms within threat hunting processes.. Insightful discussions on challenges encompassing scalability, interpretability, and ethical considerations in AI-driven models enrich the discourse. Moreover, through illuminating case studies and evaluations, this paper showcases real-world implementations, underscoring success stories and lessons learned by organizations adopting AI-driven threat intelligence. In conclusion, this review consolidates key insights, emphasizing the substantial implications of autonomous threat hunting for the future of cybersecurity. It underscores the significance of continual research and collaborative efforts in harnessing the potential of AI-driven approaches to fortify cyber defenses against evolving threats.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-30
# RASP for LSASS: Mimikatz関連攻撃の防止

RASP for LSASS: Preventing Mimikatz-Related Attacks ( http://arxiv.org/abs/2401.00316v1 )

ライセンス: Link先を確認
Anna Revazova, Igor Korkin, (参考訳) Windows認証インフラはLSA(Local Security Authority)システムに依存しており、その統合コンポーネントは lsass.exe である。 このフレームワークは、悪意のある意図を持った脅威アクターを惹きつける脆弱性を提示する。 CVEデータベースから得られた文書化された脆弱性を利用するか、Mimikatzのような高度なツールを活用することで、敵はユーザーのパスワードとアドレス情報を盗み取ることに成功した。 この包括的分析では、潜在的な脅威に対して、局所的な認証サブシステムを構築するための積極的な対策を探求する。 さらに, 前述したものを含む, 様々な防御手法の実践的評価から得られた実証的証拠を提示する。 本試験は, 積極的なセキュリティ対策の重要性だけでなく, 現実の文脈におけるこれらの戦略の実践的有効性を評価するものである。

The Windows authentication infrastructure relies on the Local Security Authority (LSA) system, with its integral component being lsass.exe. Regrettably, this framework is not impervious, presenting vulnerabilities that attract threat actors with malicious intent. By exploiting documented vulnerabilities sourced from the CVE database or leveraging sophisticated tools such as mimikatz, adversaries can successfully compromise user password-address information. In this comprehensive analysis, we delve into proactive measures aimed at fortifying the local authentication subsystem against potential threats. Moreover, we present empirical evidence derived from practical assessments of various defensive methodologies, including those articulated previously. This examination not only underscores the importance of proactive security measures but also assesses the practical efficacy of these strategies in real-world contexts.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-30
# スマートマニュファクチャリングシステムにおけるサイバーセキュリティの脅威要因と対策

Taxonomy for Cybersecurity Threat Attributes and Countermeasures in Smart Manufacturing Systems ( http://arxiv.org/abs/2401.01374v1 )

ライセンス: Link先を確認
Md Habibor Rahman, Rocco Cassandro, Thorsten Wuest, Mohammed Shafae, (参考訳) 攻撃分類学は、サイバーセキュリティの脅威属性を体系的に理解し、特定し、分類するための一貫性のある、構造化された分類スキームを提供する。 しかし、既存の分類体系は、限られた範囲の攻撃と限定的な脅威特性にのみ焦点を当てており、サイバーセキュリティ脅威の製造に関する包括的な特徴を欠いている。 脅威アクターとその意図、サイバー攻撃による特定のシステムとマシンの行動偏差、攻撃のシステムレベルおよび運用上の意味、攻撃に対する潜在的な対策にはほとんど焦点が当てられていない。 この急激な研究ギャップを埋めるため,製造システムにおけるサイバーセキュリティ脅威の包括的理解と評価を目的とした包括的攻撃分類を提案する。 具体的には、脅威アクターの分類と、脅威イベントによるシステム行動の意図と潜在的な変化を紹介する。 提案した分類法は攻撃方法/ベクターと目標/位置を分類し、運用およびシステムレベルの攻撃効果を取り入れている。 また,対策のための分類構造を提示し,潜在的な対策の例を示し,提案した分類分類にどのように適合するかを説明する。 最後に、提案した分類法の実装は、一般的なスマート製造システムに対する2つの現実的な攻撃シナリオと、現実のサイバー物理攻撃事件と学術ケーススタディを用いて説明される。 先進的な製造業攻撃分類は、攻撃開始からシステム内の損傷やシステム行動の変化に至るまで、製造システムにおける攻撃連鎖の全体像を提供する。 さらに,観測システム偏差による攻撃の実現を利用して,適切な保護・刑事対策の設計・開発を指導する。

An attack taxonomy offers a consistent and structured classification scheme to systematically understand, identify, and classify cybersecurity threat attributes. However, existing taxonomies only focus on a narrow range of attacks and limited threat attributes, lacking a comprehensive characterization of manufacturing cybersecurity threats. There is little to no focus on characterizing threat actors and their intent, specific system and machine behavioral deviations introduced by cyberattacks, system-level and operational implications of attacks, and potential countermeasures against those attacks. To close this pressing research gap, this work proposes a comprehensive attack taxonomy for a holistic understanding and characterization of cybersecurity threats in manufacturing systems. Specifically, it introduces taxonomical classifications for threat actors and their intent and potential alterations in system behavior due to threat events. The proposed taxonomy categorizes attack methods/vectors and targets/locations and incorporates operational and system-level attack impacts. This paper also presents a classification structure for countermeasures, provides examples of potential countermeasures, and explains how they fit into the proposed taxonomical classification. Finally, the implementation of the proposed taxonomy is illustrated using two realistic scenarios of attacks on typical smart manufacturing systems, as well as several real-world cyber-physical attack incidents and academic case studies. The developed manufacturing attack taxonomy offers a holistic view of the attack chain in manufacturing systems, starting from the attack launch to the possible damages and system behavior changes within the system. Furthermore, it guides the design and development of appropriate protective and detective countermeasures by leveraging the attack realization through observed system deviations.
翻訳日:2024-03-18 10:39:12 公開日:2023-12-30
# ALPCが危険にさらされている: ALPCheckerが盗聴と点滅を検知

ALPC Is In Danger: ALPChecker Detects Spoofing and Blinding ( http://arxiv.org/abs/2401.01376v1 )

ライセンス: Link先を確認
Anastasiia Kropova, Igor Korkin, (参考訳) 本研究の目的は,プログラムやオペレーティングシステムからの接続を隠蔽することなく,カーネルを介してWindowsオペレーティングシステム上でALPC接続を攻撃できる可能性を評価し,この種の攻撃に対する防御方法を提案することである。 非同期ローカルプロシージャコール技術(ALPC)は、アンチウイルスシステム(AV)やエンドポイント検出・応答システム(EDR)など、様々なWindows情報保護システムで使用されている。 悪意のあるソフトウェアを隠蔽するためには、攻撃者はAV、EDRツールの操作を妨害する必要がある。 このような攻撃の例は、すでに存在し、この記事で取り上げている。 このような新たな脅威に対処するためには、情報セキュリティシステムの改善を進めることが必要であり、ALPCセキュリティ研究が行われた。 もっとも難しいケースであるWindowsカーネルドライバ攻撃が検討された。 ALPC接続に対する3つの攻撃は、カーネルメモリ内のALPC構造を変更し、システム内の不正な接続と正しい接続の破壊を引き起こした。 ALPChecker保護ツールが開発された。 このツールは、3つの実証された攻撃で正常にテストされた。

The purpose of this study is to evaluate the possibility of implementing an attack on ALPC connection in the Windows operating system through the kernel without closing the connection covertly from programs and the operating system and to propose a method of protection against this type of attacks. Asynchronous Local Procedure Call technology (ALPC) is used in various Windows information protection systems, including antivirus systems (AV) and Endpoint Detection and Response systems (EDR). To ensure the concealment of malicious software, attackers need to disrupt the operation of AV, EDR tools, which in turn can be achieved by destructive impact on the components of the ALPC technology. Examples of such attacks already exist and are covered in this paper. To counteract such new threats, it is necessary to advance the improvement of information security systems and the ALPC security research was conducted. The most difficult case, Windows kernel driver attack, was considered. Three attacks on the ALPC connection were carried out, based on changing the ALPC structures in the kernel memory, which led to creation of illegitimate connections in the system and the disruption of correct connections. ALPChecker protection tool has been developed. The tool was successfully tested on three demonstrated attacks.
翻訳日:2024-03-18 10:39:12 公開日:2023-12-30
# deployment advisor: ナイジェリアの児童ワクチン接種における人工知能の利用が与える影響と教訓

Deploying ADVISER: Impact and Lessons from Using Artificial Intelligence for Child Vaccination Uptake in Nigeria ( http://arxiv.org/abs/2402.00017v1 )

ライセンス: Link先を確認
Opadele Kehinde, Ruth Abdul, Bose Afolabi, Parminder Vir, Corinne Namblard, Ayan Mukhopadhyay, Abiodun Adereni(参考訳) 5歳未満の子供500万人以上は、毎年予防または治療可能な医療状況で死亡しており、ワクチン接種率の低い未開発国では圧倒的に多く死亡している。 国連の持続可能な開発目標(sdg3)の1つは、5歳未満の新生児や子供の予防可能な死亡を終わらせることである。 私たちはナイジェリアに集中し、幼児死亡率がひどい。 特にナイジェリアでの低ワクチン接種は、5歳未満の子供の2000人以上が毎日死亡する主要な要因となっている。 本稿では、ナイジェリアの政府パートナーと共同でADVISER: AI-Driven Vaccination Intervention Optimiserの展開について述べる。 このフレームワークは、予防接種成功の累積確率を最大化する整数線型プログラムに基づいており、ナイジェリアにおける健康介入の割り当てを最適化するためのAI対応ツールチェーンの展開を成功させた最初の例である。 本稿では, ナイジェリア・オヨ州におけるADVISERフレームワークの背景と, ADVISERを13,000以上の家族に展開する成果, 教訓, 成功事例について述べる。

More than 5 million children under five years die from largely preventable or treatable medical conditions every year, with an overwhelmingly large proportion of deaths occurring in underdeveloped countries with low vaccination uptake. One of the United Nations' sustainable development goals (SDG 3) aims to end preventable deaths of newborns and children under five years of age. We focus on Nigeria, where the rate of infant mortality is appalling. In particular, low vaccination uptake in Nigeria is a major driver of more than 2,000 daily deaths of children under the age of five years. In this paper, we describe our collaboration with government partners in Nigeria to deploy ADVISER: AI-Driven Vaccination Intervention Optimiser. The framework, based on an integer linear program that seeks to maximize the cumulative probability of successful vaccination, is the first successful deployment of an AI-enabled toolchain for optimizing the allocation of health interventions in Nigeria. In this paper, we provide a background of the ADVISER framework and present results, lessons, and success stories of deploying ADVISER to more than 13,000 families in the state of Oyo, Nigeria.
翻訳日:2024-02-04 05:21:01 公開日:2023-12-30
# ハイブリッドコンピューティング領域におけるSHA-256量子回路設計による暗号マイニングプロセスの低消費電力化

The lower energy consumption in cryptocurrency mining processes by SHA-256 Quantum circuit design used in hybrid computing domains ( http://arxiv.org/abs/2401.10902v1 )

ライセンス: Link先を確認
Ahmet Orun and Fatih Kurugollu(参考訳) 暗号通貨の採掘プロセスは、常にかなり高い生産コストで高エネルギー消費につながり、これは暗号通貨(例えばビットコイン)の3分の1近くである。 マイニングプロセスのコアはSHA-256暗号ハッシュ関数に基づいており、代替量子コンピュータ、ハイブリッド量子コンピュータ、あるいは量子アニールのようなより大きな量子コンピューティングデバイスを使用することで、量子ハードウェアの低エネルギー動作特性によるマイニングエネルギー消費を減らすことができる。 この研究の中で、我々は近く古典的なSHA-256と高エネルギー消費の古典的ハードウェアを置き換える最適化された量子マイニング施設の使用を実証した。

Cryptocurrency mining processes always lead to a high energy consumption at considerably high production cost, which is nearly one-third of cryptocurrency (e.g. Bitcoin) price itself. As the core of mining process is based on SHA-256 cryptographic hashing function, by using the alternative quantum computers, hybrid quantum computers or more larger quantum computing devices like quantum annealers, it would be possible to reduce the mining energy consumption with a quantum hardware's low-energy-operation characteristics. Within this work we demonstrated the use of optimized quantum mining facilities which would replace the classical SHA-256 and high energy consuming classical hardware in near future.
翻訳日:2024-01-28 16:23:57 公開日:2023-12-30
# ハイブリッド最適化による知的教育システムのための記号認知診断

Symbolic Cognitive Diagnosis via Hybrid Optimization for Intelligent Education Systems ( http://arxiv.org/abs/2401.10840v1 )

ライセンス: Link先を確認
Junhao Shen and Hong Qian and Wei Zhang and Aimin Zhou(参考訳) 認知診断評価は学生の学習において基本的かつ重要な課題である。 学生と演習の相互作用をモデル化し、各知識属性における生徒の習熟度を検出する。 実世界の知的教育システムでは、認知診断法の一般化と解釈が等しく重要である。 しかし,多くの既存手法では,学生との複雑なインタラクションにより,両世界において最善を尽くすことは困難である。 そこで本稿では,一般化と解釈性を同時に高めるためのシンボリック認知診断-(scd)フレームワークを提案する。 SCDフレームワークは、シンボリックツリーを組み込み、複雑な学生-運動相互作用関数を明示的に表現し、勾配に基づく最適化手法を用いて学生と運動パラメータを効果的に学習する。 一方、関連する課題は、離散記号表現と連続パラメータ最適化をトンネルする必要があることである。 この課題に対処するために,表現とパラメータを交互に最適化する手法を提案する。 SCDを実現するために、デリバティブフリーな遺伝的プログラミングによってシンボルツリーを交互に学習し、勾配ベースのAdamを通して学生と運動パラメータを学習する。 様々な実世界のデータセットに対する広範な実験結果は、一般化と解釈可能性の両方においてSCDの優位性を示している。 アブレーション研究は,SCDにおける各成分の有効性を検証するとともに,SCDの解釈能力がどのように機能するかを明確に示す。

Cognitive diagnosis assessment is a fundamental and crucial task for student learning. It models the student-exercise interaction, and discovers the students' proficiency levels on each knowledge attribute. In real-world intelligent education systems, generalization and interpretability of cognitive diagnosis methods are of equal importance. However, most existing methods can hardly make the best of both worlds due to the complicated student-exercise interaction. To this end, this paper proposes a symbolic cognitive diagnosis~(SCD) framework to simultaneously enhance generalization and interpretability. The SCD framework incorporates the symbolic tree to explicably represent the complicated student-exercise interaction function, and utilizes gradient-based optimization methods to effectively learn the student and exercise parameters. Meanwhile, the accompanying challenge is that we need to tunnel the discrete symbolic representation and continuous parameter optimization. To address this challenge, we propose to hybridly optimize the representation and parameters in an alternating manner. To fulfill SCD, it alternately learns the symbolic tree by derivative-free genetic programming and learns the student and exercise parameters via gradient-based Adam. The extensive experimental results on various real-world datasets show the superiority of SCD on both generalization and interpretability. The ablation study verifies the efficacy of each ingredient in SCD, and the case study explicitly showcases how the interpretable ability of SCD works.
翻訳日:2024-01-28 16:06:52 公開日:2023-12-30
# 私の役割は? AIに基づく安全クリティカルシステムのモデリング責任

What's my role? Modelling responsibility for AI-based safety-critical systems ( http://arxiv.org/abs/2401.09459v1 )

ライセンス: Link先を確認
Philippa Ryan, Zoe Porter, Joanna Al-Qaddoumi, John McDermid, Ibrahim Habli(参考訳) AIベースの安全批判システム(AI-SCS)は、現実世界にますます普及しつつある。 これらは人や環境に害をもたらす可能性がある。 リスクを減らすことは、開発と運用における全体的な優先事項です。 AI-SCSが自律化するにつれて、人間の介入によるリスク管理層が取り除かれた。 事故の後、因果的貢献と背後にあるさまざまな責任あるアクタを特定して、失敗から学び、同様の将来の出来事を防止することが重要です。 多くの著者が、開発者や製造業者がAI-SCSの有害な振る舞いに責任を持つことが難しい「責任ギャップ」についてコメントしている。 これは、AIの複雑な開発サイクル、AIパフォーマンスの不確実性、動的運用環境が原因である。 人間のオペレータは、作成に責任を負わなかったAI-SCS出力の結果に責任を負う"信頼性シンク"になり、理解できない可能性がある。 この学際的な論文は、異なる責任感(ロール、モラル、法的、因果関係)と、AI-SCS安全性の文脈におけるそれらの適用方法について考察する。 役割責任モデルの作成にはコアコンセプト(アクタ(a)は発生(o)の責任を負う)を使用し、責任関係を捉え、以前に特定した責任問題を明確にするための実践的な方法を生み出します。 本稿では,自律走行車を含むテンペ・アリゾナの致命的衝突の振り返り分析と,AIに基づく糖尿病のコモルビディティ予測のための安全に焦点をあてた役割・責任分析の2つの例を紹介する。 どちらの例も,運用担当者や開発者に対する不公平あるいは不釣り合いな非難を減らすことを目的とした,安全性を重視しています。 今後の研究に向けた議論と道程について述べる。

AI-Based Safety-Critical Systems (AI-SCS) are being increasingly deployed in the real world. These can pose a risk of harm to people and the environment. Reducing that risk is an overarching priority during development and operation. As more AI-SCS become autonomous, a layer of risk management via human intervention has been removed. Following an accident it will be important to identify causal contributions and the different responsible actors behind those to learn from mistakes and prevent similar future events. Many authors have commented on the "responsibility gap" where it is difficult for developers and manufacturers to be held responsible for harmful behaviour of an AI-SCS. This is due to the complex development cycle for AI, uncertainty in AI performance, and dynamic operating environment. A human operator can become a "liability sink" absorbing blame for the consequences of AI-SCS outputs they weren't responsible for creating, and may not have understanding of. This cross-disciplinary paper considers different senses of responsibility (role, moral, legal and causal), and how they apply in the context of AI-SCS safety. We use a core concept (Actor(A) is responsible for Occurrence(O)) to create role responsibility models, producing a practical method to capture responsibility relationships and provide clarity on the previously identified responsibility issues. Our paper demonstrates the approach with two examples: a retrospective analysis of the Tempe Arizona fatal collision involving an autonomous vehicle, and a safety focused predictive role-responsibility analysis for an AI-based diabetes co-morbidity predictor. In both examples our primary focus is on safety, aiming to reduce unfair or disproportionate blame being placed on operators or developers. We present a discussion and avenues for future research.
翻訳日:2024-01-22 09:13:52 公開日:2023-12-30
# Unicron: 大規模自己修復型LLMトレーニングの実施

Unicron: Economizing Self-Healing LLM Training at Scale ( http://arxiv.org/abs/2401.00134v1 )

ライセンス: Link先を確認
Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou(参考訳) 大規模言語モデルの訓練は、様々な領域でますます重要になっているが、頻繁な失敗によって妨げられ、かなりの時間と経済的コストをもたらす。 クラウドベースの現在の障害復旧方法は、クラスタ全体のコストへの影響を考慮せずに、個々のタスクのダウンタイムの消去に焦点を絞った、多種多様な複雑なシナリオに不適切に対処する。 大規模な言語モデルトレーニングにおいて,効率的な自己修復を目的としたワークロードマネージャUnicronを紹介する。 unicronは、クラスタ内の複数の並行タスクにまたがる障害関連コストを最小限にすることで、トレーニングプロセスを最適化する。 その主な特徴は、過度なオーバーヘッドのないリアルタイムエラー識別のためのバンド内エラー検出、最適再構成のための動的コスト対応プラン生成機構、状態変更時のダウンタイムを削減する効率的な移行戦略である。 128GPUの分散クラスタ上にデプロイされたUnicronは、最先端の手法よりも1.9倍のトレーニング効率向上、障害復旧コストの大幅な削減、大規模言語モデルのトレーニングの信頼性向上を実証する。

Training large-scale language models is increasingly critical in various domains, but it is hindered by frequent failures, leading to significant time and economic costs. Current failure recovery methods in cloud-based settings inadequately address the diverse and complex scenarios that arise, focusing narrowly on erasing downtime for individual tasks without considering the overall cost impact on a cluster. We introduce Unicron, a workload manager designed for efficient self-healing in large-scale language model training. Unicron optimizes the training process by minimizing failure-related costs across multiple concurrent tasks within a cluster. Its key features include in-band error detection for real-time error identification without extra overhead, a dynamic cost-aware plan generation mechanism for optimal reconfiguration, and an efficient transition strategy to reduce downtime during state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates up to a 1.9x improvement in training efficiency over state-of-the-art methods, significantly reducing failure recovery costs and enhancing the reliability of large-scale language model training.
翻訳日:2024-01-15 12:28:25 公開日:2023-12-30
# GPTにおけるトレースと編集関係

Trace and Edit Relation Associations in GPT ( http://arxiv.org/abs/2401.02976v1 )

ライセンス: Link先を確認
Jiahang Li, Taoyu Chen, Yuanli Wang(参考訳) 本研究では,GPTモデルにおけるエンティティ関係を解析・修正するための新しいアプローチを提案する。 言語モデル計算が関係判断に与える影響を理解するための関係追跡手法を開発した。 FewRelデータセットを用いて,MLPモジュールの主要な役割と,関連情報処理におけるアテンション機構を同定する。 提案手法は, ROMEに対して新しいデータセットを用いて実験を行い, モデル理解と精度を高めるために, 初期層モジュールを操作する可能性を示す。

This study introduces a novel approach for analyzing and modifying entity relationships in GPT models, diverging from ROME's entity-focused methods. We develop a relation tracing technique to understand the influence of language model computations on relationship judgments. Using the FewRel dataset, we identify key roles of MLP modules and attention mechanisms in processing relationship information. Our method, tested against ROME on a new dataset, shows improved balance in specificity and generalization, underscoring the potential of manipulating early-layer modules for enhanced model understanding and accuracy.
翻訳日:2024-01-15 09:32:28 公開日:2023-12-30
# 医療製品における規制問題複雑さの解明:オープンコーディングと自然言語処理を活用した質的評価

Uncovering Regulatory Affairs Complexity in Medical Products: A Qualitative Assessment Utilizing Open Coding and Natural Language Processing (NLP) ( http://arxiv.org/abs/2401.02975v1 )

ライセンス: Link先を確認
Yu Han, Aaron Ceross, Jeroen H.M. Bergmann(参考訳) 本研究では,医療機器産業における規制業務の複雑さを考察し,市場アクセスと患者医療に影響を及ぼす重要な要因について考察した。 質的研究を通じて,この複雑性に寄与する要因を理解するための専門家の洞察を求めた。 研究は、医療機器会社の専門家28人と半構造化インタビューを行い、規制の諸側面を専門とした。 これらのインタビューは、オープンコーディングと自然言語処理(NLP)技術を用いて分析された。 A) 規制言語複雑性, (B) 規制プロセス内の複雑さ, (C) グローバルレベルの複雑さ, (D) データベース関連の考慮, (E) 製品レベルの問題。 参加者は、規制コンプライアンスの合理化、規制機関と業界関係者との交流の強化、迅速な技術進歩のための適応可能なフレームワークの開発の必要性を強調した。 学際的な協力と透明性の向上を強調し、これらの要素は医療機器分野における一貫性と効果的な規制の確立に不可欠であると結論づけた。

This study investigates the complexity of regulatory affairs in the medical device industry, a critical factor influencing market access and patient care. Through qualitative research, we sought expert insights to understand the factors contributing to this complexity. The study involved semi-structured interviews with 28 professionals from medical device companies, specializing in various aspects of regulatory affairs. These interviews were analyzed using open coding and Natural Language Processing (NLP) techniques. The findings reveal key sources of complexity within the regulatory landscape, divided into five domains: (A) Regulatory language complexity, (B) Intricacies within the regulatory process, (C) Global-level complexities, (D) Database-related considerations, and (E) Product-level issues. The participants highlighted the need for strategies to streamline regulatory compliance, enhance interactions between regulatory bodies and industry players, and develop adaptable frameworks for rapid technological advancements. Emphasizing interdisciplinary collaboration and increased transparency, the study concludes that these elements are vital for establishing coherent and effective regulatory procedures in the medical device sector.
翻訳日:2024-01-15 09:32:09 公開日:2023-12-30
# なぜユーザインターフェースはダークパターンなのか? 説明可能な自動検出とその解析

Why is the User Interface a Dark Pattern? : Explainable Auto-Detection and its Analysis ( http://arxiv.org/abs/2401.04119v1 )

ライセンス: Link先を確認
Yuki Yada, Tsuneo Matsumoto, Fuyuko Kido, Hayato Yamana(参考訳) ダークパターンは、ユーザーが意図せず振る舞うオンラインサービスのための偽りのユーザーインターフェイスデザインである。 プライバシー侵害、財務損失、感情的な苦痛などの暗いパターンは、ユーザを傷つける可能性がある。 これらの問題は近年、かなりの議論の対象となっている。 本稿では,解釈可能なダークパターンの自動検出,すなわち,特定のユーザインターフェースがダークパターンを持つと検出される理由について検討する。 まず,電子商取引における暗黒パターンの自動検出のためのテキストベースデータセットを用いて,トランスフォーマーに基づく事前学習言語モデルBERTを用いてモデルを訓練した。 次に,局所的解釈可能なモデルに依存しない説明法 (LIME) やShapley加法的説明法 (SHAP) を訓練されたモデルに適用し,各予測にどの用語が影響するかをダークパターンとして明らかにした。 さらに,暗黒パターンに影響を及ぼす用語を抽出,分析した。 我々の発見は、ユーザーがダークパターンで操作されることを防ぎ、より公平なインターネットサービスの構築を支援する可能性がある。 私たちのコードはhttps://github.com/yamanalab/why-darkpatternで利用可能です。

Dark patterns are deceptive user interface designs for online services that make users behave in unintended ways. Dark patterns, such as privacy invasion, financial loss, and emotional distress, can harm users. These issues have been the subject of considerable debate in recent years. In this paper, we study interpretable dark pattern auto-detection, that is, why a particular user interface is detected as having dark patterns. First, we trained a model using transformer-based pre-trained language models, BERT, on a text-based dataset for the automatic detection of dark patterns in e-commerce. Then, we applied post-hoc explanation techniques, including local interpretable model agnostic explanation (LIME) and Shapley additive explanations (SHAP), to the trained model, which revealed which terms influence each prediction as a dark pattern. In addition, we extracted and analyzed terms that affected the dark patterns. Our findings may prevent users from being manipulated by dark patterns, and aid in the construction of more equitable internet services. Our code is available at https://github.com/yamanalab/why-darkpattern.
翻訳日:2024-01-15 09:21:55 公開日:2023-12-30
# 教育用ビデオを用いたエンゲージメントモデリングツールボックス

A Toolbox for Modelling Engagement with Educational Videos ( http://arxiv.org/abs/2401.05424v1 )

ライセンス: Link先を確認
Yuxiang Qiu, Karim Djemili, Denis Elezi, Aaneel Shalman, Mar\'ia P\'erez-Ortiz, Emine Yilmaz, John Shawe-Taylor and Sahan Bulathwela(参考訳) 人工知能(AI)の進歩と有用性により、世界人口への教育のパーソナライズは、将来新たな教育システムの基盤となる可能性がある。 本研究ではPEEKCデータセットとTrueLearn Pythonライブラリを紹介し,学習者のエンゲージメントモデルの研究を促進するために不可欠なデータセットとオンライン学習者の状態モデルを含む。 このスケーラブルなオンラインモデルのファミリは、エンドユーザーが学習者モデルを視覚化するのに役立ちます。 広範なドキュメンテーションとコーディングの例によって、機械学習開発者と教育データマイニングと学習分析の実践者の両方にとって、ライブラリは高いアクセス性を持つ。 実験により,予測性能が比較ベースラインモデルよりも有意に高いデータセットとライブラリの有用性が示された。 このデータセットには、AI関連の教育ビデオが多数含まれており、AI固有の教育レコメンデーションの構築と検証に関心がある。

With the advancement and utility of Artificial Intelligence (AI), personalising education to a global population could be a cornerstone of new educational systems in the future. This work presents the PEEKC dataset and the TrueLearn Python library, which contains a dataset and a series of online learner state models that are essential to facilitate research on learner engagement modelling.TrueLearn family of models was designed following the "open learner" concept, using humanly-intuitive user representations. This family of scalable, online models also help end-users visualise the learner models, which may in the future facilitate user interaction with their models/recommenders. The extensive documentation and coding examples make the library highly accessible to both machine learning developers and educational data mining and learning analytics practitioners. The experiments show the utility of both the dataset and the library with predictive performance significantly exceeding comparative baseline models. The dataset contains a large amount of AI-related educational videos, which are of interest for building and validating AI-specific educational recommenders.
翻訳日:2024-01-15 08:22:10 公開日:2023-12-30
# ミリ波分散多入力多重出力(d-mimo)システムにおける機械学習(ml)支援ビーム管理

Machine Learning (ML)-assisted Beam Management in millimeter (mm)Wave Distributed Multiple Input Multiple Output (D-MIMO) systems ( http://arxiv.org/abs/2401.05422v1 )

ライセンス: Link先を確認
Karthik R M, Dhiraj Nagaraja Hegde, Muris Sarajlic, Abhishek Sarkar(参考訳) ビーム管理(BM)プロトコルは、ネットワーク無線ノードとユーザ機器(UE)間の接続を確立するために重要である。 分散多重入力多重出力システム(D-MIMO)では、中央処理ユニット(CPU)によって調整された多数のアクセスポイント(AP)が多数のUEを提供している。 mm波の周波数では、ダウンリンク(dl)基準信号で音を鳴らす必要がある多数のビームのために、uesに最適なapとビームを見つけるという問題は困難である。 本研究の目的は,最良AP/ビームが少数のビームのみの発声から確実に推定できるかどうかを検証し,ベストビーム/APの推測にAI/MLを活用することである。 我々は,ランダムフォレスト (rf), ミスフォレスト (mf) および条件付き生成敵ネットワーク (c-gan) を用いて, 推論性能の利点を示す。

Beam management (BM) protocols are critical for establishing and maintaining connectivity between network radio nodes and User Equipments (UEs). In Distributed Multiple Input Multiple Output systems (D-MIMO), a number of access points (APs), coordinated by a central processing unit (CPU), serves a number of UEs. At mmWave frequencies, the problem of finding the best AP and beam to serve the UEs is challenging due to a large number of beams that need to be sounded with Downlink (DL) reference signals. The objective of this paper is to investigate whether the best AP/beam can be reliably inferred from sounding only a small subset of beams and leveraging AI/ML for inference of best beam/AP. We use Random Forest (RF), MissForest (MF) and conditional Generative Adversarial Networks (c-GAN) for demonstrating the performance benefits of inference.
翻訳日:2024-01-15 08:21:51 公開日:2023-12-30
# 野生動物のための長距離水平軌道生成

WildGEN: Long-horizon Trajectory Generation for Wildlife ( http://arxiv.org/abs/2401.05421v1 )

ライセンス: Link先を確認
Ali Al-Lawati, Elsayed Eshra, Prasenjit Mitra(参考訳) 軌道生成は歩行者、車両、野生動物運動の研究において重要な関心事である。 生成されたトラジェクタは、ディープラーニングアプリケーションに関連してトレーニングコーパスを強化するのに役立ち、シミュレーションタスクの促進に使用できる。 これは特に野生生物の領域において重要であり、追加の実際のデータを取得するコストは、違法に高価であり、時間がかかり、倫理的配慮が受けられる。 本稿では,この課題に対処する概念的フレームワークであるWildGENを紹介した。これは,野生ガチョウが長時間の地平線上で示す運動特性の取得に,変分オートエンコーダ(VAE)を用いた手法を用いている。 生成した軌跡のその後の後処理ステップを平滑化フィルタに基づいて行い、過度な浪費を低減する。 本評価は,視覚検査と生成軌道と実軌道との間のハウスドルフ距離の計算により行った。 さらに, ピアソン相関係数を用いて, 生成された軌道と実軌道との類似性に基づいて, 軌道の現実性を測定する。

Trajectory generation is an important concern in pedestrian, vehicle, and wildlife movement studies. Generated trajectories help enrich the training corpus in relation to deep learning applications, and may be used to facilitate simulation tasks. This is especially significant in the wildlife domain, where the cost of obtaining additional real data can be prohibitively expensive, time-consuming, and bear ethical considerations. In this paper, we introduce WildGEN: a conceptual framework that addresses this challenge by employing a Variational Auto-encoders (VAEs) based method for the acquisition of movement characteristics exhibited by wild geese over a long horizon using a sparse set of truth samples. A subsequent post-processing step of the generated trajectories is performed based on smoothing filters to reduce excessive wandering. Our evaluation is conducted through visual inspection and the computation of the Hausdorff distance between the generated and real trajectories. In addition, we utilize the Pearson Correlation Coefficient as a way to measure how realistic the trajectories are based on the similarity of clusters evaluated on the generated and real trajectories.
翻訳日:2024-01-15 08:21:33 公開日:2023-12-30
# HoloBeam: 遠方界ホログラフィー変圧器における最適ビームフォーミング学習

HoloBeam: Learning Optimal Beamforming in Far-Field Holographic Metasurface Transceivers ( http://arxiv.org/abs/2401.05420v1 )

ライセンス: Link先を確認
Debamita Ghosh and Manjesh Kumar Hanawal and Nikola Zlatanova(参考訳) ホログラフィックメタサーフェストランスシーバー(hmts)はミリ波およびテラヘルツ波通信におけるビームフォーミングのための大型アンテナアレーの費用対効果の代用として登場している。 しかし、HMTのビームフォーミングによって所望のチャネルゲインを達成するためには、多数の要素の位相シフトを適切に設定する必要がある。 また、これらの最適位相シフトは受信機の位置に依存するが、未知である可能性がある。 本研究では,遠隔地領域受信機における受信信号強度を最大化するために,"it fixed-budget multi-armed bandit framework} を用いた学習アルゴリズムを開発した。 我々のアルゴリズムは、ビームのチャネルゲインのパラメトリック形式を利用しており、2つの位相シフトパラメータで表現できる。 パラメータ化後も、位相シフトパラメータが連続的な値を取るため、問題は依然として難しい。 これを解決するため、 {\it\HB} は位相シフトパラメータの離散値と作用し、チャネルゲインとの非モード関係を利用して最適な値の学習を高速化する。 我々は、学習に使用するパイロットの数の観点から、(離散的な)最適位相シフトパラメータを誤って同定する確率を上限とする。 この確率はパイロット信号の数で指数関数的に減少する。 大規模シミュレーションにより, {\it\hb} が最先端アルゴリズムよりも優れていることを示す。

Holographic Metasurface Transceivers (HMTs) are emerging as cost-effective substitutes to large antenna arrays for beamforming in Millimeter and TeraHertz wave communication. However, to achieve desired channel gains through beamforming in HMT, phase-shifts of a large number of elements need to be appropriately set, which is challenging. Also, these optimal phase-shifts depend on the location of the receivers, which could be unknown. In this work, we develop a learning algorithm using a {\it fixed-budget multi-armed bandit framework} to beamform and maximize received signal strength at the receiver for far-field regions. Our algorithm, named \Algo exploits the parametric form of channel gains of the beams, which can be expressed in terms of two {\it phase-shifting parameters}. Even after parameterization, the problem is still challenging as phase-shifting parameters take continuous values. To overcome this, {\it\HB} works with the discrete values of phase-shifting parameters and exploits their unimodal relations with channel gains to learn the optimal values faster. We upper bound the probability of {\it\HB} incorrectly identifying the (discrete) optimal phase-shift parameters in terms of the number of pilots used in learning. We show that this probability decays exponentially with the number of pilot signals. We demonstrate that {\it\HB} outperforms state-of-the-art algorithms through extensive simulations.
翻訳日:2024-01-15 08:21:16 公開日:2023-12-30
# フォトニック結晶系オプトメカニカルマイクロキャビティにおける連続体の準有界状態

Quasibound states in the continuum in photonic-crystal-based optomechanical microcavities ( http://arxiv.org/abs/2306.17831v3 )

ライセンス: Link先を確認
Cindy P\'eralle, Sushanth Kini Manjeshwar, Anastasiia Ciers, Witlef Wieczorek, Philippe Tassin(参考訳) 連続体に準バウンド状態を有するメカニカル・フォトニック結晶系マイクロキャビティについて詳細に検討した。 このようなシステムはファブリペロ型光学キャビティの光学損失を低減することが最近予測されている。 しかし、2つの同一のフォトニック結晶スラブが互いに対向する必要があり、これは実験的な実装にかなりの困難をもたらす。 このような理想的なシステムをいかに単純化できるか検討し、連続体において準バウンド状態を示す。 分散ブラッグ反射体に対向する懸濁したフォトニック結晶スラブは、連続体に準バウンド状態を有する光機械システムを実現する。 本システムでは、物質吸収のみに起因する散逸損失によって、キャビティ損失が支配される程度に放射性キャビティ損失を除去することができる。 これらのオプティメカルキャビティ設計は10^5を超える光学的品質因子を特徴付けると予測されている。

We present a detailed study of mechanically compliant, photonic-crystal-based microcavities featuring a quasi-bound state in the continuum. Such systems have recently been predicted to reduce the optical loss in Fabry-Perot-type optomechanical cavities. However, they require two identical photonic-crystal slabs facing each other, which poses a considerable challenge for experimental implementation. We investigate how such an ideal system can be simplified and still exhibit a quasi-bound state in the continuum. We find that a suspended photonic-crystal slab facing a distributed Bragg reflector realizes an optomechanical system with a quasi-bound state in the continuum. In this system, the radiative cavity loss can be eliminated to the extent that the cavity loss is dominated by dissipative loss originating from material absorption only. These proposed optomechanical cavity designs are predicted to feature optical quality factors in excess of 10^5.
翻訳日:2024-01-04 16:55:55 公開日:2023-12-30
# 高分解能マルチスペクトルUAV画像と機械学習によるクルミ水ストレスのマッピング

Mapping Walnut water Stress with High Resolution Multispectral UAV Imagery and Machine Learning ( http://arxiv.org/abs/2401.01375v1 )

ライセンス: Link先を確認
Kaitlyn Wang, Yufang Jin(参考訳) 果樹園全体にわたるクルミの水位とストレスレベルを効果的にモニタリングすることは、カリフォルニアの重要な作物であるクルミの精密灌水管理に不可欠なステップである。 本研究では、無人航空機(UAV)の高分解能マルチスペクトルリモートセンシング画像と気象データを統合することにより、ランダムフォレスト(RF)モデルを用いて、茎水電位(SWP)をマッピングする機械学習手法を提案する。 2017年から2018年にかけて、7バンドのマルチスペクトルカメラを搭載したUAVの5回の飛行が商業用クルミ果樹園で行われ、サンプルのクルミ植物を同時に測定した。 直交UAV画像と気象データから得られた植生指標を利用したRF回帰モデルにより,地上計測SWPを効果的に推定し,R^2$0.63,平均絶対誤差0.80バーを達成した。 気象データの統合は、様々な飛行日にまたがってデータを統合するために特に重要だった。 SWP推定の変数としては,NDVI,NDRE,PSRIなどの風速・植生指標があり,NDRE,PSRIの赤縁指標を除くRFモデルでは,わずかに精度が低下した(R^2$ = 0.54)。 さらに, rf分類モデルは, 85%の精度で水ストレスレベルを予測し, 低減した分類モデルの80%の精度を上回った。 その結果,UAVをベースとしたマルチスペクトルイメージングと機械学習を併用し,温熱データ,NDVI,赤縁指標,気象データを用いてクルミの水ストレス評価と評価を行った。 この手法は、クルミ果樹の個々の植物レベルで、データ駆動の精密灌水管理のためのスケーラブルで費用対効果の高いツールを提供する。

Effective monitoring of walnut water status and stress level across the whole orchard is an essential step towards precision irrigation management of walnuts, a significant crop in California. This study presents a machine learning approach using Random Forest (RF) models to map stem water potential (SWP) by integrating high-resolution multispectral remote sensing imagery from Unmanned Aerial Vehicle (UAV) flights with weather data. From 2017 to 2018, five flights of an UAV equipped with a seven-band multispectral camera were conducted over a commercial walnut orchard, paired with concurrent ground measurements of sampled walnut plants. The RF regression model, utilizing vegetation indices derived from orthomosaiced UAV imagery and weather data, effectively estimated ground-measured SWPs, achieving an $R^2$ of 0.63 and a mean absolute error (MAE) of 0.80 bars. The integration of weather data was particularly crucial for consolidating data across various flight dates. Significant variables for SWP estimation included wind speed and vegetation indices such as NDVI, NDRE, and PSRI.A reduced RF model excluding red-edge indices of NDRE and PSRI, demonstrated slightly reduced accuracy ($R^2$ = 0.54). Additionally, the RF classification model predicted water stress levels in walnut trees with 85% accuracy, surpassing the 80% accuracy of the reduced classification model. The results affirm the efficacy of UAV-based multispectral imaging combined with machine learning, incorporating thermal data, NDVI, red-edge indices, and weather data, in walnut water stress estimation and assessment. This methodology offers a scalable, cost-effective tool for data-driven precision irrigation management at an individual plant level in walnut orchards.
翻訳日:2024-01-04 16:13:11 公開日:2023-12-30
# 時系列解析によるクロスカメラ・ヒューマンモーショントランスファー

Cross-Camera Human Motion Transfer by Time Series Analysis ( http://arxiv.org/abs/2109.14174v4 )

ライセンス: Link先を確認
Yaping Zhao, Guanghan Li, Edmund Y. Lam(参考訳) 光センサー技術の進歩に伴い、高解像度(HR)ビデオの取得と分析に異機種カメラシステムの利用が増えている。 しかし、複数のカメラにまたがる移動が問題となる。 そこで本研究では,動きの季節性を特定し,移動可能なパターンを抽出する付加モデルを構築する時系列解析に基づくアルゴリズムを提案する。 実世界のデータに基づいて,本アルゴリズムの有効性と解釈可能性を示す。 特に、HRから派生したパターンを活用して低解像度ビデオのポーズ推定を改善し、実用性を向上させる。 コードは、https://github.com/IndigoPurple/TSAMTで入手できる。

With advances in optical sensor technology, heterogeneous camera systems are increasingly used for high-resolution (HR) video acquisition and analysis. However, motion transfer across multiple cameras poses challenges. To address this, we propose an algorithm based on time series analysis that identifies motion seasonality and constructs an additive model to extract transferable patterns. Validated on real-world data, our algorithm demonstrates effectiveness and interpretability. Notably, it improves pose estimation in low-resolution videos by leveraging patterns derived from HR counterparts, enhancing practical utility. Code is available at: https://github.com/IndigoPurple/TSAMT
翻訳日:2024-01-03 20:34:36 公開日:2023-12-30
# 双極子ボース-アインシュタイン凝縮相における超放射の観測

Observation of superradiance in a phase fluctuating dipolar Bose-Einstein condensate ( http://arxiv.org/abs/2210.01586v2 )

ライセンス: Link先を確認
Bojeong Seo, Mingchen Huang, Ziting Chen, Mithilesh K. Parit, Yifei He, Peng Chen, and Gyu-Boong Jo(参考訳) ボース・アインシュタイン凝縮体(BEC)における物質-波超放射能の研究は独特なコヒーレンス特性を用いたが、これまでは異方性接触相互作用を持つ相-コヒーレント凝縮体を利用して超ラジカル過程の制御性は限られていた。 ここでは、可変s波散乱と双極子相互作用を、超放射能の非対称性としきい値が独立に制御される$^{168}$Er原子のBECで組み合わせる。 フェッシュバッハ共鳴近傍のs波散乱長を変化させ、位相変動の増加とともに超放射閾値をチューニングする。 凝縮体からの集合光散乱は接触相互作用のみと対照的に、外部磁場の向きを変化させることで、双極性BECにおける非対称超放射能ピークを観測する。 これは双極子-双極子相互作用によって引き起こされる異方性励起スペクトルの結果である。 我々の観測は、物質波の放射制御につながる物質波光学の先例のない応用をもたらすことが期待されている。

Despite the extensive study of matter-wave superradiance in a Bose-Einstein condensate (BEC) using its unique coherence property, the controllability of superradiant process has remained limited in the previous studies exploiting a phase-coherent condensate with isotropic contact interactions. Here, we combine tunable s-wave scattering with dipolar interactions in a BEC of $^{168}$Er atoms wherein the asymmetry and threshold of superradiance are independently controlled. By changing the s-wave scattering length near the Feshbach resonance, we tune the superradiance threshold with increasing phase fluctuations. In contrast to collective light scattering from a condensate only with contact interactions, we observe an asymmetric superradiant peak in a dipolar BEC by changing the direction of external magnetic field. This results from the anisotropic excitation spectrum induced by the dipole-dipole interaction. Our observation is expected to bring forth unprecedented application of matter-wave optics leading to controlled emission of matter wave.
翻訳日:2024-01-03 20:25:53 公開日:2023-12-30
# Facebookにおけるニュース記事のインタラクションパターンの差異の理解--Varying BiasとReliabilityによる公開対プライベートシェアリング

Understanding Differences in News Article Interaction Patterns on Facebook: Public vs. Private Sharing with Varying Bias and Reliability ( http://arxiv.org/abs/2305.11943v2 )

ライセンス: Link先を確認
Alireza Mohammadinodooshan, Niklas Carlsson(参考訳) ソーシャルメディアにおけるニュースの普及とユーザエンゲージメントの急激な増加は、偏見と信頼できない情報の影響と社会的影響に関する懸念を引き起こしている。 これらの懸念に応えて、ユーザーが異なるニュースとどのように相互作用するかを理解するために、かなりの研究が続けられている。 しかし、この研究は主に公開投稿を分析している。 それゆえ、facebookのプライベート・スフィア内でエンゲージメントのかなりの部分が起きているため、プライベート・ポストも考慮することが重要である。 本稿では,facebook上で共有されている各種ニュースコンテンツの公開記事とプライベート記事のやりとりパターンとエンゲージメントの深さについて,最初の包括的比較を行う。 1つはfacebookの全投稿(プライベート+パブリック)のインタラクションデータ、もう1つは1万5000以上のニュース記事の手動ラベル付きコレクションを参照し、もう1つはcrowdtangleで追跡された公開投稿のインタラクションデータのみを含んでいる。 私たちの方法論では、事前の作業で見落とされたいくつかの重要な側面に対処する、慎重に設計されたデータ処理手順をいくつか導入していますが、(CrowdTangleチームとの反復的な議論とフィードバックを通じて)この種の研究の公平性を保証するために重要になりました。 本研究は,様々なニュースクラスと球面における相互作用パターンの相違を明らかにする。 例えば、我々の統計分析では、ユーザーはパブリックな分野よりもプライベートな分野のニュースに深く関わり、将来の研究においてFacebookのパブリックな領域とプライベートな領域の両方を考える上で重要な役割を担っている。 学術的な影響以外にも、この研究の結果はFacebookのコンテンツモデレーター、規制当局、政策立案者に恩恵を与え、より健康的なオンライン談話に寄与する可能性がある。

The rapid growth of news dissemination and user engagement on social media has raised concerns about the influence and societal impact of biased and unreliable information. As a response to these concerns, a substantial body of research has been dedicated to understanding how users interact with different news. However, this research has primarily analyzed publicly shared posts. With a significant portion of engagement taking place within Facebook's private sphere, it is therefore important to also consider the private posts. In this paper, we present the first comprehensive comparison of the interaction patterns and depth of engagement between public and private posts of different types of news content shared on Facebook. To compare these patterns, we gathered and analyzed two complementary datasets: the first includes interaction data for all Facebook posts (private + public) referencing a manually labeled collection of over 19K news articles, while the second contains only interaction data for public posts tracked by CrowdTangle. As part of our methodology, we introduce several carefully designed data processing steps that address some critical aspects missed by prior works but that (through our iterative discussions and feedback with the CrowdTangle team) emerged as important to ensure fairness for this type of study. Our findings highlight significant disparities in interaction patterns across various news classes and spheres. For example, our statistical analysis demonstrates that users engage significantly more deeply with news in the private sphere compared to the public one, underscoring the pivotal role of considering both the public and private spheres of Facebook in future research. Beyond its scholarly impact, the findings of this study can benefit Facebook content moderators, regulators, and policymakers, contributing to a healthier online discourse.
翻訳日:2024-01-03 20:16:39 公開日:2023-12-30
# 対話型ヒューマノイド:社会標準化と予測を用いたオンラインフルボディモーション反応合成

Interactive Humanoid: Online Full-Body Motion Reaction Synthesis with Social Affordance Canonicalization and Forecasting ( http://arxiv.org/abs/2312.08983v2 )

ライセンス: Link先を確認
Yunze Liu, Changxi Chen, Li Yi(参考訳) 対象物との人間-ヒューマノイド相互作用タスクを任意に重視する。 そこで本研究では,ヒトアクターの動きに基づいてヒューマノイド反応を生成するオンラインフルボディモーション反応合成法を提案する。 前回の研究は、物体のない人間の相互作用にのみ焦点をあて、手なしで身体反応を発生させる。 また,このタスクをオンライン環境とはみなさないため,現実的な状況下での情報観測が不可能である。 このタスクを支援するために,HHIとCoChairという2つのデータセットを構築し,統一的な手法を提案する。 具体的には,社会的アプライアンス表現の構築を提案する。 まず、ソーシャル・アプライアンス・キャリアを選択し、SE(3)-Equivariant Neural Networksを用いてローカル・フレームを学習し、ソーシャル・アプライアンス・キャリアを標準化する。 また, 想定される未来に基づいて, 原子炉を予測できる社会的な余裕予測手法を提案する。 実験により,HHIとCoChairの高次反応を効果的に生成できることが示された。 さらに,既存の人間間相互作用データセット,Chi3Dについても検証を行った。

We focus on the human-humanoid interaction task optionally with an object. We propose a new task named online full-body motion reaction synthesis, which generates humanoid reactions based on the human actor's motions. The previous work only focuses on human interaction without objects and generates body reactions without hand. Besides, they also do not consider the task as an online setting, which means the inability to observe information beyond the current moment in practical situations. To support this task, we construct two datasets named HHI and CoChair and propose a unified method. Specifically, we propose to construct a social affordance representation. We first select a social affordance carrier and use SE(3)-Equivariant Neural Networks to learn the local frame for the carrier, then we canonicalize the social affordance. Besides, we propose a social affordance forecasting scheme to enable the reactor to predict based on the imagined future. Experiments demonstrate that our approach can effectively generate high-quality reactions on HHI and CoChair. Furthermore, we also validate our method on existing human interaction datasets Interhuman and Chi3D.
翻訳日:2024-01-03 19:28:44 公開日:2023-12-30
# InstructAny2Pix: マルチモーダルインストラクションによるフレキシブルなビジュアル編集

InstructAny2Pix: Flexible Visual Editing via Multimodal Instruction Following ( http://arxiv.org/abs/2312.06738v2 )

ライセンス: Link先を確認
Shufan Li, Harkanwar Singh, Aditya Grover(参考訳) 視覚画像の生成と編集のためのきめ細かい制御を提供する能力は、コンピュータビジョンとその応用に大きな影響を及ぼす。 以前の研究では、テキストベースのプロンプトによる命令チューニングとマルチモーダルコンディショニングという2つの方向の制御可能性の拡張を検討している。 しかし、これらの研究は、可制御性を表現するために使われる数および/またはモダリティ入力のタイプについて1つ以上の不自然な仮定を下している。 instructany2pixは,音声,画像,テキストを含む命令を用いて入力画像を編集可能な,柔軟なマルチモーダル命令追従システムである。 instructany2pixは3つのビルディングブロックで構成されており、画像やオーディオなどの異なるモダリティを統一された潜在空間にエンコードするマルチモーダルエンコーダ、この潜在空間の表現を画像にデコードすることを学ぶ拡散モデル、複数の画像やオーディオピースを含む命令を理解し、所望の出力の条件付き埋め込みを生成するマルチモーダルllmである。 さらに,学習効率の向上と生成品質の向上を図るため,LCM出力の視覚的品質を高めるための事前モジュールを付加する。 これらの設計はシステムの性能に極めて重要である。 本システムは,一連の新しい命令誘導編集タスクを実行できることを実証する。 コードはhttps://github.com/jacklishufan/instructany2pix.gitで入手できる。

The ability to provide fine-grained control for generating and editing visual imagery has profound implications for computer vision and its applications. Previous works have explored extending controllability in two directions: instruction tuning with text-based prompts and multi-modal conditioning. However, these works make one or more unnatural assumptions on the number and/or type of modality inputs used to express controllability. We propose InstructAny2Pix, a flexible multi-modal instruction-following system that enables users to edit an input image using instructions involving audio, images, and text. InstructAny2Pix consists of three building blocks that facilitate this capability: a multi-modal encoder that encodes different modalities such as images and audio into a unified latent space, a diffusion model that learns to decode representations in this latent space into images, and a multi-modal LLM that can understand instructions involving multiple images and audio pieces and generate a conditional embedding of the desired output, which can be used by the diffusion decoder. Additionally, to facilitate training efficiency and improve generation quality, we include an additional refinement prior module that enhances the visual quality of LLM outputs. These designs are critical to the performance of our system. We demonstrate that our system can perform a series of novel instruction-guided editing tasks. The code is available at https://github.com/jacklishufan/InstructAny2Pix.git
翻訳日:2024-01-03 19:27:48 公開日:2023-12-30
# eyepreserve: アイデンティティ保存虹彩合成

EyePreserve: Identity-Preserving Iris Synthesis ( http://arxiv.org/abs/2312.12028v2 )

ライセンス: Link先を確認
Siamul Karim Khan, Patrick Tinsley, Mahsa Mitcheff, Patrick Flynn, Kevin W. Bowyer, Adam Czajka(参考訳) 瞳孔サイズの広い範囲にまたがる同一性を維持しつつ、既存および非既存の同一性のための同一の生体認証虹彩画像の合成は、複雑な虹彩筋収縮機構のために複雑であり、合成パイプラインに埋め込まれる虹彩非線型テクスチャ変形の正確なモデルを必要とする。 本稿では, iris画像の完全データ駆動, アイデンティティ保存, 瞳孔サイズ可変合成の最初の方法を提案する。 本手法は,対象虹彩画像のセグメンテーションマスクが与えられた既存被写体の虹彩画像のテクスチャを非線形に変形させるとともに,既存被写体を表す瞳孔の大きさの異なるアイライズ像を合成することができる。 iris認識実験により,提案する変形モデルは,瞳孔サイズ変更時の同一性を保持するだけでなく,瞳孔サイズに有意な差がある同一同一性虹彩試料間の類似性が向上することが示唆された。 提案手法の直接的な応用は次の2つである。 イ アイリスセンサで取得したものを模倣して、アイリス認識のための既存の生体計測データセットの合成又は強化 (b)瞳孔拡張に有意な差がある虹彩画像対を調べるための法医学的人間専門家の支援。 ソースコードとモデルの重みは、この論文で利用可能である。

Synthesis of same-identity biometric iris images, both for existing and non-existing identities while preserving the identity across a wide range of pupil sizes, is complex due to intricate iris muscle constriction mechanism, requiring a precise model of iris non-linear texture deformations to be embedded into the synthesis pipeline. This paper presents the first method of fully data-driven, identity-preserving, pupil size-varying s ynthesis of iris images. This approach is capable of synthesizing images of irises with different pupil sizes representing non-existing identities as well as non-linearly deforming the texture of iris images of existing subjects given the segmentation mask of the target iris image. Iris recognition experiments suggest that the proposed deformation model not only preserves the identity when changing the pupil size but offers better similarity between same-identity iris samples with significant differences in pupil size, compared to state-of-the-art linear and non-linear (bio-mechanical-based) iris deformation models. Two immediate applications of the proposed approach are: (a) synthesis of, or enhancement of the existing biometric datasets for iris recognition, mimicking those acquired with iris sensors, and (b) helping forensic human experts in examining iris image pairs with significant differences in pupil dilation. Source codes and weights of the models are made available with the paper.
翻訳日:2024-01-03 19:14:52 公開日:2023-12-30
# LLM-Assist: 言語に基づく推論によるクローズドループ計画の強化

LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning ( http://arxiv.org/abs/2401.00125v1 )

ライセンス: Link先を確認
S P Sharan, Francesco Pittaluga, Vijay Kumar B G, Manmohan Chandraker(参考訳) 計画は自動運転スタックの重要な要素だが、研究者はまだ、さまざまな考えられる運転シナリオを安全に処理できる堅牢な計画アルゴリズムを開発していない。 学習ベースのプランナーは、過剰フィットとロングテールパフォーマンスに苦しむ。 一方、ルールベースのプランナーはうまく一般化するが、複雑な運転操作を必要とするシナリオには対処できない可能性がある。 これらの制約に対処するため、GPT4やLlama2のような大規模言語モデル(LLM)の常識的推論能力を活用して自動運転車の計画を作成する可能性を検討する。 特に,従来のルールベースプランナーとllmベースのプランナーを併用したハイブリッドプランナーを開発した。 LLMのコモンセンス推論能力によってガイドされた我々の手法は、既存のプランナーが苦労する複雑なシナリオをナビゲートし、よく推論されたアウトプットを生成しながら、ルールベースのアプローチと協調して作業することで基礎を保ちます。 nuplanベンチマークの広範な評価を通じて、最先端のパフォーマンスを実現し、既存の純粋な学習およびルールベースのメソッドをほとんどのメトリクスで上回っています。 私たちのコードはhttps://llmassist.github.ioで利用できます。

Although planning is a crucial component of the autonomous driving stack, researchers have yet to develop robust planning algorithms that are capable of safely handling the diverse range of possible driving scenarios. Learning-based planners suffer from overfitting and poor long-tail performance. On the other hand, rule-based planners generalize well, but might fail to handle scenarios that require complex driving maneuvers. To address these limitations, we investigate the possibility of leveraging the common-sense reasoning capabilities of Large Language Models (LLMs) such as GPT4 and Llama2 to generate plans for self-driving vehicles. In particular, we develop a novel hybrid planner that leverages a conventional rule-based planner in conjunction with an LLM-based planner. Guided by commonsense reasoning abilities of LLMs, our approach navigates complex scenarios which existing planners struggle with, produces well-reasoned outputs while also remaining grounded through working alongside the rule-based approach. Through extensive evaluation on the nuPlan benchmark, we achieve state-of-the-art performance, outperforming all existing pure learning- and rule-based methods across most metrics. Our code will be available at https://llmassist.github.io.
翻訳日:2024-01-03 18:55:24 公開日:2023-12-30
# SALSA: 時系列時系列データ解析に応用した逐次近似レバレッジスコアアルゴリズム

SALSA: Sequential Approximate Leverage-Score Algorithm with Application in Analyzing Big Time Series Data ( http://arxiv.org/abs/2401.00122v1 )

ライセンス: Link先を確認
Ali Eshragh and Luke Yerbury and Asef Nazari and Fred Roosta and Michael W. Mahoney(参考訳) 大規模行列に対するランダム化数値線形代数 (RandNLA) の手法を用いて, 効率的な逐次近似レバレッジスコアアルゴリズム SALSA を開発した。 高い確率で、SALSAの近似の精度は、真のレバレッジスコアの$(1 + O({\varepsilon})$以内であることを示す。 さらに、SALSAの理論的計算複雑性と数値的精度が既存の近似を超えていることが示される。 これらの理論結果は、大規模な時系列データに適切なARMAモデルを適用するためのLSARMAと呼ばれる効率的なアルゴリズムの開発に利用される。 提案アルゴリズムは高い確率で,真の基礎となるARMAモデルのパラメータの最大推定値を求めることを保証している。 さらに、ビッグデータレシエーションにおける最先端の代替手段を大幅に改善する最悪の実行時間があります。 大規模データに対する実証的な結果は,これらの理論的結果を強く支持し,新しいアプローチの有効性を裏付けるものである。

We develop a new efficient sequential approximate leverage score algorithm, SALSA, using methods from randomized numerical linear algebra (RandNLA) for large matrices. We demonstrate that, with high probability, the accuracy of SALSA's approximations is within $(1 + O({\varepsilon}))$ of the true leverage scores. In addition, we show that the theoretical computational complexity and numerical accuracy of SALSA surpass existing approximations. These theoretical results are subsequently utilized to develop an efficient algorithm, named LSARMA, for fitting an appropriate ARMA model to large-scale time series data. Our proposed algorithm is, with high probability, guaranteed to find the maximum likelihood estimates of the parameters for the true underlying ARMA model. Furthermore, it has a worst-case running time that significantly improves those of the state-of-the-art alternatives in big data regimes. Empirical results on large-scale data strongly support these theoretical results and underscore the efficacy of our new approach.
翻訳日:2024-01-03 18:55:01 公開日:2023-12-30
# センシング船におけるスマートなレトロフィッティングと性能異常検出の実現--海事産業の経験から

Enabling Smart Retrofitting and Performance Anomaly Detection for a Sensorized Vessel: A Maritime Industry Experience ( http://arxiv.org/abs/2401.00112v1 )

ライセンス: Link先を確認
Mahshid Helali Moghadam, Mateusz Rzymowski, Lukasz Kulas(参考訳) リアルタイムデータ収集と機械学習駆動のデータ分析を可能にするセンサー付き船舶の統合は、海洋産業における重要な進歩である。 このトランスフォーメーション技術は、安全性、効率性、持続可能性を高めるだけでなく、ますます相互接続される世界において、コスト効率が高くスマートな海上輸送の新たな時代をもたらす。 本研究は,産業用センシング容器における性能異常を識別するための解釈可能な機械学習モデルによる深層学習駆動異常検出システムであるtucanaを提案する。 我々は、解釈可能なサロゲートモデル、すなわちランダムフォレストと決定木を付加した、標準および長期記憶(LSTM)オートエンコーダを活用することで、深層学習モデルが提供する結果に透明性と解釈可能性を加える。 解釈可能なモデルはまた、推論を人間が読めるルールに変換する自動ルール生成を可能にする。 さらに、このプロセスは、t分散確率的隣人埋め込み(t-SNE)を用いて結果の投影も含み、データの構造と関係をよりよく理解し、識別された異常を評価するのに役立つ。 TUCANAから取得した実データを用いて実験によりシステム評価を行い,そのプロセスで使用するLSTMモデルを用いて80%以上の精度と90%のリコールを達成した。 解釈可能なモデルは専門家の思考と整合した論理ルールも提供し、t-SNEベースの射影は解釈可能性を高める。 本システムでは,提案手法を実世界のシナリオで効果的に利用し,性能異常検出における透明性と精度を提供する。

The integration of sensorized vessels, enabling real-time data collection and machine learning-driven data analysis marks a pivotal advancement in the maritime industry. This transformative technology not only can enhance safety, efficiency, and sustainability but also usher in a new era of cost-effective and smart maritime transportation in our increasingly interconnected world. This study presents a deep learning-driven anomaly detection system augmented with interpretable machine learning models for identifying performance anomalies in an industrial sensorized vessel, called TUCANA. We Leverage a human-in-the-loop unsupervised process that involves utilizing standard and Long Short-Term Memory (LSTM) autoencoders augmented with interpretable surrogate models, i.e., random forest and decision tree, to add transparency and interpretability to the results provided by the deep learning models. The interpretable models also enable automated rule generation for translating the inference into human-readable rules. Additionally, the process also includes providing a projection of the results using t-distributed stochastic neighbor embedding (t-SNE), which helps with a better understanding of the structure and relationships within the data and assessment of the identified anomalies. We empirically evaluate the system using real data acquired from the vessel TUCANA and the results involve achieving over 80% precision and 90% recall with the LSTM model used in the process. The interpretable models also provide logical rules aligned with expert thinking, and the t-SNE-based projection enhances interpretability. Our system demonstrates that the proposed approach can be used effectively in real-world scenarios, offering transparency and precision in performance anomaly detection.
翻訳日:2024-01-03 18:54:44 公開日:2023-12-30
# 高N00N状態生成:Floquet EngineeringのN00N状態出力

High--N00N State Generation: N00N State Output of Floquet Engineering ( http://arxiv.org/abs/2401.00111v1 )

ライセンス: Link先を確認
Yusef Maleki(参考訳) 本稿では,N00N状態のエンジニアリングのために設計された量子アーキテクチャについて概説する。 これらのスキームの基礎となる基本的な概念は、初期状態 $|n\rangle \otimes |0\rangle$ から n00n 状態 $\frac{1}{\sqrt{2}} (|n\rangle \otimes|0\rangle +|0\rangle \otimes|n\rangle)$ への変換である。 この状態は、量子光のモードの重ね合わせ、光と運動の組み合わせ、または2つのスピンアンサンブルの重ね合わせとして生成される。 ここで論じるアプローチは、絡み合ったコヒーレントや絞った状態など、メソスコピックおよびマクロな絡み合い状態を生成することもできる。 このようなアーキテクチャでは,最大絡み合った状態の大規模なクラスを実現できることを示す。 これらの状態工学手法のマルチモード設定への拡張についても論じる。

Here, we review some quantum architectures designed for the engineering of the N00N state, a bipartite maximally entangled state crucial in quantum metrology applications. The fundamental concept underlying these schemes is the transformation of the initial state $|N\rangle \otimes |0\rangle$ to the N00N state $\frac{1}{\sqrt{2}} (|N\rangle \otimes|0\rangle +|0\rangle \otimes|N\rangle)$, where $|N\rangle$ and $|0\rangle$ are the Fock states with $N$ and $0$ excitations. We show that this state can be generated as a superposition of modes of quantum light, a combination of light and motion, or a superposition of two spin ensembles. The approach discussed here can generate mesoscopic and macroscopic entangled states, such as entangled coherent and squeezed states, as well. We show that a large class of maximally entangled states can be achieved in such an architecture. The extension of these state engineering methods to the multi-mode setting is also discussed.
翻訳日:2024-01-03 18:54:15 公開日:2023-12-30
# 知覚損失を伴う拡散モデル

Diffusion Model with Perceptual Loss ( http://arxiv.org/abs/2401.00110v1 )

ライセンス: Link先を確認
Shanchuan Lin, Xiao Yang(参考訳) 平均二乗誤差損失で訓練された拡散モデルは非現実的なサンプルを生成する傾向がある。 現在の最先端のモデルは、サンプル品質を改善するために分類器なしのガイダンスに依存しているが、驚くべき有効性は完全には理解されていない。 本稿では,分類者なし指導の有効性は,暗黙的な知覚誘導の一形態である点に起因していることを示す。 その結果, 拡散訓練における知覚損失を直接組み込むことにより, サンプル品質の向上が期待できる。 拡散訓練におけるスコアマッチング対象は、知覚ネットワークの教師なし訓練で使用される雑音化オートエンコーダ目標に強く似ているため、拡散モデル自体が知覚ネットワークであり、有意義な知覚損失を生成するために使用できる。 そこで本研究では,より現実的なサンプルを生成することができる拡散モデルを提案する。 条件付き生成では,条件付き入力と絡み合うことなくサンプル品質を向上できるため,サンプルの多様性を犠牲にしない。 また,非条件生成のためのサンプル品質の改善も可能であり,従来は分類器を使わない指導では不可能であった。

Diffusion models trained with mean squared error loss tend to generate unrealistic samples. Current state-of-the-art models rely on classifier-free guidance to improve sample quality, yet its surprising effectiveness is not fully understood. In this paper, We show that the effectiveness of classifier-free guidance partly originates from it being a form of implicit perceptual guidance. As a result, we can directly incorporate perceptual loss in diffusion training to improve sample quality. Since the score matching objective used in diffusion training strongly resembles the denoising autoencoder objective used in unsupervised training of perceptual networks, the diffusion model itself is a perceptual network and can be used to generate meaningful perceptual loss. We propose a novel self-perceptual objective that results in diffusion models capable of generating more realistic samples. For conditional generation, our method only improves sample quality without entanglement with the conditional input and therefore does not sacrifice sample diversity. Our method can also improve sample quality for unconditional generation, which was not possible with classifier-free guidance before.
翻訳日:2024-01-03 18:53:45 公開日:2023-12-30
# 説明可能な強化学習のための因果状態蒸留

Causal State Distillation for Explainable Reinforcement Learning ( http://arxiv.org/abs/2401.00104v1 )

ライセンス: Link先を確認
Wenhao Lu, Xufeng Zhao, Thilo Fryen, Jae Hee Lee, Mengdi Li, Sven Magg, Stefan Wermter(参考訳) 強化学習(rl)は知的エージェントを訓練するための強力な技術であるが、これらのエージェントが特定の決定を下す理由を理解することは極めて困難である。 RLモデルにおけるこの透明性の欠如は長年の問題であり、エージェントの振る舞いの背後にある理由を理解するのが難しくなった。 この問題に対処するために様々なアプローチが検討され、ある有望な道は報酬分解(RD)である。 RDは、エージェントの振る舞いをポストホックな方法で合理化しようとする他の方法に関連する懸念のいくつかを傍受するので、魅力的である。 RDは、訓練中のエージェントの目的に寄与する報酬の様々な面を明らかにすることで機能する。 しかしRDは、主にサブリワードに基づく洞察を提供し、RLエージェントの神経モデル内で起こる複雑な因果関係を掘り下げないため、制限がある。 本稿では,より情報的な説明を提供するために,サブリワードを超えてRDの拡張を提案する。 本手法は, 因果因子の3つの重要な特性である, \emph{causal sufficiency}, \emph{sparseness}, \emph{orthogonality}の3つを促進させる説明目的に対する情報理論的尺度を活用する因果学習フレームワークを中心に展開する。 これらの特性は、エージェントの状態とアクションや報酬の間の因果関係を抽出し、その意思決定プロセスをより深く理解するのに役立ちます。 我々のフレームワークは局所的な説明を生成するように設計されており、複数の報酬チャネルを持つ広範囲なRLタスクに適用できる。 一連の実験を通じて,提案手法がエージェントの行動選択に対して,より有意義で洞察に富んだ説明を提供することを示した。

Reinforcement learning (RL) is a powerful technique for training intelligent agents, but understanding why these agents make specific decisions can be quite challenging. This lack of transparency in RL models has been a long-standing problem, making it difficult for users to grasp the reasons behind an agent's behaviour. Various approaches have been explored to address this problem, with one promising avenue being reward decomposition (RD). RD is appealing as it sidesteps some of the concerns associated with other methods that attempt to rationalize an agent's behaviour in a post-hoc manner. RD works by exposing various facets of the rewards that contribute to the agent's objectives during training. However, RD alone has limitations as it primarily offers insights based on sub-rewards and does not delve into the intricate cause-and-effect relationships that occur within an RL agent's neural model. In this paper, we present an extension of RD that goes beyond sub-rewards to provide more informative explanations. Our approach is centred on a causal learning framework that leverages information-theoretic measures for explanation objectives that encourage three crucial properties of causal factors: \emph{causal sufficiency}, \emph{sparseness}, and \emph{orthogonality}. These properties help us distill the cause-and-effect relationships between the agent's states and actions or rewards, allowing for a deeper understanding of its decision-making processes. Our framework is designed to generate local explanations and can be applied to a wide range of RL tasks with multiple reward channels. Through a series of experiments, we demonstrate that our approach offers more meaningful and insightful explanations for the agent's action selections.
翻訳日:2024-01-03 18:53:25 公開日:2023-12-30
# ReasoningLM:知識グラフに対する質問応答のための事前学習言語モデルにおける構造部分グラフ推論の実現

ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained Language Models for Question Answering over Knowledge Graph ( http://arxiv.org/abs/2401.00158v1 )

ライセンス: Link先を確認
Jinhao Jiang, Kun Zhou, Wayne Xin Zhao, Yaliang Li, Ji-Rong Wen(参考訳) 知識グラフに関する質問回答(KGQA)は,大規模知識グラフ(KG)から自然言語質問に対する回答エンティティを求めることを目的としている。 KGの推論をより良く行うために、最近の研究は、質問をモデル化するために事前訓練された言語モデル~(PLM)と、KG上でマルチホップ推論を実行するためのグラフニューラルネットワーク~(GNN)ベースのモジュールを採用するのが一般的である。 この効果にもかかわらず、モデルアーキテクチャのばらつきのため、PLMとGNNは密に統合されておらず、知識共有ときめ細かい特徴相互作用を制限している。 これを解決するため、上記の2つのモジュールアプローチを単純化し、より有能なplmを開発し、kgqaのサブグラフ推論、すなわちreasoninglmを直接サポートすることを目指している。 本稿では,GNNを模倣して構造化推論を行うサブグラフ認識型自己認識機構を提案するとともに,モデルパラメータを2万のサブグラフに適応させる適応調整手法を採用する。 適応後、PLMは下流タスクでパラメータ効率の良い微調整ができる。 実験によると、reasoninglmは最新のモデルを大きく上回っており、パラメータの更新も少なく、トレーニングデータも少ない。 私たちのコードとデータは、~\url{https://github.com/RUCAIBox/ReasoningLM}で公開されています。

Question Answering over Knowledge Graph (KGQA) aims to seek answer entities for the natural language question from a large-scale Knowledge Graph~(KG). To better perform reasoning on KG, recent work typically adopts a pre-trained language model~(PLM) to model the question, and a graph neural network~(GNN) based module to perform multi-hop reasoning on the KG. Despite the effectiveness, due to the divergence in model architecture, the PLM and GNN are not closely integrated, limiting the knowledge sharing and fine-grained feature interactions. To solve it, we aim to simplify the above two-module approach, and develop a more capable PLM that can directly support subgraph reasoning for KGQA, namely ReasoningLM. In our approach, we propose a subgraph-aware self-attention mechanism to imitate the GNN for performing structured reasoning, and also adopt an adaptation tuning strategy to adapt the model parameters with 20,000 subgraphs with synthesized questions. After adaptation, the PLM can be parameter-efficient fine-tuned on downstream tasks. Experiments show that ReasoningLM surpasses state-of-the-art models by a large margin, even with fewer updated parameters and less training data. Our codes and data are publicly available at~\url{https://github.com/RUCAIBox/ReasoningLM}.
翻訳日:2024-01-03 18:44:49 公開日:2023-12-30
# 離散時間オープン量子ダイナミクスにおける転移性の理論

Theory of Metastability in Discrete-Time Open Quantum Dynamics ( http://arxiv.org/abs/2401.00157v1 )

ライセンス: Link先を確認
Yuan-De Jin and Chu-Dan Qiu and Wen-Long Ma(参考訳) 開系力学における準安定性は、漸近安定状態に崩壊する前に長期の準安定状態への初期緩和現象を記述する。 古典系および量子系の連続時間確率力学において予測されている。 ここでは、離散時間開量子力学における準安定性の一般的な理論について述べる。 我々は,ターゲットシステムと純粋に強調される結合を持つアンシラシステムによって誘導される,ターゲットシステム上の量子チャネルの一般クラスに着目し,ラムゼーシーケンスの下で行う。 平均動力学を確率軌道に展開することにより, 興味ある準安定挙動を予測し, 数値的に示す。 例や応用についても論じる。

Metastability in open system dynamics describes the phenomena of initial relaxation to long-lived metastable states before decaying to the asymptotic stable states. It has been predicted in continuous-time stochastic dynamics of both classical and quantum systems. Here we present a general theory of metastability in discrete-time open quantum dynamics, described by sequential quantum channels. We focus on a general class of quantum channels on a target system, induced by an ancilla system with a pure-dephasing coupling to the target system and under Ramsey sequences. Interesting metastable behaviors are predicted and numerically demonstrated by unravelling the average dynamics into stochastic trajectories. Examples and applications are also discussed.
翻訳日:2024-01-03 18:44:09 公開日:2023-12-30
# 客観的ポーズ推定のための包括的枠組み

A comprehensive framework for occluded human pose estimation ( http://arxiv.org/abs/2401.00155v1 )

ライセンス: Link先を確認
Linhao Xu, Lin Zhao, Xinxin Sun, Guangyu Li, Kedong Yan(参考訳) 咬合は人間のポーズ推定において重要な課題である。 咬合によって生じる課題は以下の要因によって引き起こされる。 1)データ:オクルードされた人間のポーズサンプルの収集と注釈は、比較的難しい。 2) 特徴: 咬合は, 対象者と干渉者との類似度が高いため, 特徴的混乱を引き起こす可能性がある。 3) 推論: 全身構造情報の損失によりロバストな推論が困難になる。 隠蔽された人間のポーズ推定のために設計された既存の方法は、通常、これらの要因の1つにのみ対処することに焦点を当てる。 本稿では,閉塞による性能劣化に対処するための総合的なフレームワークDAG(Data, Attention, Graph)を提案する。 具体的には, 咬合シナリオをシミュレートするために, インスタンスペーストデータ拡張技術を用いたマスクジョイントを紹介する。 また,適応識別注意モジュール (ADAM) が提案され,対象個人の特徴を効果的に強化する。 さらに,FGMP-GCN(Feature-Guided Multi-Hop GCN)を提案し,身体構造に関する事前知識を十分に探求し,ポーズ推定結果を改善する。 提案手法が既存の手法よりも優れていることを示すために,3つのベンチマークデータセットを用いた大規模実験を行った。 コードとデータは公開される予定だ。

Occlusion presents a significant challenge in human pose estimation. The challenges posed by occlusion can be attributed to the following factors: 1) Data: The collection and annotation of occluded human pose samples are relatively challenging. 2) Feature: Occlusion can cause feature confusion due to the high similarity between the target person and interfering individuals. 3) Inference: Robust inference becomes challenging due to the loss of complete body structural information. The existing methods designed for occluded human pose estimation usually focus on addressing only one of these factors. In this paper, we propose a comprehensive framework DAG (Data, Attention, Graph) to address the performance degradation caused by occlusion. Specifically, we introduce the mask joints with instance paste data augmentation technique to simulate occlusion scenarios. Additionally, an Adaptive Discriminative Attention Module (ADAM) is proposed to effectively enhance the features of target individuals. Furthermore, we present the Feature-Guided Multi-Hop GCN (FGMP-GCN) to fully explore the prior knowledge of body structure and improve pose estimation results. Through extensive experiments conducted on three benchmark datasets for occluded human pose estimation, we demonstrate that the proposed method outperforms existing methods. Code and data will be publicly available.
翻訳日:2024-01-03 18:43:28 公開日:2023-12-30
# Hamiltonian for Entangled States は加法的でない

The Hamiltonian for Entangled States Cannot Be Additive ( http://arxiv.org/abs/2401.00152v1 )

ライセンス: Link先を確認
Kent A. Peacock(参考訳) 絡み合った状態に対するハミルトニアン系が加法であるという仮定は、正統的な量子無符号論において広く用いられている。 加法性は、研究中の系が絡み合っているという仮定と矛盾することを示している。

The assumption that the system Hamiltonian for entangled states is additive is widely used in orthodox quantum no-signalling arguments. It is shown that additivity implies a contradiction with the assumption that the system being studied is entangled.
翻訳日:2024-01-03 18:42:58 公開日:2023-12-30
# CamPro:カメラによるアンチファシアル認識

CamPro: Camera-based Anti-Facial Recognition ( http://arxiv.org/abs/2401.00151v1 )

ライセンス: Link先を確認
Wenjun Zhu, Yuan Sun, Jiani Liu, Yushi Cheng, Xiaoyu Ji, Wenyuan Xu(参考訳) 何百万ものカメラから撮影された画像の拡散と顔認識(FR)技術の進歩により、FRの悪用は深刻なプライバシー上の脅威となった。 既存の作品は一般的に、画像中の顔を変えて対顔認識(AFR)を達成するために、難読化、合成、あるいは敵対的な例に依存している。 しかし、機密性のある個人識別情報(PII)を含むカメラモジュールによって撮影された未修正画像は、いまだに漏洩する可能性がある。 本稿では,生まれつきのAFR画像を取得するための新しいアプローチであるCamProを提案する。 CamProは、よくパッケージされたコモディティカメラモジュールが、PIIをほとんど含まないが、人検出などの他の非感度な視覚アプリケーションをサポートするのに十分な情報を含む画像を生成することを可能にする。 具体的には、カメラ画像信号処理装置(isp)内の設定、すなわち色補正行列とガンマ補正を調整してafrを実現し、画像エンハンサーをデザインし、可能な人間のビューアのための画質を維持する。 我々は,概念実証カメラ上でCamProを実装し,その効果を10種類の最先端のブラックボックスFRモデルで実証した。 その結果,CamPro画像の顔の識別精度は0.3\%に低下し,非感度視覚アプリケーションにはほとんど影響を与えなかった。 さらに、CamProは、プライバシ保護ISPパラメータの知識が豊富であっても、CamProが生成した画像を使ってFRモデルを再訓練したアダプティブアタックに対して、耐性があることがわかった。

The proliferation of images captured from millions of cameras and the advancement of facial recognition (FR) technology have made the abuse of FR a severe privacy threat. Existing works typically rely on obfuscation, synthesis, or adversarial examples to modify faces in images to achieve anti-facial recognition (AFR). However, the unmodified images captured by camera modules that contain sensitive personally identifiable information (PII) could still be leaked. In this paper, we propose a novel approach, CamPro, to capture inborn AFR images. CamPro enables well-packed commodity camera modules to produce images that contain little PII and yet still contain enough information to support other non-sensitive vision applications, such as person detection. Specifically, CamPro tunes the configuration setup inside the camera image signal processor (ISP), i.e., color correction matrix and gamma correction, to achieve AFR, and designs an image enhancer to keep the image quality for possible human viewers. We implemented and validated CamPro on a proof-of-concept camera, and our experiments demonstrate its effectiveness on ten state-of-the-art black-box FR models. The results show that CamPro images can significantly reduce face identification accuracy to 0.3\% while having little impact on the targeted non-sensitive vision application. Furthermore, we find that CamPro is resilient to adaptive attackers who have re-trained their FR models using images generated by CamPro, even with full knowledge of privacy-preserving ISP parameters.
翻訳日:2024-01-03 18:42:42 公開日:2023-12-30
# 異なるパラメータを持つ新しい偶数および奇数非線形コヒーレント状態の性質

Properties of new even and odd nonlinear coherent states with different parameters ( http://arxiv.org/abs/2401.00149v1 )

ライセンス: Link先を確認
Cheng Zhang, Rui-Jiao Miao, Xiao-Qiu Qi(参考訳) より一般的な非線形関数を導入して非線形コヒーレント状態(NLCS)のクラスを構築し、その非古典的性質、具体的には2階相関関数 $g^{(2)}(0)$, Mandel parameter $Q$, squeezing, 振幅二乗スキーズおよび光場のウィグナー関数について研究する。 その結果,新タイプの偶数および奇数NLCSの非古典的性質が非線形関数に決定的に依存していることが示唆された。 さらに具体的には、新しいNLCSは光子拡散効果を示すが、新しい奇妙なNLCSは光子拡散効果を示す。 スクイージングの程度は、これらのnlcsのパラメータ選択によっても著しく影響を受ける。 様々な形の非線形関数を用いることで、様々な性質を持つnlcsを構築することが可能となり、対応する実験研究のための理論的基礎を提供する。

We construct a class of nonlinear coherent states (NLCSs) by introducing a more general nonlinear function and study their non-classical properties, specifically the second-order correlation function $g^{(2)}(0)$, Mandel parameter $Q$, squeezing, amplitude squared squeezing and Wigner function of the optical field. The results indicate that the non-classical properties of the new types of even and odd NLCSs crucially depend on nonlinear functions. More concretely, we find that the new even NLCSs could exhibit the photon-bunching effect whereas the new odd NLCSs could show photon-antibunching effect. The degree of squeezing is also significantly affected by the parameter selection of these NLCSs. By employing various forms of nonlinear functions, it becomes possible to construct NLCSs with diverse properties, thereby providing a theoretical foundation for corresponding experimental investigations.
翻訳日:2024-01-03 18:42:17 公開日:2023-12-30
# TPatch: トリガーされた物理的敵対的パッチ

TPatch: A Triggered Physical Adversarial Patch ( http://arxiv.org/abs/2401.00148v1 )

ライセンス: Link先を確認
Wenjun Zhu, Xiaoyu Ji, Yushi Cheng, Shibo Zhang, Wenyuan Xu(参考訳) 自動運転車は、視覚ベースの知覚モジュールを利用して、運転環境に関する情報を取得し、障害物を検出する。 正しい検出と分類は、安全な運転決定を保証するために重要である。 既存の研究は、オブジェクト検出器や画像分類器などの認識モデルを印刷対向パッチで騙す可能性を示している。 しかし、ほとんどの車両は通過する自動運転車に対して無差別に攻撃的である。 本稿では,音響信号によって引き起こされる物理対向パッチTPatchを提案する。 他の敵のパッチとは異なり、TPatchは通常の状況下でも良性であり続けるが、カメラに対する信号注入攻撃によって導入された設計された歪みによって隠れ、生成、または変更する攻撃を起動する引き金となる。 本研究では,人間ドライバーの疑念を回避し,実世界での攻撃を実用的で堅牢にするために,コンテンツベースカモフラージュ法と攻撃堅牢性向上法を提案する。 3つの物体検出器、YOLO V3/V5とFaster R-CNNと8つの画像分類器による評価は、シミュレーションと実世界の両方においてTPatchの有効性を示す。 また,センサ,アルゴリズム,システムレベルでの防御の可能性についても論じる。

Autonomous vehicles increasingly utilize the vision-based perception module to acquire information about driving environments and detect obstacles. Correct detection and classification are important to ensure safe driving decisions. Existing works have demonstrated the feasibility of fooling the perception models such as object detectors and image classifiers with printed adversarial patches. However, most of them are indiscriminately offensive to every passing autonomous vehicle. In this paper, we propose TPatch, a physical adversarial patch triggered by acoustic signals. Unlike other adversarial patches, TPatch remains benign under normal circumstances but can be triggered to launch a hiding, creating or altering attack by a designed distortion introduced by signal injection attacks towards cameras. To avoid the suspicion of human drivers and make the attack practical and robust in the real world, we propose a content-based camouflage method and an attack robustness enhancement method to strengthen it. Evaluations with three object detectors, YOLO V3/V5 and Faster R-CNN, and eight image classifiers demonstrate the effectiveness of TPatch in both the simulation and the real world. We also discuss possible defenses at the sensor, algorithm, and system levels.
翻訳日:2024-01-03 18:41:57 公開日:2023-12-30
# 分散位相参照量子鍵分布プロトコルの実験的実装

Experimental implementation of distributed phase reference quantum key distribution protocols ( http://arxiv.org/abs/2401.00146v1 )

ライセンス: Link先を確認
Satish Kumar, Priya Malpani, Britant, Sandeep Mishra, and Anirban Pathak(参考訳) 量子暗号は現在、無条件セキュリティの約束のために有望な技術とみなされている。 近年,セキュアネットワークを実現するための量子鍵分布(QKD)プロトコルの実験的な実現に向けて,厳密な研究が進められている。 様々なQKDプロトコルのうち、コヒーレントな一方向と微分位相シフトQKDプロトコルは、現在利用可能な技術との実験的実装の容易さにより、急速に実験的に開発されている。 本研究では,光ファイバーを用いたコヒーレントな一方向および差動位相シフトqkdプロトコルを通信波長で実験的に実現している。 どちらのプロトコルも分散位相参照プロトコルと呼ばれるプロトコルのクラスに属し、弱いコヒーレントパルスを用いて情報を符号化する。 さらに, 距離, 開示率, 圧縮率, 検出器のデッドタイムといったパラメータについて, キーレートを解析した。

Quantum cryptography is now considered as a promising technology due to its promise of unconditional security. In recent years, rigorous work is being done for the experimental realization of quantum key distribution (QKD) protocols to realize secure networks. Among various QKD protocols, coherent one way and differential phase shift QKD protocols have undergone rapid experimental developments due to the ease of experimental implementations with the present available technology. In this work, we have experimentally realized optical fiber based coherent one way and differential phase shift QKD protocols at telecom wavelength. Both protocols belong to a class of protocols named as distributed phase reference protocol in which weak coherent pulses are used to encode the information. Further, we have analyzed the key rates with respect to different parameters such distance, disclose rate, compression ratio and detector dead time.
翻訳日:2024-01-03 18:41:37 公開日:2023-12-30
# 知識はすべて,因果推論に必要な言語モデルなのだろうか?

Is Knowledge All Large Language Models Needed for Causal Reasoning? ( http://arxiv.org/abs/2401.00139v1 )

ライセンス: Link先を確認
Hengrui Cai, Shengjie Liu, Rui Song(参考訳) 本稿では,大規模言語モデル(llm)の因果推論を,人工知能の進歩における解釈可能性と信頼性を高めるために検討する。 様々なタスクにおけるLLMの習熟度にもかかわらず、因果関係を理解するにはさらなる探索が必要である。 本稿では,「do-operators」を用いた因果帰属モデルを提案し,その因果帰属過程における入力数値データとLLMの既存知識の影響を体系的に定量化する。 新たに開発した実験装置は,LLMがコンテキスト情報や固有知識に依存していることを評価する。 評価の結果、LLMの因果推論能力は、提供された文脈とドメイン固有の知識に依存しており、「LLMが音因果推論に主に要求するものは、知識である」という主張を支持することが明らかとなった。 逆に、知識がなければ、LLMは計算に制限があるにもかかわらず、利用可能な数値データを用いて因果推論の程度を維持している。

This paper explores the causal reasoning of large language models (LLMs) to enhance their interpretability and reliability in advancing artificial intelligence. Despite the proficiency of LLMs in a range of tasks, their potential for understanding causality requires further exploration. We propose a novel causal attribution model that utilizes "do-operators" for constructing counterfactual scenarios, allowing us to systematically quantify the influence of input numerical data and LLMs' pre-existing knowledge on their causal reasoning processes. Our newly developed experimental setup assesses LLMs' reliance on contextual information and inherent knowledge across various domains. Our evaluation reveals that LLMs' causal reasoning ability depends on the context and domain-specific knowledge provided, and supports the argument that "knowledge is, indeed, what LLMs principally require for sound causal reasoning". On the contrary, in the absence of knowledge, LLMs still maintain a degree of causal reasoning using the available numerical data, albeit with limitations in the calculations.
翻訳日:2024-01-03 18:41:23 公開日:2023-12-30
# SSL-OTA: オブジェクト検出のための自己監視学習におけるバックドア脅威の解消

SSL-OTA: Unveiling Backdoor Threats in Self-Supervised Learning for Object Detection ( http://arxiv.org/abs/2401.00137v1 )

ライセンス: Link先を確認
Qiannan Wang, Changchun Yin, Liming Fang, Lu Zhou, Zhe Liu, Run Wang, Chenhao Lin(参考訳) 自己監視学習(SSL)の広範な採用により、バックドア攻撃によるセキュリティ上の脅威が増大した。 既存の研究は、主に画像分類におけるバックドア攻撃に焦点を当てているが、オブジェクト検出に対するその影響に関する調査は限られている。 本研究では,SSLシナリオにおけるオブジェクト検出タスク用に設計された最初のバックドアアタックを提案する。 SSL-OTAでは、ターゲットオブジェクトの予測を望ましいカテゴリに変更可能なトリガーを使用して、2つのアタック: Data Poisoning Attack (NA)とDual-Source Blending Attack (DSBA)を使用する。 NAはオブジェクト検出器の下流の微調整中にデータ中毒を起こし、DSBAはトレーニング済みエンコーダにバックドアを注入する。 適切なメトリクスを確立し、ベンチマークデータセット上で広範な実験を行い、提案した攻撃の有効性と有用性を実証する。 特に、NAとDSBAは高い攻撃成功率(ASR)を極端に低い毒性率(0.5%)で達成している。 その結果、sslベースのオブジェクト検出においてバックドアの脅威を考慮することの重要性が強調され、この分野に新たな視点をもたらしている。

The extensive adoption of Self-supervised learning (SSL) has led to an increased security threat from backdoor attacks. While existing research has mainly focused on backdoor attacks in image classification, there has been limited exploration into their implications for object detection. In this work, we propose the first backdoor attack designed for object detection tasks in SSL scenarios, termed Object Transform Attack (SSL-OTA). SSL-OTA employs a trigger capable of altering predictions of the target object to the desired category, encompassing two attacks: Data Poisoning Attack (NA) and Dual-Source Blending Attack (DSBA). NA conducts data poisoning during downstream fine-tuning of the object detector, while DSBA additionally injects backdoors into the pre-trained encoder. We establish appropriate metrics and conduct extensive experiments on benchmark datasets, demonstrating the effectiveness and utility of our proposed attack. Notably, both NA and DSBA achieve high attack success rates (ASR) at extremely low poisoning rates (0.5%). The results underscore the importance of considering backdoor threats in SSL-based object detection and contribute a novel perspective to the field.
翻訳日:2024-01-03 18:41:05 公開日:2023-12-30
# deep radon prior: スパースビューct再構成のための完全な教師なしフレームワーク

Deep Radon Prior: A Fully Unsupervised Framework for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2401.00135v1 )

ライセンス: Link先を確認
Shuo Xu, Yucheng Zhang, Gang Chen, Xincheng Xiang, Peng Cong, and Yuewen Sun(参考訳) スパース・ビュー・コンピュート・トモグラフィー (CT) は放射線線量を大幅に減少させたが, 画像品質を低下させる深刻なアーティファクトも導入した。 近年, 逆問題に対する深層学習に基づく手法が顕著に進歩し, CT再構成においてますます普及している。 しかし、これらの手法のほとんどは、高品質なトレーニングデータへの依存、弱い解釈可能性など、いくつかの制限を受ける。 本研究では,前述の制限に対処するために,deep image prior (dip) にインスパイアされた deep radon prior (drp) と呼ばれる完全教師なしフレームワークを提案する。 drpは反復法に暗黙の先行としてニューラルネットワークを導入し、クロスドメイン勾配フィードバックを実現する。 再構成過程において, ニューラルネットワークはラドン領域の解空間を狭めるために, 複数の段階において段階的に最適化され, 提案手法の収束性について論じている。 一般的な事前学習手法と比較して,提案フレームワークはデータセットを必要とせず,優れた解釈性と一般化能力を示す。 実験の結果,提案手法は画像アーチファクトを効果的に抑制しつつ,詳細な画像を生成することができることがわかった。

Although sparse-view computed tomography (CT) has significantly reduced radiation dose, it also introduces severe artifacts which degrade the image quality. In recent years, deep learning-based methods for inverse problems have made remarkable progress and have become increasingly popular in CT reconstruction. However, most of these methods suffer several limitations: dependence on high-quality training data, weak interpretability, etc. In this study, we propose a fully unsupervised framework called Deep Radon Prior (DRP), inspired by Deep Image Prior (DIP), to address the aforementioned limitations. DRP introduces a neural network as an implicit prior into the iterative method, thereby realizing cross-domain gradient feedback. During the reconstruction process, the neural network is progressively optimized in multiple stages to narrow the solution space in radon domain for the under-constrained imaging protocol, and the convergence of the proposed method has been discussed in this work. Compared with the popular pre-trained method, the proposed framework requires no dataset and exhibits superior interpretability and generalization ability. The experimental results demonstrate that the proposed method can generate detailed images while effectively suppressing image artifacts.Meanwhile, DRP achieves comparable or better performance than the supervised methods.
翻訳日:2024-01-03 18:40:44 公開日:2023-12-30
# 深層強化学習のためのコントラスト学習に基づくエージェントモデリング

Contrastive learning-based agent modeling for deep reinforcement learning ( http://arxiv.org/abs/2401.00132v1 )

ライセンス: Link先を確認
Wenhao Ma, Yu-Cheng Chang, Jie Yang, Yu-Kai Wang, Chin-Teng Lin(参考訳) マルチエージェントシステムは、様々な目標、行動、戦略を持つ他のエージェントと協調したり、競合したりするエージェントを必要とすることが多い。 エージェントモデリングは、エージェントが他のエージェントの振る舞いを理解し、意味のあるポリシー表現を抽出する手段であるため、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。 これらの表現は強化学習によって訓練されるegoエージェントの適応ポリシーを強化するのに使うことができる。 しかし、既存のエージェントモデリングアプローチでは、訓練中の他のエージェント(モデル化エージェント)からの局所的な観察や、ポリシー適応のための長い観察軌道を想定している。 これらの制約的な仮定を取り除き、エージェントモデリングの性能を向上させるために、訓練および実行中のegoエージェントからの局所的な観察のみに依存する、コントラスト型学習ベースのエージェントモデリング(clam)法を考案した。 これらの観察により、CLAMは各エピソードの冒頭からリアルタイムに一貫した高品質なポリシー表現を生成することができる。 協調型・競争型マルチエージェント環境におけるアプローチの有効性を検討した。 実験により,本手法が協調的・競争的両課題の最先端を達成し,強化学習の強化を目的とした対照的な学習ベースエージェントモデリングの可能性を強調した。

Multi-agent systems often require agents to collaborate with or compete against other agents with diverse goals, behaviors, or strategies. Agent modeling is essential when designing adaptive policies for intelligent machine agents in multiagent systems, as this is the means by which the ego agent understands other agents' behavior and extracts their meaningful policy representations. These representations can be used to enhance the ego agent's adaptive policy which is trained by reinforcement learning. However, existing agent modeling approaches typically assume the availability of local observations from other agents (modeled agents) during training or a long observation trajectory for policy adaption. To remove these constrictive assumptions and improve agent modeling performance, we devised a Contrastive Learning-based Agent Modeling (CLAM) method that relies only on the local observations from the ego agent during training and execution. With these observations, CLAM is capable of generating consistent high-quality policy representations in real-time right from the beginning of each episode. We evaluated the efficacy of our approach in both cooperative and competitive multi-agent environments. Our experiments demonstrate that our approach achieves state-of-the-art on both cooperative and competitive tasks, highlighting the potential of contrastive learning-based agent modeling for enhancing reinforcement learning.
翻訳日:2024-01-03 18:40:21 公開日:2023-12-30
# 周期駆動型オープン量子システム:スペクトル特性と非平衡定常状態

Periodically Driven Open Quantum Systems: Spectral Properties and Non-Equilibrium Steady States ( http://arxiv.org/abs/2401.00131v1 )

ライセンス: Link先を確認
Hao Chen, Yu-Min Hu, Wucheng Zhang, Michael Alexander Kurniawan, Yuelin Shao, Xueqi Chen, Abhinav Prem, Xi Dai(参考訳) 本稿では,Floquet-Lindbladマスター方程式の枠組み内で周期的に駆動されるオープン量子系について検討する。 具体的には,コヒーレントな時間周期駆動の存在下でのリンドブラッドマスター方程式を議論し,その一般スペクトル特徴を定式化する。 また、このスペクトルの観点から、過渡的および非決定的解の概念を明確にし、フロケット・リンドブラド方程式によって記述された任意の物理系は、単位固有値を持つフロケット・リンドブラド進化超作用素 $\mathcal{u}_f$ の固有作用素に対応する少なくとも1つの \textit{physical} 非平衡定常状態(ness)を持つ必要があることを証明する。 floquet-lindblad形式主義は、nessに関する全ての情報をカプセル化するので、原則として、すべての順序に対する非線形効果を一度に得ることができる。 そこでFloquet-Lindblad形式は、絶縁固体の単純な2バンドモデルの非線形光学応答を導出し、ケルディシュ法によって確立された先行結果と比較することにより、駆動散逸固体系を研究する強力なツールを提供する。

In this article, we investigate periodically driven open quantum systems within the framework of Floquet-Lindblad master equations. Specifically, we discuss Lindblad master equations in the presence of a coherent, time-periodic driving and establish their general spectral features. We also clarify the notions of transient and non-decaying solutions from this spectral perspective, and then prove that any physical system described by a Floquet-Lindblad equation must have at least one \textit{physical} non-equilibrium steady state (NESS), corresponding to an eigenoperator of the Floquet-Lindblad evolution superoperator $\mathcal{U}_F$ with unit eigenvalue. Since the Floquet-Lindblad formalism encapsulates the entire information regarding the NESS, it in principle enables us to obtain non-linear effects to all orders at once. The Floquet-Lindblad formalism thus provides a powerful tool for studying driven-dissipative solid-state systems, which we illustrate by deriving the nonlinear optical response of a simple two-band model of an insulating solid and comparing it with prior results established through Keldysh techniques.
翻訳日:2024-01-03 18:39:58 公開日:2023-12-30
# mriと機械学習アルゴリズムを用いたグリオブラスト腫の腫瘍内遺伝子多様性の定量化

Quantifying intra-tumoral genetic heterogeneity of glioblastoma toward precision medicine using MRI and a data-inclusive machine learning algorithm ( http://arxiv.org/abs/2401.00128v1 )

ライセンス: Link先を確認
Lujia Wang, Hairong Wang, Fulvio D'Angelo, Lee Curtin, Christopher P. Sereduk, Gustavo De Leon, Kyle W. Singleton, Javier Urcuyo, Andrea Hawkins-Daarud, Pamela R. Jackson, Chandan Krishna, Richard S. Zimmerman, Devi P. Patra, Bernard R. Bendok, Kris A. Smith, Peter Nakaji, Kliment Donev, Leslie C. Baxter, Maciej M. Mruga{\l}a, Michele Ceccarelli, Antonio Iavarone, Kristin R. Swanson, Nhan L. Tran, Leland S. Hu, Jing Li(参考訳) Glioblastoma (GBM) は最も攻撃的で致命的なヒト癌の一つである。 腫瘍内遺伝子多様性は治療にとって大きな課題となる。 バイオプシーは侵襲的であり、MRIに基づく非侵襲的機械学習(ML)モデルの開発を動機付け、各患者に対する腫瘍内遺伝的不均一性を定量化する。 この能力は、より良い治療選択が患者の結果を改善できるという大きな約束を持っている。 我々は,MRIを用いて各GBM腫瘍の局所的遺伝的変化を予測するための新しいWeakly Supervised Ordinal Support Vector Machine (WSO-SVM)を提案する。 WSO-SVM は,74GBM 患者の空間的に一致した多パラメータMRI を用いた318 画像局所化生検のユニークなデータセットに適用した。 5つのMRIコントラスト画像の対応する領域から抽出された特徴に基づいて、3つのGBMドライバ遺伝子(EGFR、PDGFRA、PTEN)の局所的な遺伝的変化を予測するために訓練された。 比較のために、既存のMLアルゴリズムも適用された。 各遺伝子の分類精度を異なるアルゴリズム間で比較した。 さらに、異なるコントラスト画像のコントリビューションスコアを計算するために、SHAP法(SHapley Additive ExPlanations)が適用された。 最後に、訓練されたWSO-SVMを使用して、各患者の腫瘍領域内で予測マップを生成し、腫瘍内遺伝的不均一性を可視化した。 本研究はMRIとWSO-SVMを用いて腫瘍内局所遺伝子変異の非侵襲的予測を可能にすることの実現可能性を示した。

Glioblastoma (GBM) is one of the most aggressive and lethal human cancers. Intra-tumoral genetic heterogeneity poses a significant challenge for treatment. Biopsy is invasive, which motivates the development of non-invasive, MRI-based machine learning (ML) models to quantify intra-tumoral genetic heterogeneity for each patient. This capability holds great promise for enabling better therapeutic selection to improve patient outcomes. We proposed a novel Weakly Supervised Ordinal Support Vector Machine (WSO-SVM) to predict regional genetic alteration status within each GBM tumor using MRI. WSO-SVM was applied to a unique dataset of 318 image-localized biopsies with spatially matched multiparametric MRI from 74 GBM patients. The model was trained to predict the regional genetic alteration of three GBM driver genes (EGFR, PDGFRA, and PTEN) based on features extracted from the corresponding region of five MRI contrast images. For comparison, a variety of existing ML algorithms were also applied. The classification accuracy of each gene was compared between the different algorithms. The SHapley Additive exPlanations (SHAP) method was further applied to compute contribution scores of different contrast images. Finally, the trained WSO-SVM was used to generate prediction maps within the tumoral area of each patient to help visualize the intra-tumoral genetic heterogeneity. This study demonstrated the feasibility of using MRI and WSO-SVM to enable non-invasive prediction of intra-tumoral regional genetic alteration for each GBM patient, which can inform future adaptive therapies for individualized oncology.
翻訳日:2024-01-03 18:39:31 公開日:2023-12-30
# プッシュ境界: 大規模マルチモーダルモデルによるゼロショットオブジェクト分類の探索

Pushing Boundaries: Exploring Zero Shot Object Classification with Large Multimodal Models ( http://arxiv.org/abs/2401.00127v1 )

ライセンス: Link先を確認
Ashhadul Islam, Md. Rafiul Biswas, Wajdi Zaghouani, Samir Brahim Belhaouari, Zubair Shah(参考訳) 言語と視覚モデルのシナジーは、画像ベースのクエリと連動したリッチな会話体験にユーザを巻き込むように設計されたLarge Language and Vision Assistant Model(LLVAs)を生み出した。 これらの包括的マルチモーダルモデルは、視覚エンコーダをLarge Language Models (LLM) とシームレスに統合し、汎用言語や視覚的理解における応用を拡大する。 大規模マルチモーダルモデル(LMM)の出現は、人工知能(AI)支援の新しい時代を告げ、AI利用の地平を広げる。 本稿では,LMMについて一意に考察し,特定のデータセット用に設計された調整されたプロンプトを用いて,画像分類タスクの実行の有効性を検討する。 また,LLVAのゼロショット学習能力についても検討した。 我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。 実験の結果,各データセットの分類精度は85 %,100 %,77 %,79 %であった。 分析を強化するために,特定のタスクに対する微調整後のモデルの性能を評価する。 ある例では、自閉症の有無に関わらず、子供の顔の画像を含むデータセット上で微調整を行う。 微調整に先立って, 試験精度は55\%となり, 微調整後の83\%に有意に改善した。 これらの結果は,従来の知見と相まって,実世界のシナリオにおけるLLVAとその汎用的応用の変容の可能性を強調している。

$ $The synergy of language and vision models has given rise to Large Language and Vision Assistant models (LLVAs), designed to engage users in rich conversational experiences intertwined with image-based queries. These comprehensive multimodal models seamlessly integrate vision encoders with Large Language Models (LLMs), expanding their applications in general-purpose language and visual comprehension. The advent of Large Multimodal Models (LMMs) heralds a new era in Artificial Intelligence (AI) assistance, extending the horizons of AI utilization. This paper takes a unique perspective on LMMs, exploring their efficacy in performing image classification tasks using tailored prompts designed for specific datasets. We also investigate the LLVAs zero-shot learning capabilities. Our study includes a benchmarking analysis across four diverse datasets: MNIST, Cats Vs. Dogs, Hymnoptera (Ants Vs. Bees), and an unconventional dataset comprising Pox Vs. Non-Pox skin images. The results of our experiments demonstrate the model's remarkable performance, achieving classification accuracies of 85\%, 100\%, 77\%, and 79\% for the respective datasets without any fine-tuning. To bolster our analysis, we assess the model's performance post fine-tuning for specific tasks. In one instance, fine-tuning is conducted over a dataset comprising images of faces of children with and without autism. Prior to fine-tuning, the model demonstrated a test accuracy of 55\%, which significantly improved to 83\% post fine-tuning. These results, coupled with our prior findings, underscore the transformative potential of LLVAs and their versatile applications in real-world scenarios.
翻訳日:2024-01-03 18:39:05 公開日:2023-12-30
# Open-TI: 拡張言語モデルによるオープントラフィックインテリジェンス

Open-TI: Open Traffic Intelligence with Augmented Language Model ( http://arxiv.org/abs/2401.00211v1 )

ライセンス: Link先を確認
Longchao Da, Kuanru Liou, Tiejin Chen, Xuesong Zhou, Xiangyong Luo, Yezhou Yang, Hua Wei(参考訳) 交通は近代文明の過程で都市の発展に大きな利益をもたらした。 高度なコンピュータアルゴリズムを活用するインテリジェントトランスポートは、人々の日々の通勤効率をさらに高める可能性がある。 しかし、知的な輸送は、横断的な分野として、しばしば実践者が複雑なアルゴリズムとあいまいなニューラルネットワークを理解することを要求し、先進的な技術が実際的な産業で信頼され、デプロイされるという課題をもたらす。 事前訓練された大規模言語モデルの表現性,特に複雑なコマンドの理解と実行能力で強化される可能性を認識して,Open-TIを紹介する。 Open-TIは、業界と学術のギャップを軽減するための橋として、チューリング識別不能なトラフィックインテリジェンス(Turing Indistinguishable Traffic Intelligence)の目標を目標とする革新的なモデルであり、既存の会話に基づいた外部トラフィック分析パッケージを活用する能力を拡張している。 Open-TIは、地図データ取得から複雑なシミュレーションにおける最終的な実行までのスクラッチスパンニングから網羅的なトラフィック解析を行う最初の方法である。 さらに、Open-TIは、トレーニングやTSC(Traffic Signal Control Policy)の適用、需要最適化など、タスク固有の実施を可能にする。 さらに,open-tiから期待される意図を理解することで,制御エージェントとして直接llmsが機能する可能性について検討し,チャットゼロ(制御エージェント)へのオープンtiメッセージ送信をサポートするエージェント間通信モードを設計し,その実行を進めるためのアクションスペースから制御エージェントを選択した。 最終的には形式的な実装構造を提供し、オープンな設計はコミュニティ主導のさらなる拡張を招きます。

Transportation has greatly benefited the cities' development in the modern civilization process. Intelligent transportation, leveraging advanced computer algorithms, could further increase people's daily commuting efficiency. However, intelligent transportation, as a cross-discipline, often requires practitioners to comprehend complicated algorithms and obscure neural networks, bringing a challenge for the advanced techniques to be trusted and deployed in practical industries. Recognizing the expressiveness of the pre-trained large language models, especially the potential of being augmented with abilities to understand and execute intricate commands, we introduce Open-TI. Serving as a bridge to mitigate the industry-academic gap, Open-TI is an innovative model targeting the goal of Turing Indistinguishable Traffic Intelligence, it is augmented with the capability to harness external traffic analysis packages based on existing conversations. Marking its distinction, Open-TI is the first method capable of conducting exhaustive traffic analysis from scratch - spanning from map data acquisition to the eventual execution in complex simulations. Besides, Open-TI is able to conduct task-specific embodiment like training and adapting the traffic signal control policies (TSC), explore demand optimizations, etc. Furthermore, we explored the viability of LLMs directly serving as control agents, by understanding the expected intentions from Open-TI, we designed an agent-to-agent communication mode to support Open-TI conveying messages to ChatZero (control agent), and then the control agent would choose from the action space to proceed the execution. We eventually provide the formal implementation structure, and the open-ended design invites further community-driven enhancements.
翻訳日:2024-01-03 18:32:56 公開日:2023-12-30
# アライメントの問題は

The Problem of Alignment ( http://arxiv.org/abs/2401.00210v1 )

ライセンス: Link先を確認
Tsvetelina Hristova, Liam Magee, Karen Soldatic(参考訳) 大きな言語モデルは、大きなコーパスから統計的パターンとして学習されたシーケンスを生成する。 コーパスバイアスを再現しないためには、最初のトレーニングモデルが人間の値に一致し、他のモデルよりも一定の継続を前提にする必要がある。 統計的モデルへの規範的構造の重ね合わせと見なすことができるアライメントは、言語と技術の間の相反する複雑な相互関係を明らかにする。 この関係は言語、言語実践、主観性の理論を形作っているが、これは特に人工的なテキストの現在の洗練に関係している。 本稿では,ChatGPT4がジョイスのユリシーズの断片において,「無意味」な言語をどう認識するかを解析することにより,ユーザとモデル間の双方向インタラクションとしての構造化の実践を検討する。 そして、このアライメント問題を歴史的に検討し、戦後の言語学的議論を再考し、2つの意味論、すなわち離散構造として、そして連続確率分布として論じる。 我々は、この反対を和らげようとするモスクワ言語学派のほとんどが没頭した研究について論じる。 モスクワ学派に対する我々の注意と、後のサーレとクリステヴァの議論は、新しい光にアライメントの問題を投げかけている: ジョイスのテキストのように表現的な慣習に反抗して存在する異常の構造化を含む、言語の実践の社会的構造化に注意を向けるものとして。 言語に対するコミュニケーション指向に関するこれらの議論は、ユーザとllmの間で起こる現代の行動や相互依存性を説明するのに役立ちます。

Large Language Models produce sequences learned as statistical patterns from large corpora. In order not to reproduce corpus biases, after initial training models must be aligned with human values, preferencing certain continuations over others. Alignment, which can be viewed as the superimposition of normative structure onto a statistical model, reveals a conflicted and complex interrelationship between language and technology. This relationship shapes theories of language, linguistic practice and subjectivity, which are especially relevant to the current sophistication in artificially produced text. We examine this practice of structuration as a two-way interaction between users and models by analysing how ChatGPT4 redacts perceived `anomalous' language in fragments of Joyce's Ulysses and the new linguistic practice of prompt engineering. We then situate this alignment problem historically, revisiting earlier postwar linguistic debates which counterposed two views of meaning: as discrete structures, and as continuous probability distributions. We discuss the largely occluded work of the Moscow Linguistic School, which sought to reconcile this opposition. Our attention to the Moscow School and later related arguments by Searle and Kristeva casts the problem of alignment in a new light: as one involving attention to the social structuration of linguistic practice, including structuration of anomalies that, like the Joycean text, exist in defiance of expressive conventions. These debates around the communicative orientation toward language can help explain some of the contemporary behaviours and interdependencies that take place between users and LLMs.
翻訳日:2024-01-03 18:32:24 公開日:2023-12-30
# AIとテンポの推定: レビュー

AI and Tempo Estimation: A Review ( http://arxiv.org/abs/2401.00209v1 )

ライセンス: Link先を確認
Geoff Luck(参考訳) 本論文の著者の目標は,音楽創造性の重要な側面である音楽的テンポを大規模に見積もる上で,人工知能(ai)がいかに活用されているかを検討することである。 テンポと音楽の創造性の中心的な重要性は、特定の感情を表現するのにどのように使われているか(Eerola and Vuoskoski 2013)、特定の音楽スタイルを提案する(Li and Chan 2011)、表現の知覚に影響を与える(Webster and Weir 2005)、音楽に間に合うように体を動かすという衝動を仲介する(Burger et al. 2014)。 伝統的なテンポ推定法は、しばしば振幅エンベロープのある種の自己相関(Lartillot and Toiviainen 2007)を用いて、音楽のリズム構造を反映する信号周期性を検出する。 近年、音声信号のスペクトル表現に畳み込みニューラルネットワーク(CNN、RNN)を利用するAIベースの手法では、精度が大幅に向上している(アラビとピーター2022)。 一般的なAIベースの技術には、確率に基づくもの(ベイズ的アプローチ、隠れマルコフモデル(HMM))、分類と統計的学習(例えば、サポートベクトルマシン(SVM))、人工知能ニューラルネットワーク(ANN)(例えば、自己組織化マップ(SOM))、CNN、RNN、ディープラーニング(DL))などがある。 ここでの目的は、より一般的なAIベースのテンポ推定アルゴリズムの概要を提供し、それぞれの顕著なメリットと潜在的な欠点に光を当てることである。 この分野でのAIの限界もまた、テンポ知覚に固有の慣用性、すなわちAIベースのアプローチがいかに人間のように考え、振る舞うことができるかを説明する能力として考慮されている。

The author's goal in this paper is to explore how artificial intelligence (AI) has been utilised to inform our understanding of and ability to estimate at scale a critical aspect of musical creativity - musical tempo. The central importance of tempo to musical creativity can be seen in how it is used to express specific emotions (Eerola and Vuoskoski 2013), suggest particular musical styles (Li and Chan 2011), influence perception of expression (Webster and Weir 2005) and mediate the urge to move one's body in time to the music (Burger et al. 2014). Traditional tempo estimation methods typically detect signal periodicities that reflect the underlying rhythmic structure of the music, often using some form of autocorrelation of the amplitude envelope (Lartillot and Toiviainen 2007). Recently, AI-based methods utilising convolutional or recurrent neural networks (CNNs, RNNs) on spectral representations of the audio signal have enjoyed significant improvements in accuracy (Aarabi and Peeters 2022). Common AI-based techniques include those based on probability (e.g., Bayesian approaches, hidden Markov models (HMM)), classification and statistical learning (e.g., support vector machines (SVM)), and artificial neural networks (ANNs) (e.g., self-organising maps (SOMs), CNNs, RNNs, deep learning (DL)). The aim here is to provide an overview of some of the more common AI-based tempo estimation algorithms and to shine a light on notable benefits and potential drawbacks of each. Limitations of AI in this field in general are also considered, as is the capacity for such methods to account for idiosyncrasies inherent in tempo perception, i.e., how well AI-based approaches are able to think and act like humans.
翻訳日:2024-01-03 18:31:53 公開日:2023-12-30
# Inpaint4DNeRF: 生成拡散モデルによる持続的時空間NeRF Inpainting

Inpaint4DNeRF: Promptable Spatio-Temporal NeRF Inpainting with Generative Diffusion Models ( http://arxiv.org/abs/2401.00208v1 )

ライセンス: Link先を確認
Han Jiang, Haosen Sun, Ruoxuan Li, Chi-Keung Tang, Yu-Wing Tai(参考訳) 現在のニューラル・ラジアンス・フィールド(NeRF)はフォトリアリスティック・ノベルビューを生成することができる。 生成モデルの出現とともに,NeRFで表現される3Dシーンを編集するために,静的・動的に関わらず,基礎となる背景コンテンツを直接生成するための最先端の安定拡散モデル(ControlNetなど)を活用するために,Inpaint4DNeRFを提案する。 この生成的アプローチのNeRF塗布の利点は2つある。 まず, 粗面伝播の後に, 予め隠されたコンテンツを完成させたり埋めたりするために, シード画像と呼ばれる, 簡素な3次元形状のプロキシを導出可能な, 妥当な内容の完成画像の小さなサブセットを個々に生成することができる。 第二に、残りの問題は完成した画像の3dマルチビュー一貫性であり、現在はシード画像とその3dプロキシに導かれている。 他のベルやホイッスルがなければ、当社の生成型inpaint4dnerfベースラインフレームワークは一般的に、4dダイナミックなnerfに簡単に拡張することができます。

Current Neural Radiance Fields (NeRF) can generate photorealistic novel views. For editing 3D scenes represented by NeRF, with the advent of generative models, this paper proposes Inpaint4DNeRF to capitalize on state-of-the-art stable diffusion models (e.g., ControlNet) for direct generation of the underlying completed background content, regardless of static or dynamic. The key advantages of this generative approach for NeRF inpainting are twofold. First, after rough mask propagation, to complete or fill in previously occluded content, we can individually generate a small subset of completed images with plausible content, called seed images, from which simple 3D geometry proxies can be derived. Second and the remaining problem is thus 3D multiview consistency among all completed images, now guided by the seed images and their 3D proxies. Without other bells and whistles, our generative Inpaint4DNeRF baseline framework is general which can be readily extended to 4D dynamic NeRFs, where temporal consistency can be naturally handled in a similar way as our multiview consistency.
翻訳日:2024-01-03 18:31:16 公開日:2023-12-30
# オンライン行動広告による消費者操作

Consumer Manipulation via Online Behavioral Advertising ( http://arxiv.org/abs/2401.00205v1 )

ライセンス: Link先を確認
Lex Zard(参考訳) オンライン行動広告(OBA)はデジタル経済において重要な役割を果たしている。 広告主は、自分の行動データに基づいてアルゴリズムにより分類された消費者をターゲットにすることができる。 Alphabet(アルファベット)とMeta(メタ)は、インターネット上でデジタルプラットフォームと消費者の注意をオンラインで伝えるため、OBAを実行し、公正な見積もりをはるかに越えて利益を得るのが最善である。 インターネットにアクセスするためのサービスに依存している消費者、広告主、出版社を犠牲にして、ゲートキーパーがこのような収益性を達成するという懸念が高まっている。 特に、obaが消費者の意思決定の脆弱性を体系的に利用し、インターネットインフラや消費者操作を最適化する関連する市場を生み出していると主張する者もいる。 直感的には、OBAによる消費者操作は、自由民主主義における消費者自治の理想と緊張関係にある。 それにもかかわらず、学界はこの現象をほとんど見落としており、代わりに主にOBAのプライバシーと差別の懸念に焦点を当てている。 本稿は、OBAを通じた消費者の操作に関する学術的議論と規制を振り返る。 まず最初に、OBAがどのように機能するかを詳しく述べます。 第二に、操作を理解するための分析フレームワークを構築する。 第3に、操作理論をOBAに適用する。 その結果,OBAが消費者の操作にどの程度貢献するかを述べる。 重要な点として、本論文は純粋に分析的であり、OBAによる消費者操作の規範的評価を避けている。 OBAの消費者操作の害を評価することは同様に重要であるが、別の出版物で追求されている。

Online behavioral advertising (OBA) has a significant role in the digital economy. It allows advertisers to target consumers categorized according to their algorithmically inferred interests based on their behavioral data. As Alphabet and Meta gatekeep the Internet with their digital platforms and channel most of the consumer attention online, they are best placed to execute OBA and earn profits far exceeding fair estimations. There are increasing concerns that gatekeepers achieve such profitability at the expense of consumers, advertisers, and publishers who are dependent on their services to access the Internet. In particular, some claim that OBA systematically exploits consumers' decision-making vulnerabilities, creating internet infrastructure and relevant markets that optimize for consumer manipulation. Intuitively, consumer manipulation via OBA comes in tension with the ideal of consumer autonomy in liberal democracies. Nevertheless, academia has largely overlooked this phenomenon and instead has primarily focused on privacy and discrimination concerns of OBA. This article redirects academic discourse and regulatory focus on consumer manipulation via OBA. In doing so, first, this article elaborates on how OBA works. Second, it constructs an analytic framework for understanding manipulation. Third, it applies the theory of manipulation to OBA. As a result, this article illustrates the extent to which OBA leads to consumer manipulation. Crucially, this article is purely analytic and avoids normative evaluation of consumer manipulation via OBA. Evaluating consumer manipulation harms of OBA is an equally important but separate task and is pursued in another publication.
翻訳日:2024-01-03 18:30:52 公開日:2023-12-30
# KAXAI:知識分析と説明可能なAIの統合環境

KAXAI: An Integrated Environment for Knowledge Analysis and Explainable AI ( http://arxiv.org/abs/2401.00193v1 )

ライセンス: Link先を確認
Saikat Barua, Dr. Sifat Momen(参考訳) 機械学習の可能性を十分に活用するためには、その複雑さを包括的に理解していない個人に対して、その分野をよりアクセスしやすくし、不安を少なくするシステムを確立することが不可欠である。 本稿では,automl,xai,synthetic data generationを統合し,ユーザのための優れたux設計を提供するシステムの設計について述べる。 このシステムは、ユーザが機械学習のパワーをナビゲートして活用し、その複雑さを抽象化し、高いユーザビリティを提供する。 本稿では,糖尿病データセットで96\%,サーベイデータセットで93\%,モデル性能の向上を目的としたロジスティック回帰フォレストとサポートベクターツリーの2つの新しい分類法を提案する。 論文はまた、モデル依存のローカルインタプリタであるmedleyを導入し、その解釈をlime、greedy、parzenに対して評価する。 さらに,LLMに基づく合成データ生成,ライブラリベースのデータ生成,GANによる元のデータセットの強化などを紹介する。 合成データの発見は、KSテストや標準偏差、特徴の重要性などによって証明されているように、元のデータセットをGANで拡張することが、合成データを生成する最も信頼性の高い方法であることを示している。 著者らは、GANが定量的データセットに最適であることも見出した。

In order to fully harness the potential of machine learning, it is crucial to establish a system that renders the field more accessible and less daunting for individuals who may not possess a comprehensive understanding of its intricacies. The paper describes the design of a system that integrates AutoML, XAI, and synthetic data generation to provide a great UX design for users. The system allows users to navigate and harness the power of machine learning while abstracting its complexities and providing high usability. The paper proposes two novel classifiers, Logistic Regression Forest and Support Vector Tree, for enhanced model performance, achieving 96\% accuracy on a diabetes dataset and 93\% on a survey dataset. The paper also introduces a model-dependent local interpreter called MEDLEY and evaluates its interpretation against LIME, Greedy, and Parzen. Additionally, the paper introduces LLM-based synthetic data generation, library-based data generation, and enhancing the original dataset with GAN. The findings on synthetic data suggest that enhancing the original dataset with GAN is the most reliable way to generate synthetic data, as evidenced by KS tests, standard deviation, and feature importance. The authors also found that GAN works best for quantitative datasets.
翻訳日:2024-01-03 18:30:30 公開日:2023-12-30
# リニアニューラルネットワークに対する新しい説明法

A Novel Explanation Against Linear Neural Networks ( http://arxiv.org/abs/2401.00186v1 )

ライセンス: Link先を確認
Anish Lakkapragada(参考訳) 線形回帰とニューラルネットワークはデータモデリングに広く使われている。 ニューラルネットワークは、非線形関数のモデリングを可能にするアクティベーション関数を使用することで、線形回帰と自身を区別する。 これらのアクティベーション関数の標準的な引数は、ニューラルネットワークが行をモデル化できないことである。 しかし,活性化機能を持たないニューラルネットワークや線形ニューラルネットワークの非現実性について,本論文で提案する新たな説明は,実際にトレーニングとテストの両方のパフォーマンスを低下させることである。 パラメータが増えると最適化が難しくなり、線形回帰よりも多くのトレーニングイテレーションが必要となり、最適な解に収束する可能性さえある。 この仮説は,LNNの最適化と厳密なテストにより,合成・雑音データセット上でのLNNと線形回帰の両方のパフォーマンスを比較して証明する。

Linear Regression and neural networks are widely used to model data. Neural networks distinguish themselves from linear regression with their use of activation functions that enable modeling nonlinear functions. The standard argument for these activation functions is that without them, neural networks only can model a line. However, a novel explanation we propose in this paper for the impracticality of neural networks without activation functions, or linear neural networks, is that they actually reduce both training and testing performance. Having more parameters makes LNNs harder to optimize, and thus they require more training iterations than linear regression to even potentially converge to the optimal solution. We prove this hypothesis through an analysis of the optimization of an LNN and rigorous testing comparing the performance between both LNNs and linear regression on synthethic, noisy datasets.
翻訳日:2024-01-03 18:30:08 公開日:2023-12-30
# 技術・科学翻訳における原理干渉

Principle Interference in Technical and Scientific Translation ( http://arxiv.org/abs/2401.00177v1 )

ライセンス: Link先を確認
Mohammad Ibrahim Qani(参考訳) 本稿では, 翻訳における干渉の性質, 特に技術的, 科学的テキストについて, 記述主義的アプローチを用いて検討する。 技術的・科学的翻訳における干渉の歴史的追跡について概観する。 私の目標は、この現象とその原因を全てのパラドックスで説明することです。 このように、私は翻訳書誌におけるその位置づけ、専門翻訳の干渉の動機と結果、及びこの現象に対する議論の性質に焦点をあてる。 したがって、異なる社会の関係は常に翻訳の行為によって可能であった。 歴史を通して文明を調べると、異なる社会間での知識の普及が翻訳によって達成されたことが分かる。 これらの社会は、しばしば翻訳によって技術と科学の進歩を認識している。 したがって, 社会と人間との技術的接触において, 翻訳は極めて重要である。 技術的なテキストの翻訳は、この論文の予備的なスコープであるため、世界における技術翻訳の歴史を簡単に見ていくことが有益である。

In this article, I will explore the nature of interference in translation, especially in technical and scientific texts, using a descriptivist approach. I will have a brief overview of the historical excursion of interference in technical and scientific translation. My aim is to explain this phenomenon and its causes with all its paradoxes, instead of simply condemning it as an example of supposedly bad translation. Thus, I will focus on its status in the bibliography of translation, on the motives for and consequences of interference in specialized translation, as well as on the nature of the arguments given for and against this phenomenon. Therefore the relationship between different societies has always been possible with the act of translation. When civilizations are examined throughout history, it is seen that the dissemination of knowledge among different societies has been achieved by translation. These societies have often become aware of the advancements in technology and science by means of translation. Therefore; translation becomes very significant in technical contact between societies and humans. Since the translation of technical texts is the preliminary scope of this thesis, it will be beneficial to have a brief look at the history of technical translation in the world.
翻訳日:2024-01-03 18:29:57 公開日:2023-12-30
# L3Cube-MahaSocialNER:ソーシャルメディアベースのMarathi NERデータセットとBERTモデル

L3Cube-MahaSocialNER: A Social Media based Marathi NER Dataset and BERT models ( http://arxiv.org/abs/2401.00170v1 )

ライセンス: Link先を確認
Harsh Chaudhari, Anuja Patil, Dhanashree Lavekar, Pranav Khairnar, Raviraj Joshi(参考訳) L3Cube-MahaSocialNERデータセットは、Marathi言語で名前付きエンティティ認識(NER)用に特別に設計されたソーシャルメディアデータセットである。 データセットは、8つのエンティティクラスをカバーする18,000の手動ラベル付き文で構成され、非標準言語や非公式のイディオムを含むソーシャルメディアデータによって生じる課題に対処する。 CNN、LSTM、BiLSTM、Transformerモデルを含むディープラーニングモデルは、IOBおよび非IOB表記を用いて個々のデータセットで評価される。 その結果,マラーティーの非公式テキストにおける名前付き実体を正確に認識するモデルの有効性が示された。 L3Cube-MahaSocialNERデータセットは、ユーザ中心の情報抽出とリアルタイムアプリケーションのサポートを提供し、ソーシャルメディアプラットフォーム上での世論分析、ニュース、マーケティングのための貴重なリソースを提供する。 また、通常のNERモデルのゼロショット結果は、よりソーシャルなNERデータセットの必要性を強調するソーシャルなNERテストセットでは不十分であることを示す。 データセットとモデルはhttps://github.com/l3cube-pune/MarathiNLPで公開されている。

This work introduces the L3Cube-MahaSocialNER dataset, the first and largest social media dataset specifically designed for Named Entity Recognition (NER) in the Marathi language. The dataset comprises 18,000 manually labeled sentences covering eight entity classes, addressing challenges posed by social media data, including non-standard language and informal idioms. Deep learning models, including CNN, LSTM, BiLSTM, and Transformer models, are evaluated on the individual dataset with IOB and non-IOB notations. The results demonstrate the effectiveness of these models in accurately recognizing named entities in Marathi informal text. The L3Cube-MahaSocialNER dataset offers user-centric information extraction and supports real-time applications, providing a valuable resource for public opinion analysis, news, and marketing on social media platforms. We also show that the zero-shot results of the regular NER model are poor on the social NER test set thus highlighting the need for more social NER datasets. The datasets and models are publicly available at https://github.com/l3cube-pune/MarathiNLP
翻訳日:2024-01-03 18:29:42 公開日:2023-12-30
# 低有効次元の高次元問題に対する多形進化

Multiform Evolution for High-Dimensional Problems with Low Effective Dimensionality ( http://arxiv.org/abs/2401.00168v1 )

ライセンス: Link先を確認
Yaqing Hou, Mingyang Sun, Abhishek Gupta, Yaochu Jin, Haiyin Piao, Hongwei Ge, Qiang Zhang(参考訳) 本稿では、進化的アルゴリズムを低有効次元性(特定の次元が目的関数に有意な影響を与えない)を知覚的に持つ高次元最適化問題に拡張する。 この目的のために、対象の高次元タスクの複数の低次元対応をランダム埋め込みによって生成するマルチフォーム最適化パラダイムのインスタンス化が提示される。 補助的(低次元)タスクと対象との正確な関係は未定であるため、全ての定式化を単一のマルチタスク設定に統一するマルチフォーム進化アルゴリズムが開発されている。 この共同最適化により、ターゲットタスクは、クロスフォームな遺伝的トランスファーを通じて、様々な低次元探索で進化した解を効率的に再利用することができる。 提案するアルゴリズムフレームワークの総合的有効性を検証するため,よく知られた連続ベンチマーク機能と,分類タスクにおける機械学習モデルとディープラーニングモデルのハイパーパラメータチューニングおよびプレデター・プレイゲームにおける一連の実践的問題について,総合的な実験を行った。

In this paper, we scale evolutionary algorithms to high-dimensional optimization problems that deceptively possess a low effective dimensionality (certain dimensions do not significantly affect the objective function). To this end, an instantiation of the multiform optimization paradigm is presented, where multiple low-dimensional counterparts of a target high-dimensional task are generated via random embeddings. Since the exact relationship between the auxiliary (low-dimensional) tasks and the target is a priori unknown, a multiform evolutionary algorithm is developed for unifying all formulations into a single multi-task setting. The resultant joint optimization enables the target task to efficiently reuse solutions evolved across various low-dimensional searches via cross-form genetic transfers, hence speeding up overall convergence characteristics. To validate the overall efficacy of our proposed algorithmic framework, comprehensive experimental studies are carried out on well-known continuous benchmark functions as well as a set of practical problems in the hyper-parameter tuning of machine learning models and deep learning models in classification tasks and Predator-Prey games, respectively.
翻訳日:2024-01-03 18:29:23 公開日:2023-12-30
# コントラスト信頼正規化による密検索における偽陰性の影響の軽減

Mitigating the Impact of False Negatives in Dense Retrieval with Contrastive Confidence Regularization ( http://arxiv.org/abs/2401.00165v1 )

ライセンス: Link先を確認
Shiqi Wang, Yeqin Zhang and Cam-Tu Nguyen(参考訳) オープンドメイン質問回答(QA)では,回答生成のための関連する経路を見つけるために,密集検索が重要である。 通常、コントラスト学習は、パスとクエリを同じ意味空間にマッピングする検索モデルを訓練するために使用される。 目的は、同様のものをより近づき、差別化させることである。 しかしながら、このようなシステムのトレーニングは、データアノテーション中に関連する節を見逃す可能性がある、誤った否定的な問題のために難しい。 対照的な学習を改善するために一般的に使用されるハードネガティブサンプリングは、トレーニングにおいてより多くのノイズをもたらす可能性がある。 これは、ハードネガティブが与えられたクエリに近いものであり、従って偽陰性である可能性が高いためである。 この問題に対処するために,ノイズコントラスト推定(nce)損失に対する新しいコントラスト信頼度正規化器を提案する。 解析の結果, 正規化器は, 密検索モデルが理論的に保証された偽負に対してより頑健になることを示す。 さらに,データセット内のノイズのある負の通路をフィルタするモデル非依存手法を提案し,下流の密集した検索モデルを改善した。 本手法は, 3つのデータセットを用いた実験により, 既存の高密度検索システムと比較して, 検索性能が向上することを示す。

In open-domain Question Answering (QA), dense retrieval is crucial for finding relevant passages for answer generation. Typically, contrastive learning is used to train a retrieval model that maps passages and queries to the same semantic space. The objective is to make similar ones closer and dissimilar ones further apart. However, training such a system is challenging due to the false negative issue, where relevant passages may be missed during data annotation. Hard negative sampling, which is commonly used to improve contrastive learning, can introduce more noise in training. This is because hard negatives are those closer to a given query, and thus more likely to be false negatives. To address this issue, we propose a novel contrastive confidence regularizer for Noise Contrastive Estimation (NCE) loss, a commonly used loss for dense retrieval. Our analysis shows that the regularizer helps dense retrieval models be more robust against false negatives with a theoretical guarantee. Additionally, we propose a model-agnostic method to filter out noisy negative passages in the dataset, improving any downstream dense retrieval models. Through experiments on three datasets, we demonstrate that our method achieves better retrieval performance in comparison to existing state-of-the-art dense retrieval systems.
翻訳日:2024-01-03 18:29:04 公開日:2023-12-30
# ノード分類タスクにおけるクリーンラベルグラフバックドア攻撃法

A clean-label graph backdoor attack method in node classification task ( http://arxiv.org/abs/2401.00163v1 )

ライセンス: Link先を確認
Xiaogang Xing, Ming Xu, Yujing Bai and Dongdong Yang(参考訳) 従来のグラフニューラルネットワーク(GNN)フィールドでのバックドア攻撃は、混乱したラベルのジレンマのために容易に検出できる。 本稿では,GNNのバックドア脆弱性を探究し,よりステルスなバックドア攻撃法を作成するために,ノード分類タスクにおけるクリーンラベルグラフバックドア攻撃法(CGBA)を提案する。 既存のバックドア攻撃法とは異なり、cgbaはノードラベルやグラフ構造を変更する必要はない。 具体的には、サンプルの内容とラベルの整合性の問題を解決するために、特定のターゲットクラスで毒物サンプルを選択し、ターゲットサンプルにトリガーを注入した後、サンプルのラベルをターゲットラベル(すなわちクリーンラベル)として使用する。 隣接ノードの類似性を保証するために、ノードの生の特徴をトリガーとして精巧に選択し、トリガーの隠蔽をさらに改善する。 広範な実験の結果,本手法の有効性が示された。 中毒率0.04の場合、cgbaは87.8%、98.9%、89.1%、98.5%の平均攻撃成功率を達成できる。

Backdoor attacks in the traditional graph neural networks (GNNs) field are easily detectable due to the dilemma of confusing labels. To explore the backdoor vulnerability of GNNs and create a more stealthy backdoor attack method, a clean-label graph backdoor attack method(CGBA) in the node classification task is proposed in this paper. Differently from existing backdoor attack methods, CGBA requires neither modification of node labels nor graph structure. Specifically, to solve the problem of inconsistency between the contents and labels of the samples, CGBA selects poisoning samples in a specific target class and uses the label of sample as the target label (i.e., clean-label) after injecting triggers into the target samples. To guarantee the similarity of neighboring nodes, the raw features of the nodes are elaborately picked as triggers to further improve the concealment of the triggers. Extensive experiments results show the effectiveness of our method. When the poisoning rate is 0.04, CGBA can achieve an average attack success rate of 87.8%, 98.9%, 89.1%, and 98.5%, respectively.
翻訳日:2024-01-03 18:28:43 公開日:2023-12-30
# スパース・リワードのデモンストレーションから学んだスムーズなガイダンス報酬によるポリシー最適化

Policy Optimization with Smooth Guidance Rewards Learned from Sparse-Reward Demonstrations ( http://arxiv.org/abs/2401.00162v1 )

ライセンス: Link先を確認
Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen(参考訳) 報酬フィードバックの幅は、オンライン深層強化学習(DRL)において依然として難しい問題である。 従来のアプローチでは、時間的信用割当(CA)を使用して、複数のハードタスクにおいて印象的な結果を得た。 しかし、多くのCA手法は複雑なアーキテクチャに頼り、状態-作用対の影響を推定するために感度なハイパーパラメータを導入した。 一方、CA法の実現可能性の前提は、大きな状態空間を持つスパース・リワード環境では厄介な、スパース・リワードを伴う軌道を得ることである。 これらの問題に対処するために,スムースガイダンスを用いたポリシー最適化 (POSG) と呼ばれる簡易かつ効率的なアルゴリズムを提案する。 鍵となる考え方は、エージェントが生み出すスパース報酬軌道を直接利用するのではなく、オフラインのデモンストレーションを用いて、状態-作用対の相対的な影響を間接的に推定できるということである。 具体的には, 実演までの軌跡レベル距離と関連する軌道の戻り値の両方を考慮し, 軌道の重要性を得る。 そして、その軌道の重要度を円滑に評価し、デモンストレーションの分布と報奨情報をマージすることにより、各状態-動作対に対する誘導報酬を算出する。 理論上,円滑な誘導報酬による性能改善限界を解析し,性能改善の新たな最悪ケースを導出する。 その結果, ベンチマークDRLアルゴリズムと比較して, POSGの制御性能と収束速度において有意な優位性を示した。 特に,posgの優越性を示すために,特定指標と定量化結果について検討した。

The sparsity of reward feedback remains a challenging problem in online deep reinforcement learning (DRL). Previous approaches have utilized temporal credit assignment (CA) to achieve impressive results in multiple hard tasks. However, many CA methods relied on complex architectures or introduced sensitive hyperparameters to estimate the impact of state-action pairs. Meanwhile, the premise of the feasibility of CA methods is to obtain trajectories with sparse rewards, which can be troublesome in sparse-reward environments with large state spaces. To tackle these problems, we propose a simple and efficient algorithm called Policy Optimization with Smooth Guidance (POSG) that leverages a small set of sparse-reward demonstrations to make reliable and effective long-term credit assignments while efficiently facilitating exploration. The key idea is that the relative impact of state-action pairs can be indirectly estimated using offline demonstrations rather than directly leveraging the sparse reward trajectories generated by the agent. Specifically, we first obtain the trajectory importance by considering both the trajectory-level distance to demonstrations and the returns of the relevant trajectories. Then, the guidance reward is calculated for each state-action pair by smoothly averaging the importance of the trajectories through it, merging the demonstration's distribution and reward information. We theoretically analyze the performance improvement bound caused by smooth guidance rewards and derive a new worst-case lower bound on the performance improvement. Extensive results demonstrate POSG's significant advantages in control performance and convergence speed compared to benchmark DRL algorithms. Notably, the specific metrics and quantifiable results are investigated to demonstrate the superiority of POSG.
翻訳日:2024-01-03 18:28:24 公開日:2023-12-30
# DiffHybrid-UQ:微分可能なハイブリッドニューラルモデリングのための不確かさの定量化

DiffHybrid-UQ: Uncertainty Quantification for Differentiable Hybrid Neural Modeling ( http://arxiv.org/abs/2401.00161v1 )

ライセンス: Link先を確認
Deepak Akhare, Tengfei Luo, Jian-Xun Wang(参考訳) ハイブリッドニューラル微分可能モデルは、科学機械学習の分野で大きな進歩を示している。 これらのモデルは、既知の物理の数値表現をディープニューラルネットワークに統合し、予測能力を強化し、複雑な物理システムのデータ駆動モデリングに大きな可能性を示す。 しかし、批判的かつ未適応な課題は、複数の情報源から生じる固有の不確実性の定量化にある。 そこで本研究では,ニューラル・シグナブルモデルにおける効率良く効率的な不確実性伝播と推定のための新しい手法であるdiffhybrid-uqを提案する。 具体的には,データノイズとてんかんの不確かさから生じるアレタリック不確かさと,モデル形状の相違やデータ空間のばらつきから生じるエピステマティック不確かさの両方を効果的に識別し,定量化する。 これはベイズ平均化フレームワークで実現され、アレータリック不確実性はハイブリッドニューラルモデルによってモデル化される。 意図しない変換は、ハイブリッドモデル内の非線形関数を通してこれらの不確実性のフローを可能にする上で重要な役割を果たす。 対照的に、確率的勾配降下(sgd)軌道のアンサンブルを用いて認識的不確かさを推定する。 このアプローチは、ネットワークパラメータと物理パラメータの両方の後方分布に対する実用的な近似を提供する。 特にdiffhybrid-uqフレームワークは、実装の単純さと高いスケーラビリティのために設計されており、並列コンピューティング環境に適している。 提案手法の利点は、常微分方程式と部分微分方程式の両方が支配する問題によって証明されている。

The hybrid neural differentiable models mark a significant advancement in the field of scientific machine learning. These models, integrating numerical representations of known physics into deep neural networks, offer enhanced predictive capabilities and show great potential for data-driven modeling of complex physical systems. However, a critical and yet unaddressed challenge lies in the quantification of inherent uncertainties stemming from multiple sources. Addressing this gap, we introduce a novel method, DiffHybrid-UQ, for effective and efficient uncertainty propagation and estimation in hybrid neural differentiable models, leveraging the strengths of deep ensemble Bayesian learning and nonlinear transformations. Specifically, our approach effectively discerns and quantifies both aleatoric uncertainties, arising from data noise, and epistemic uncertainties, resulting from model-form discrepancies and data sparsity. This is achieved within a Bayesian model averaging framework, where aleatoric uncertainties are modeled through hybrid neural models. The unscented transformation plays a pivotal role in enabling the flow of these uncertainties through the nonlinear functions within the hybrid model. In contrast, epistemic uncertainties are estimated using an ensemble of stochastic gradient descent (SGD) trajectories. This approach offers a practical approximation to the posterior distribution of both the network parameters and the physical parameters. Notably, the DiffHybrid-UQ framework is designed for simplicity in implementation and high scalability, making it suitable for parallel computing environments. The merits of the proposed method have been demonstrated through problems governed by both ordinary and partial differentiable equations.
翻訳日:2024-01-03 18:27:57 公開日:2023-12-30
# デジタル再構成X線写真による変形性股関節症の自動評価

Automatic hip osteoarthritis grading with uncertainty estimation from computed tomography using digitally-reconstructed radiographs ( http://arxiv.org/abs/2401.00159v1 )

ライセンス: Link先を確認
Masachika Masuda, Mazen Soufi, Yoshito Otake, Keisuke Uemura, Sotaro Kono, Kazuma Takashima, Hidetoshi Hamada, Yi Gu, Masaki Takao, Seiji Okada, Nobuhiko Sugano, Yoshinobu Sato(参考訳) 変形性股関節症(Hip OA)の進行は痛みと障害を引き起こし、末期の股関節形成術のような外科的治療につながると考えられる。 ヒップオアの重症度は、crowe and kellgren-lawrence (kl)の分類で分類されることが多い。 しかし,その分類は主観的であるため,CT画像からデジタル再構成ラジオグラフィー(DRR)を用いて,2グレードに基づいて疾患の重症度を自動分類する手法を開発することを目的とした。 深層学習モデルを用いて腰部OA重症度の自動評価を行った。 モデルは,2つのグレーティングスキーム,すなわちクロエとKLのグレードを別々に予測し,両グレードを組み合わせた新しいオーディナルラベルを予測し,OAの疾患進行を表わすように訓練された。 モデルは分類と回帰設定で訓練された。 また,モデルの不確かさを推定し,分類精度の予測因子として検証した。 モデルは197人の股関節oa患者のデータベース上でトレーニングされ検証され、52人の患者で外部から検証された。 モデル精度は, クラス精度 (ECA) と, クラス精度 (ONCA) とバランス精度 (バランス精度) を用いて評価し, 分類と回帰設定において, 約0.65 (ECA) と 0.95 (ONCA) の精度が得られた。 モデル不確かさは, 大きな分類誤差(p<6e-3。 本研究では,CT画像から腰部OA重症度を自動評価する手法を開発した。 以上の結果から, 大規模CTデータベースにおけるオートグレーディングの容易化と, さらなる疾患進展解析の可能性が示唆された。 分類精度はモデルの不確実性と相関し, 分類誤差の予測が可能となった。

Progression of hip osteoarthritis (hip OA) leads to pain and disability, likely leading to surgical treatment such as hip arthroplasty at the terminal stage. The severity of hip OA is often classified using the Crowe and Kellgren-Lawrence (KL) classifications. However, as the classification is subjective, we aimed to develop an automated approach to classify the disease severity based on the two grades using digitally-reconstructed radiographs (DRRs) from CT images. Automatic grading of the hip OA severity was performed using deep learning-based models. The models were trained to predict the disease grade using two grading schemes, i.e., predicting the Crowe and KL grades separately, and predicting a new ordinal label combining both grades and representing the disease progression of hip OA. The models were trained in classification and regression settings. In addition, the model uncertainty was estimated and validated as a predictor of classification accuracy. The models were trained and validated on a database of 197 hip OA patients, and externally validated on 52 patients. The model accuracy was evaluated using exact class accuracy (ECA), one-neighbor class accuracy (ONCA), and balanced accuracy.The deep learning models produced a comparable accuracy of approximately 0.65 (ECA) and 0.95 (ONCA) in the classification and regression settings. The model uncertainty was significantly larger in cases with large classification errors (P<6e-3). In this study, an automatic approach for grading hip OA severity from CT images was developed. The models have shown comparable performance with high ONCA, which facilitates automated grading in large-scale CT databases and indicates the potential for further disease progression analysis. Classification accuracy was correlated with the model uncertainty, which would allow for the prediction of classification errors.
翻訳日:2024-01-03 18:27:30 公開日:2023-12-30
# HybridGait: ハイブリッド探索による空間的時間的衣服交換歩行認識のためのベンチマーク

HybridGait: A Benchmark for Spatial-Temporal Cloth-Changing Gait Recognition with Hybrid Explorations ( http://arxiv.org/abs/2401.00271v1 )

ライセンス: Link先を確認
Yilan Dong, Chunlin Yu, Ruiyang Ha, Ye Shi, Yuexin Ma, Lan Xu, Yanwei Fu, Jingya Wang(参考訳) 既存の歩行認識ベンチマークには、主に実験室環境の小さな衣服のバリエーションが含まれているが、時間や空間によって外観が変化しない。 本稿では,衣料品の変化,室内と屋外のシーン,および92日間にわたるマルチモーダル統計を取り入れた,布質変化歩行認識のための第1世代CCGaitベンチマークを提案する。 衣服の結合効果と視点の変化にさらに対処するため,3次元メッシュの時間的ダイナミクスと投影された2次元情報の両方を活用するハイブリッドアプローチであるHybridGaitを提案する。 具体的には、人間の関節位置認識特徴を符号化するCanonical Alignment Space-Temporal Transformer (CA-STT) モジュールを導入し、Silhouette-Guided deformation with 3D-2D Outearance Projection (SilD) 戦略を用いて、3D高密度プリミティブをフル活用する。 我々は、拡張された空間にわたる現実的な外観変化をキャプチャする、挑戦的なベンチマークCCGaitを提供し、CCGaitとGait3Dベンチマークの以前の成果を上回るハイブリットフレームワークHybridGaitを提案する。 プロジェクトのページはhttps://github.com/hcvlab/hybridgaitで閲覧できます。

Existing gait recognition benchmarks mostly include minor clothing variations in the laboratory environments, but lack persistent changes in appearance over time and space. In this paper, we propose the first in-the-wild benchmark CCGait for cloth-changing gait recognition, which incorporates diverse clothing changes, indoor and outdoor scenes, and multi-modal statistics over 92 days. To further address the coupling effect of clothing and viewpoint variations, we propose a hybrid approach HybridGait that exploits both temporal dynamics and the projected 2D information of 3D human meshes. Specifically, we introduce a Canonical Alignment Spatial-Temporal Transformer (CA-STT) module to encode human joint position-aware features, and fully exploit 3D dense priors via a Silhouette-guided Deformation with 3D-2D Appearance Projection (SilD) strategy. Our contributions are twofold: we provide a challenging benchmark CCGait that captures realistic appearance changes across an expanded and space, and we propose a hybrid framework HybridGait that outperforms prior works on CCGait and Gait3D benchmarks. Our project page is available at https://github.com/HCVLab/HybridGait.
翻訳日:2024-01-03 18:22:34 公開日:2023-12-30
# comma: 共学習型マルチモーダル学習

COMMA: Co-Articulated Multi-Modal Learning ( http://arxiv.org/abs/2401.00268v1 )

ライセンス: Link先を確認
Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng(参考訳) CLIPのような事前訓練された大規模視覚言語モデルは、一連の下流タスクに対して優れた一般化性を示している。 しかし、入力テキストプロンプトのバリエーションに敏感であり、十分なパフォーマンスを達成するためにプロンプトテンプレートの選択が必要である。 近年,微調整過程における手作りプロンプトエンジニアリングの手間を回避するために,テキスト入力としてプロンプトを動的に学習する手法が提案されている。 これらの手法は2つの側面において最適である。 第一に、これらの方法における視覚と言語分岐のプロンプトは通常、分離または一方向的に相関する。 したがって、両方の枝のプロンプトは完全に相関せず、両方の枝の表現を整列するのに十分なガイダンスを提供しない可能性がある。 第二に、ほとんどの以前のメソッドは、通常、見たクラスのパフォーマンスが向上するが、見えないクラスのパフォーマンスがCLIPと比較して低下する。 これは、事前学習段階で学んだ本質的な総合的な知識が、微調整の過程で部分的に忘れられているためである。 本稿では,上記の制限を扱うために,共学習型マルチモーダル学習(comma)を提案する。 特に,両枝の表現アライメントを高めるプロンプトを生成するために,両枝からのプロンプトを検討する。 また,本質的な知識の忘れを緩和するために,学習したプロンプトと,後期トランスフォーマー層の事前学習されたクリップへの手作りプロンプトの埋め込みとの差を最小限に抑える。 提案手法は,新しいクラスへの一般化,新しいターゲットデータセット,未認識のドメインシフトという3つの代表的なタスクを通して評価する。 実験の結果,全てのタスクにおいて高い効率で良好な性能向上が得られた。

Pretrained large-scale vision-language models such as CLIP have demonstrated excellent generalizability over a series of downstream tasks. However, they are sensitive to the variation of input text prompts and need a selection of prompt templates to achieve satisfactory performance. Recently, various methods have been proposed to dynamically learn the prompts as the textual inputs to avoid the requirements of laboring hand-crafted prompt engineering in the fine-tuning process. We notice that these methods are suboptimal in two aspects. First, the prompts of the vision and language branches in these methods are usually separated or uni-directionally correlated. Thus, the prompts of both branches are not fully correlated and may not provide enough guidance to align the representations of both branches. Second, it's observed that most previous methods usually achieve better performance on seen classes but cause performance degeneration on unseen classes compared to CLIP. This is because the essential generic knowledge learned in the pretraining stage is partly forgotten in the fine-tuning process. In this paper, we propose Co-Articulated Multi-Modal Learning (COMMA) to handle the above limitations. Especially, our method considers prompts from both branches to generate the prompts to enhance the representation alignment of both branches. Besides, to alleviate forgetting about the essential knowledge, we minimize the feature discrepancy between the learned prompts and the embeddings of hand-crafted prompts in the pre-trained CLIP in the late transformer layers. We evaluate our method across three representative tasks of generalization to novel classes, new target datasets and unseen domain shifts. Experimental results demonstrate the superiority of our method by exhibiting a favorable performance boost upon all tasks with high efficiency.
翻訳日:2024-01-03 18:22:09 公開日:2023-12-30
# GazeCLIP: テキストガイダンスによる視線推定の強化を目指す

GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance ( http://arxiv.org/abs/2401.00260v1 )

ライセンス: Link先を確認
Jun Wang, Hao Ruan, Mingjie Wang, Chuanghui Zhang, Chunhua Li, Jun Zhou(参考訳) 過去10年間で、視覚的な視線の推定は、広い範囲のアプリケーションシナリオのおかげで、研究コミュニティ内で注目を集めている。 既存の推定手法は予測精度の向上に成功しているが、主に単一画像信号から視線方向を推定し、現在支配的なテキストガイダンスの潜在可能性を捨てている。 特に、画像合成や操作、大規模コントラスト言語-画像事前学習(CLIP:Contrastive Language- Image Pre-training)モデルの顕著な伝達性を活用するなど、視覚的言語協調は様々な視覚的タスクで広く研究されている。 それでも既存の視線推定手法は言語信号やCLIP特徴空間の先行情報によって伝達されるリッチな意味的手がかりを無視し、性能の低下をもたらす。 このギャップを解消するために,我々はテキスト・アイ協調プロトコルを深く掘り下げ,ガゼクリップと呼ばれる新しい視線推定フレームワークを導入する。 具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。 また、視線推定のためのテキスト-アイ対を特徴付けるCLIPベースのバックボーンを提示する。 これに続いて、異種入力間の相互関係をモデル化することを目的とした、きめ細かいマルチモーダル融合モジュールを実装した。 3つの挑戦的データセットに関する広範囲な実験は、従来のアプローチを上回り、最先端の推定精度を達成するガゼクリップの優位性を示している。

Over the past decade, visual gaze estimation has garnered growing attention within the research community, thanks to its wide-ranging application scenarios. While existing estimation approaches have achieved remarkable success in enhancing prediction accuracy, they primarily infer gaze directions from single-image signals and discard the huge potentials of the currently dominant text guidance. Notably, visual-language collaboration has been extensively explored across a range of visual tasks, such as image synthesis and manipulation, leveraging the remarkable transferability of large-scale Contrastive Language-Image Pre-training (CLIP) model. Nevertheless, existing gaze estimation approaches ignore the rich semantic cues conveyed by linguistic signals and priors in CLIP feature space, thereby yielding performance setbacks. In pursuit of making up this gap, we delve deeply into the text-eye collaboration protocol and introduce a novel gaze estimation framework in this paper, referred to as GazeCLIP. Specifically, we intricately design a linguistic description generator to produce text signals with coarse directional cues. Additionally, a CLIP-based backbone that excels in characterizing text-eye pairs for gaze estimation is presented. This is followed by the implementation of a fine-grained multi-modal fusion module aimed at modeling the interrelationships between heterogeneous inputs. Extensive experiments on three challenging datasets demonstrate the superiority of the proposed GazeCLIP which surpasses the previous approaches and achieves the state-of-the-art estimation accuracy.
翻訳日:2024-01-03 18:21:41 公開日:2023-12-30
# 動的トークンモーフィングによるマスク画像モデリング

Masked Image Modeling via Dynamic Token Morphing ( http://arxiv.org/abs/2401.00254v1 )

ライセンス: Link先を確認
Taekyung Kim, Dongyoon Han, Byeongho Heo(参考訳) Masked Image Modeling (MIM)は、様々な自己教師付き学習(SSL)メソッドの中でビジョントランスフォーマーにとって有望な選択肢である。 MIMの本質はトークン単位でマスクされたパッチ予測にあり、ターゲットは画像からパッチされ、事前訓練されたトークン発行者またはモデルによって生成される。 事前訓練されたモデルのターゲットは通常、空間的不整合を示すので、モデルがより差別的な表現を学ぶために従うことは過度に困難である。 この問題を軽減するために,動的トーケンモーフィング(DTM)に基づく新たな自己超越信号を導入し,コンテキスト関連トークンを動的に集約する。 dtmは様々なsslフレームワークに一般的に適用できるが、我々は、追加のトレーニングコストをほとんど導入しないパフォーマンスを効果的に改善するためにdtmを使用する単純なmimを提案する。 ImageNet-1K と ADE20K の実験により,本手法の優位性を明らかに実証した。 さらに,inaturalistと細粒度視覚分類データセットの比較評価により,下流タスクにおける移動性がさらに検証された。 私たちのコードは公開されます。

Masked Image Modeling (MIM) arises as a promising option for Vision Transformers among various self-supervised learning (SSL) methods. The essence of MIM lies in token-wise masked patch predictions, with targets patchified from images; or generated by pre-trained tokenizers or models. We argue targets from the pre-trained models usually exhibit spatial inconsistency, which makes it excessively challenging for the model to follow to learn more discriminative representations. To mitigate the issue, we introduce a novel self-supervision signal based on Dynamic Token Morphing (DTM), which dynamically aggregates contextually related tokens. DTM can be generally applied to various SSL frameworks, yet we propose a simple MIM that employs DTM to effectively improve the performance barely introducing extra training costs. Our experiments on ImageNet-1K and ADE20K evidently demonstrate the superiority of our methods. Furthermore, the comparative evaluation of iNaturalist and Fine-grained Visual Classification datasets further validates the transferability of our method on various downstream tasks. Our code will be released publicly.
翻訳日:2024-01-03 18:21:17 公開日:2023-12-30
# 高精度ディコトーム画像セグメンテーションに向けたセグメンテーションanyモデルの促進

Promoting Segment Anything Model towards Highly Accurate Dichotomous Image Segmentation ( http://arxiv.org/abs/2401.00248v1 )

ライセンス: Link先を確認
Xianjie Liu, Keren Fu, Qijun Zhao(参考訳) オブジェクトのセグメンテーションは、人工知能を達成するための重要なステップであり、SAM(Segment Anything Model)はコンピュータビジョンにおける基礎モデルの開発を著しく前進させてきた。 SAMが高精細画像分割の精度を向上できるかどうかについては高い期待が持たれている。 実際、本論文で示された証拠は、SAMに単純なプロンプトボックスを入力し、SAMが出力した結果をIS5Netの入力として活用することにより、高精度な2コトコス画像分割の有効性を大幅に向上させることができることを示している。

Segmenting any object represents a crucial step towards achieving artificial general intelligence, and the "Segment Anything Model" (SAM) has significantly advanced the development of foundational models in computer vision. We have high expectations regarding whether SAM can enhance highly accurate dichotomous image segmentation. In fact, the evidence presented in this article demonstrates that by inputting SAM with simple prompt boxes and utilizing the results output by SAM as input for IS5Net, we can greatly improve the effectiveness of highly accurate dichotomous image segmentation.
翻訳日:2024-01-03 18:21:01 公開日:2023-12-30
# デジタル双生児の解剖学的編集における拡散モデルの限界と能力

Probing the Limits and Capabilities of Diffusion Models for the Anatomic Editing of Digital Twins ( http://arxiv.org/abs/2401.00247v1 )

ライセンス: Link先を確認
Karim Kadry, Shreya Gupta, Farhad R. Nezami, Elazer R. Edelman(参考訳) 数値シミュレーションは、心臓血管装置の展開を制御する物理過程をモデル化することができる。 このようなシミュレーションには、患者固有の解剖学の計算モデルであるデジタルツインが組み込まれている。 それでも、患者固有のデータの排他的使用は、正確にまたは完全に探索できる解剖学的変動を制限している。 本研究では,デジタル双生児を編集して解剖学的変異体を作成する潜在拡散モデル(ldms)の能力について検討した。 デジタル双生児とその兄弟姉妹は、比較シミュレーションの基礎となり、心臓血管装置のシミュレーション配備に微妙な解剖学的変化がどのように影響するか、そしてデバイスアセスメントのための仮想コホートを増強するかを研究することができる。 しかし、拡散モデルは自然画像の編集能力に特徴付けられるが、デジタル双生児の解剖学的編集能力はまだ研究されていない。 心臓解剖学の3次元デジタル双生児を事例として, 形態学的およびトポロジカルな解析により, デジタル兄弟姉妹の生成と特徴付けを行う。 我々は特にデジタル双生児を編集し、異なる空間スケールおよび局所領域における解剖学的変化を導入し、共通の解剖学的特徴に対するバイアスの存在を実証した。 さらに,このような解剖学的バイアスを選択的編集による仮想コホート拡張に活用し,データセットの不均衡や多様性の欠如に関する問題を部分的に軽減できることを示した。 実験フレームワークは,シリコ実験における原子変動合成における潜在拡散モデルの使用限界と能力を明らかにする。

Numerical simulations can model the physical processes that govern cardiovascular device deployment. When such simulations incorporate digital twins; computational models of patient-specific anatomy, they can expedite and de-risk the device design process. Nonetheless, the exclusive use of patient-specific data constrains the anatomic variability which can be precisely or fully explored. In this study, we investigate the capacity of Latent Diffusion Models (LDMs) to edit digital twins to create anatomic variants, which we term digital siblings. Digital twins and their corresponding siblings can serve as the basis for comparative simulations, enabling the study of how subtle anatomic variations impact the simulated deployment of cardiovascular devices, as well as the augmentation of virtual cohorts for device assessment. However, while diffusion models have been characterized in their ability to edit natural images, their capacity to anatomically edit digital twins has yet to be studied. Using a case example centered on 3D digital twins of cardiac anatomy, we implement various methods for generating digital siblings and characterize them through morphological and topological analyses. We specifically edit digital twins to introduce anatomic variation at different spatial scales and within localized regions, demonstrating the existence of bias towards common anatomic features. We further show that such anatomic bias can be leveraged for virtual cohort augmentation through selective editing, partially alleviating issues related to dataset imbalance and lack of diversity. Our experimental framework thus delineates the limits and capabilities of using latent diffusion models in synthesizing anatomic variation for in silico trials.
翻訳日:2024-01-03 18:20:50 公開日:2023-12-30
# 音声合成のための大規模言語モデルの構築 : 実証的研究

Boosting Large Language Model for Speech Synthesis: An Empirical Study ( http://arxiv.org/abs/2401.00246v1 )

ライセンス: Link先を確認
Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei(参考訳) 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。 しかし,従来の研究のほとんどは聴覚理解などの知覚能力を持つLLMの促進に焦点が当てられており,音声合成機能を備えたLLMの効果的な拡張手法はいまだ曖昧である。 本稿では,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。 我々は,LLMと音声合成モデルの3つの統合手法を比較し,LLMとVALL-Eの重ね合わせ層,LLMを強力なテキストエンコーダとして用いたLLMとVALL-Eを組み合わせる。 実験結果から,LoRA法を用いてLLMを直接微調整して音声合成能力を向上することは困難であり,重畳されたLLMとVALL-Eは,話者類似性と単語誤り率(WER)の両方において,生成音声の品質を向上させることができることがわかった。 これら3つの方法のうち、LLMをテキストエンコーダとして活用することで最高の性能を達成でき、話者類似性が一貫して向上し、WERの大幅な削減(10.9%)を達成できる。

Large language models (LLMs) have made significant advancements in natural language processing and are concurrently extending the language ability to other modalities, such as speech and vision. Nevertheless, most of the previous work focuses on prompting LLMs with perception abilities like auditory comprehension, and the effective approach for augmenting LLMs with speech synthesis capabilities remains ambiguous. In this paper, we conduct a comprehensive empirical exploration of boosting LLMs with the ability to generate speech, by combining pre-trained LLM LLaMA/OPT and text-to-speech synthesis model VALL-E. We compare three integration methods between LLMs and speech synthesis models, including directly fine-tuned LLMs, superposed layers of LLMs and VALL-E, and coupled LLMs and VALL-E using LLMs as a powerful text encoder. Experimental results show that, using LoRA method to fine-tune LLMs directly to boost the speech synthesis capability does not work well, and superposed LLMs and VALL-E can improve the quality of generated speech both in speaker similarity and word error rate (WER). Among these three methods, coupled methods leveraging LLMs as the text encoder can achieve the best performance, making it outperform original speech synthesis models with a consistently better speaker similarity and a significant (10.9%) WER reduction.
翻訳日:2024-01-03 18:20:22 公開日:2023-12-30
# 逆ロラアンサンブルを用いた人間のフィードバックからの不確かさの強化学習

Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles ( http://arxiv.org/abs/2401.00243v1 )

ライセンス: Link先を確認
Yuanzhao Zhai, Han Zhang, Yu Lei, Yue Yu, Kele Xu, Dawei Feng, Bo Ding, Huaimin Wang(参考訳) 人間からのフィードバック(RLHF)からの強化学習は、大きな言語モデル(LLM)を整合させるための有望なパラダイムとして現れます。 しかし、RLHFの顕著な課題は過度な最適化であり、あるしきい値を超えた報酬の追求は人間の嗜好の低下につながる。 本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。 この制限を緩和するため、オフラインデータセットにおいてRLHFの目的を精査し、RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。 報奨モデルの不確実性定量化能力を向上させるために,まず,lora行列結合の核ノルムを最大化することにより,多種多様な低ランク適応(lora)アンサンブルを提案する。 次に,LRAアンサンブルによる報酬と不確実性の両方によって決定されるペナル化報酬を利用したポリシーモデルを最適化する。 2つの人間嗜好データセットに基づく実験結果は,報酬不確かさの定量化における多様な報酬ロラアンサンブルの有効性を示す。 さらに、UP-RLHFの不確実性正則化は過度な最適化を緩和する上で重要なものであり、結果として全体的な性能に寄与する。

Reinforcement learning from human feedback (RLHF) emerges as a promising paradigm for aligning large language models (LLMs). However, a notable challenge in RLHF is overoptimization, where beyond a certain threshold, the pursuit of higher rewards leads to a decline in human preferences. In this paper, we observe the weakness of KL regularization which is commonly employed in existing RLHF methods to address overoptimization. To mitigate this limitation, we scrutinize the RLHF objective in the offline dataset and propose uncertainty-penalized RLHF (UP-RLHF), which incorporates uncertainty regularization during RL-finetuning. To enhance the uncertainty quantification abilities for reward models, we first propose a diverse low-rank adaptation (LoRA) ensemble by maximizing the nuclear norm of LoRA matrix concatenations. Then we optimize policy models utilizing penalized rewards, determined by both rewards and uncertainties provided by the diverse reward LoRA ensembles. Our experimental results, based on two real human preference datasets, showcase the effectiveness of diverse reward LoRA ensembles in quantifying reward uncertainty. Additionally, uncertainty regularization in UP-RLHF proves to be pivotal in mitigating overoptimization, thereby contributing to the overall performance.
翻訳日:2024-01-03 18:19:55 公開日:2023-12-30
# 適応光学制御のためのモデルに基づく強化学習実験

Laboratory Experiments of Model-based Reinforcement Learning for Adaptive Optics Control ( http://arxiv.org/abs/2401.00242v1 )

ライセンス: Link先を確認
Jalo Nousiainen, Byron Engler, Markus Kasper, Chang Rajani, Tapio Helin, C\'edric T. Heritier, Sascha P. Quanz and Adrian M. Glauser(参考訳) 地球に似た太陽系外惑星の直接イメージングは、次世代の地上望遠鏡の最も顕著な科学的要因の1つである。 典型的には、地球に似た太陽系外惑星は、主星から小さな角分離位置にあり、検出が困難である。 そのため、アダプティブ光学(AO)系の制御アルゴリズムは、主星が生成する残光と外惑星を区別するために慎重に設計されなければならない。 aoコントロールを改善するための新しい有望な研究の道は、強化学習(rl)のようなデータ駆動制御方法に基づいている。 RLは機械学習研究分野の活発な分野であり、環境との相互作用を通じてシステムの制御が学習される。 したがって、RLは、完全にターンキー操作であるAO制御の自動化アプローチであると見なすことができる。 特に、モデルベース強化学習(MBRL)は、時間的および誤登録の誤りに対処することが示されている。 同様に、訓練や実行において効率的でありながら、非線形波面センシングに適応することが示されている。 本研究では,ESO本部のGHOSTテストベンチにAO政策最適化(PO4AO)と呼ばれるRL手法を実装し,実験室環境において高い性能を示す。 本実装では,オンスキー操作に不可欠な推論と並行してトレーニングを行うことができる。 特に,提案手法の予測と自己調整について検討する。 ghost run pytorchの新しい実装では、ハードウェア、パイプライン、pythonインターフェースのレイテンシに加えて、700マイクロ秒程度しか導入されていない。 実装に関する詳細なコードをオープンソースとして公開し、RTCパイプラインの要件を特定します。 また,本手法の重要なハイパーパラメータ,遅延発生源,低レイテンシ実装のための経路についても論じる。

Direct imaging of Earth-like exoplanets is one of the most prominent scientific drivers of the next generation of ground-based telescopes. Typically, Earth-like exoplanets are located at small angular separations from their host stars, making their detection difficult. Consequently, the adaptive optics (AO) system's control algorithm must be carefully designed to distinguish the exoplanet from the residual light produced by the host star. A new promising avenue of research to improve AO control builds on data-driven control methods such as Reinforcement Learning (RL). RL is an active branch of the machine learning research field, where control of a system is learned through interaction with the environment. Thus, RL can be seen as an automated approach to AO control, where its usage is entirely a turnkey operation. In particular, model-based reinforcement learning (MBRL) has been shown to cope with both temporal and misregistration errors. Similarly, it has been demonstrated to adapt to non-linear wavefront sensing while being efficient in training and execution. In this work, we implement and adapt an RL method called Policy Optimization for AO (PO4AO) to the GHOST test bench at ESO headquarters, where we demonstrate a strong performance of the method in a laboratory environment. Our implementation allows the training to be performed parallel to inference, which is crucial for on-sky operation. In particular, we study the predictive and self-calibrating aspects of the method. The new implementation on GHOST running PyTorch introduces only around 700 microseconds in addition to hardware, pipeline, and Python interface latency. We open-source well-documented code for the implementation and specify the requirements for the RTC pipeline. We also discuss the important hyperparameters of the method, the source of the latency, and the possible paths for a lower latency implementation.
翻訳日:2024-01-03 18:19:31 公開日:2023-12-30
# 局所的グローバル特徴の交互アグリゲーションによる拡張スウィントランスに基づく画像超解像再構成ネットワーク

Image Super-resolution Reconstruction Network based on Enhanced Swin Transformer via Alternating Aggregation of Local-Global Features ( http://arxiv.org/abs/2401.00241v1 )

ライセンス: Link先を確認
Yuming Huang, Yingpin Chen, Changhui Wu, Hanrong Xie, Binhui Song, Hui Wang(参考訳) Swin Transformer画像の超分解能再構成ネットワークは、ウィンドウアテンションとウィンドウアテンションの長距離関係にのみ依存し、特徴を探索する。 この機構には2つの制限がある。 一方、ローカル機能を無視しながら、グローバルな機能のみに焦点を当てている。 一方で、チャネル特徴やチャネル相互作用を無視しながら、空間的特徴の相互作用のみに関心を持ち、非線形マッピング能力を制限する。 上記の制約に対処するため,本稿では,局所的グローバル特徴の交互集約によるスウィントランスモジュールの拡張を提案する。 本稿では,局所的特徴集約段階において,局所的空間情報とチャネル情報との相互作用を実現するためにシフト畳み込みを導入する。 本稿では,グローバル機能集約段階におけるブロックスパースグローバル知覚モジュールを提案する。 このモジュールはまず空間情報を整理し、次に再結合情報を空間ゲーティングユニットに送信し、空間情報とチャネル情報のさらなる相互作用を実現する。 そして、多スケールの自己注意モジュールと低パラメータの残留チャネルアテンションモジュールを導入し、異なるスケールで情報アグリゲーションを実現する。 最後に、提案されたネットワークは5つの公開データセットで検証される。 実験の結果,提案ネットワークは他の最先端スーパーレゾリューションネットワークよりも優れていた。

The Swin Transformer image super-resolution reconstruction network only relies on the long-range relationship of window attention and shifted window attention to explore features. This mechanism has two limitations. On the one hand, it only focuses on global features while ignoring local features. On the other hand, it is only concerned with spatial feature interactions while ignoring channel features and channel interactions, thus limiting its non-linear mapping ability. To address the above limitations, this paper proposes enhanced Swin Transformer modules via alternating aggregation of local-global features. In the local feature aggregation stage, this paper introduces shift convolution to realize the interaction between local spatial information and channel information. This paper proposes a block sparse global perception module in the global feature aggregation stage. This module organizes the spatial information first, then sends the recombination information into a spatial gating unit to implement the further interaction of spatial and channel information. Then, a multi-scale self-attention module and a low-parameter residual channel attention module are introduced to realize information aggregation at different scales. Finally, the proposed network is validated on five publicly available datasets. The experimental results show that the proposed network outperforms the other state-of-the-art super-resolution networks.
翻訳日:2024-01-03 18:18:46 公開日:2023-12-30
# 文学テキストにおける参照の評価方法

How to Evaluate Coreference in Literary Texts? ( http://arxiv.org/abs/2401.00238v1 )

ライセンス: Link先を確認
Ana-Isabel Duron-Tejedor and Pascal Amsili and Thierry Poibeau(参考訳) 本稿では,テキストのコア参照を評価するための主要な指標について検討し,その限界について詳述する。 独特なスコアは問題の完全な複雑性を表現できないことを示し、その結果、意図的でないこと、あるいは誤解を招くことさえある。 我々は,コンテクスト(本事例ではフィクションの分析,esp.小説)を考慮し,コリファレンスを評価する新しい方法を提案する。 より具体的には、長いコア参照連鎖(主文字に対応する)と短いもの(二次文字に対応する)とシングルトン(孤立要素)を区別することを提案する。 こうすることで、より解釈可能で、評価を通じてより有益な結果が得られることを願っています。

In this short paper, we examine the main metrics used to evaluate textual coreference and we detail some of their limitations. We show that a unique score cannot represent the full complexity of the problem at stake, and is thus uninformative, or even misleading. We propose a new way of evaluating coreference, taking into account the context (in our case, the analysis of fictions, esp. novels). More specifically, we propose to distinguish long coreference chains (corresponding to main characters), from short ones (corresponding to secondary characters), and singletons (isolated elements). This way, we hope to get more interpretable and thus more informative results through evaluation.
翻訳日:2024-01-03 18:18:14 公開日:2023-12-30
# バーチャルリアリティとディープラーニングを用いた風車ブレードの欠陥検出の一手法

A Novel Approach for Defect Detection of Wind Turbine Blade Using Virtual Reality and Deep Learning ( http://arxiv.org/abs/2401.00237v1 )

ライセンス: Link先を確認
Md Fazle Rabbi, Solayman Hossain Emon, Ehtesham Mahmud Nishat, Tzu-Liang (Bill) Tseng, Atira Ferdoushi, Chun-Che Huang and Md Fashiar Rahman(参考訳) 風力タービンは連続的な回転応力と、嵐、雷、飛行物体による打撃などの異常な外部力を受けており、タービンブレードに欠陥を引き起こす可能性がある。 したがって、適切な機能を確保し、破滅的な失敗を避けるために定期的な検査が必要である。 遠隔地と人間の検査による不便な到達性のため,検査作業は困難である。 研究チームは、風力タービンの切り欠きのある画像を文献で使用しました。 彼らは背景バイアスを無視し、ドローンなどの航空機を用いたリアルタイムおよび自律的な欠陥検出を妨げる可能性がある。 このような課題を克服するために,本研究では,2段階の深層学習手法を用いて,背景に欠陥を持つ欠陥検出精度を実験する。 第1段階では, 風力タービンの仮想モデルを開発し, き裂, エッジエロージョン, 曲げ, 光衝撃損傷の4種類の共通欠陥に対して, 近相対画像合成を行う。 ユニティ知覚パッケージは、背景、ランダム性、カメラアングル、光効果の異なる風力タービンブレード欠陥画像を生成するために使用される。 第2のステップでは、タービンブレードの欠陥を分類し分割するためにカスタマイズされたu-netアーキテクチャを訓練する。 U-Netアーキテクチャの結果は、完全にテストされ、5倍の検証データセットと比較されている。 提案手法は,航空機による自律的および遠隔探査に適した,合理的な欠陥検出精度を提供する。

Wind turbines are subjected to continuous rotational stresses and unusual external forces such as storms, lightning, strikes by flying objects, etc., which may cause defects in turbine blades. Hence, it requires a periodical inspection to ensure proper functionality and avoid catastrophic failure. The task of inspection is challenging due to the remote location and inconvenient reachability by human inspection. Researchers used images with cropped defects from the wind turbine in the literature. They neglected possible background biases, which may hinder real-time and autonomous defect detection using aerial vehicles such as drones or others. To overcome such challenges, in this paper, we experiment with defect detection accuracy by having the defects with the background using a two-step deep-learning methodology. In the first step, we develop virtual models of wind turbines to synthesize the near-reality images for four types of common defects - cracks, leading edge erosion, bending, and light striking damage. The Unity perception package is used to generate wind turbine blade defects images with variations in background, randomness, camera angle, and light effects. In the second step, a customized U-Net architecture is trained to classify and segment the defect in turbine blades. The outcomes of U-Net architecture have been thoroughly tested and compared with 5-fold validation datasets. The proposed methodology provides reasonable defect detection accuracy, making it suitable for autonomous and remote inspection through aerial vehicles.
翻訳日:2024-01-03 18:17:52 公開日:2023-12-30
# Transformer Multivariate Forecasting: より少ないか?

Transformer Multivariate Forecasting: Less is More? ( http://arxiv.org/abs/2401.00230v1 )

ライセンス: Link先を確認
Jingjing Xu, Caesar Wu, Yuan-Fang Li, Pascal Bouvry(参考訳) 多変量予測の領域では、トランスフォーマーモデルは強力な装置として際立っており、現実世界のコンテキストから散らばったデータセットを扱う特別な能力を示している。 しかし、これらのデータセットの本質的な複雑さは、多数の変数と長い時間的シーケンスによって特徴づけられ、ノイズの増加や拡張モデルランタイムなどの課題を提起する。 本稿では,実行効率を最適化しながら予測精度を高めるために冗長な情報を削減することに焦点を当てる。 本稿では、主成分分析(pca)によって強化された新しいトランスフォーマー予測フレームワークを提案する。 このフレームワークは、5つの最先端(SOTA)モデルと4つの多様な実世界のデータセットによって評価される。 実験の結果、フレームワークがすべてのモデルやデータセットで予測エラーを最小限に抑えつつ、ランタイムを大幅に削減できることを示した。 PCA+Crossformer(PCA+Crossformer)は平均平方誤差(MSE)を33.3%減らし、平均で49.2%減らす。 データセットの観点から、このフレームワークは、Electricityデータセットで14.3%のMSEと76.6%のランタイム削減、およびトラフィックデータセットで4.8%のMSEと86.9%のランタイム削減を提供する。 本研究の目的は,様々なSOTAモデルを開発し,複雑なデータに対するトランスフォーマーに基づく時系列予測を強化することである。

In the domain of multivariate forecasting, transformer models stand out as powerful apparatus, displaying exceptional capabilities in handling messy datasets from real-world contexts. However, the inherent complexity of these datasets, characterized by numerous variables and lengthy temporal sequences, poses challenges, including increased noise and extended model runtime. This paper focuses on reducing redundant information to elevate forecasting accuracy while optimizing runtime efficiency. We propose a novel transformer forecasting framework enhanced by Principal Component Analysis (PCA) to tackle this challenge. The framework is evaluated by five state-of-the-art (SOTA) models and four diverse real-world datasets. Our experimental results demonstrate the framework's ability to minimize prediction errors across all models and datasets while significantly reducing runtime. From the model perspective, one of the PCA-enhanced models: PCA+Crossformer, reduces mean square errors (MSE) by 33.3% and decreases runtime by 49.2% on average. From the dataset perspective, the framework delivers 14.3% MSE and 76.6% runtime reduction on Electricity datasets, as well as 4.8% MSE and 86.9% runtime reduction on Traffic datasets. This study aims to advance various SOTA models and enhance transformer-based time series forecasting for intricate data.
翻訳日:2024-01-03 18:16:45 公開日:2023-12-30
# 経験的モード分解とWalsh-Hadamard変換による難聴の特徴表現の強化

Enhancing dysarthria speech feature representation with empirical mode decomposition and Walsh-Hadamard transform ( http://arxiv.org/abs/2401.00225v1 )

ライセンス: Link先を確認
Ting Zhu, Shufei Duan, Camille Dingam, Huizhi Liang, Wei Zhang(参考訳) dysarthria speechは声道と声帯の病理的特徴を含んでいるが、これまでのところそれらは伝統的な音響特徴セットには含まれていない。 さらに, 音声の非線形性や非定常性も無視されている。 本稿では,WHFEMDと呼ばれる難聴音声の特徴強調アルゴリズムを提案する。 実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。 提案アルゴリズムでは,まず発声音声の高速フーリエ変換を行い,次にEMDを用いて固有モード関数(IMF)を得る。 その後、FWHTは新しい係数を出力し、IMF、パワースペクトル密度、ガンマトン周波数ケプストラム係数の増大に基づく統計的特徴を抽出するために用いられる。 提案手法を評価するために,UA音声とTORGOを含む2つの公共病的音声データベースの実験を行った。 その結果,本アルゴリズムは従来の分類手法よりも優れた性能を示した。 改善率は13.8%(UA音声)と3.84%(TORGO)であった。 さらに、データ不均衡に対処する不均衡分類アルゴリズムの導入により、認識精度が12.18%向上した。 このアルゴリズムは、不均衡データセットと非線形性の課題を効果的に解決し、同時に声帯と声道の局所的な病理学的特徴のロバストな表現を提供する。

Dysarthria speech contains the pathological characteristics of vocal tract and vocal fold, but so far, they have not yet been included in traditional acoustic feature sets. Moreover, the nonlinearity and non-stationarity of speech have been ignored. In this paper, we propose a feature enhancement algorithm for dysarthria speech called WHFEMD. It combines empirical mode decomposition (EMD) and fast Walsh-Hadamard transform (FWHT) to enhance features. With the proposed algorithm, the fast Fourier transform of the dysarthria speech is first performed and then followed by EMD to get intrinsic mode functions (IMFs). After that, FWHT is used to output new coefficients and to extract statistical features based on IMFs, power spectral density, and enhanced gammatone frequency cepstral coefficients. To evaluate the proposed approach, we conducted experiments on two public pathological speech databases including UA Speech and TORGO. The results show that our algorithm performed better than traditional features in classification. We achieved improvements of 13.8% (UA Speech) and 3.84% (TORGO), respectively. Furthermore, the incorporation of an imbalanced classification algorithm to address data imbalance has resulted in a 12.18% increase in recognition accuracy. This algorithm effectively addresses the challenges of the imbalanced dataset and non-linearity in dysarthric speech and simultaneously provides a robust representation of the local pathological features of the vocal folds and tracts.
翻訳日:2024-01-03 18:16:02 公開日:2023-12-30
# マルチパーティ量子相互情報:代替定義」へのコメント

Comment on "Multiparty quantum mutual information: An alternative definition" ( http://arxiv.org/abs/2401.00218v1 )

ライセンス: Link先を確認
Jaehak Lee, Gibeom Noh, Changsuk Noh, Jiyong Park(参考訳) クマール [Phys. Rev. A 96, 012332 (2017)] の主張に反して、$n$パーティイト量子状態の量子双対総相関は、量子状態の$n-1$コピーと$n \geq 3$に対する$n$異なる還元量子状態の積の間の量子相対エントロピーとして表すことができない。 具体的には、後者は一般化された$n$-partite Greenberger-Horne-Zeilinger状態に対して有限値を得ることができない。

We show that, contrary to the claim by Kumar [Phys. Rev. A 96, 012332 (2017)], the quantum dual total correlation of an $n$-partite quantum state cannot be represented as the quantum relative entropy between $n-1$ copies of the quantum state and the product of $n$ different reduced quantum states for $n \geq 3$. Specifically, we argue that the latter fails to yield a finite value for generalized $n$-partite Greenberger-Horne-Zeilinger states.
翻訳日:2024-01-03 18:15:40 公開日:2023-12-30
# MDPにおける主エージェントリワード整形

Principal-Agent Reward Shaping in MDPs ( http://arxiv.org/abs/2401.00298v1 )

ライセンス: Link先を確認
Omer Ben-Porat, Yishay Mansour, Michal Moshkovitz, Boaz Taitler(参考訳) プリンシパルエージェント問題は、ある当事者が他の当事者に代わって行動するときに発生し、利害の衝突に繋がる。 経済文献は主エージェント問題を幅広く研究しており、近年の研究ではマルコフ決定過程(MDP)のような複雑なシナリオにまで拡張されている。 本稿では,予算制約下での報酬形成が校長の効用をいかに改善するかを検討することにより,この研究をさらに探究する。 本研究では,主役とエージェントが異なる報酬関数を持つ2プレイヤーのスタックルバーグゲームについて検討し,エージェントが両プレイヤーに対してMDPポリシーを選択する。 プリンシパルはエージェントに追加の報酬を与え、エージェントは自身の報酬を最大化するために自分のポリシーを自発的に選択する。 この結果から, 確率木と有限地平線をもつ決定的決定過程の2つのクラスに対して, 多項式近似アルゴリズムを提案する。

Principal-agent problems arise when one party acts on behalf of another, leading to conflicts of interest. The economic literature has extensively studied principal-agent problems, and recent work has extended this to more complex scenarios such as Markov Decision Processes (MDPs). In this paper, we further explore this line of research by investigating how reward shaping under budget constraints can improve the principal's utility. We study a two-player Stackelberg game where the principal and the agent have different reward functions, and the agent chooses an MDP policy for both players. The principal offers an additional reward to the agent, and the agent picks their policy selfishly to maximize their reward, which is the sum of the original and the offered reward. Our results establish the NP-hardness of the problem and offer polynomial approximation algorithms for two classes of instances: Stochastic trees and deterministic decision processes with a finite horizon.
翻訳日:2024-01-03 18:08:17 公開日:2023-12-30
# 複雑なネットワークにおける混雑制御のための新しい強化学習ルーティングアルゴリズム

A Novel Reinforcement Learning Routing Algorithm for Congestion Control in Complex Networks ( http://arxiv.org/abs/2401.00297v1 )

ライセンス: Link先を確認
Seyed Hassan Yajadda, Farshad Safaei(参考訳) 技術進歩にもかかわらず、複雑なネットワークのような学際的な主題の重要性が高まっている。 これらのネットワーク内での通信の探索は重要であり、人口の増加と接続の必要性の増大により、トラフィックが重要な関心事となっている。 混雑は特定のネットワーク領域から生じるが、急速に拡大する。 したがって、フローフリー状態から混雑状態への遷移を理解することは不可欠である。 複雑なネットワークにおける混雑の発生と制御に関する多くの研究が、ソフト戦略、ハード戦略、リソース割り当て戦略の3つの一般的なカテゴリに分類されている。 本稿では,最短経路アルゴリズムに基づく渋滞制御と経路長の最適化という,2つの主要な目的に対処するために強化学習を活用するルーティングアルゴリズムを提案する。 提案手法は,Barab\'asi-Albertスケールフリーネットワークだけでなく,Watts-Strogatz (小世界) や Erd\"os-R'enyi (ランダムネットワーク) などのネットワークモデルでも有効であることを示す。 シミュレーション実験により, 様々な交通シナリオやネットワークトポロジにおいて, ノードの混雑を最大5倍に抑えながら, 効率基準を最大30%向上できることを示した。

Despite technological advancements, the significance of interdisciplinary subjects like complex networks has grown. Exploring communication within these networks is crucial, with traffic becoming a key concern due to the expanding population and increased need for connections. Congestion tends to originate in specific network areas but quickly proliferates throughout. Consequently, understanding the transition from a flow-free state to a congested state is vital. Numerous studies have delved into comprehending the emergence and control of congestion in complex networks, falling into three general categories: soft strategies, hard strategies, and resource allocation strategies. This article introduces a routing algorithm leveraging reinforcement learning to address two primary objectives: congestion control and optimizing path length based on the shortest path algorithm, ultimately enhancing network throughput compared to previous methods. Notably, the proposed method proves effective not only in Barab\'asi-Albert scale-free networks but also in other network models such as Watts-Strogatz (small-world) and Erd\"os-R\'enyi (random network). Simulation experiment results demonstrate that, across various traffic scenarios and network topologies, the proposed method can enhance efficiency criteria by up to 30% while reducing maximum node congestion by five times.
翻訳日:2024-01-03 18:08:00 公開日:2023-12-30
# 量子ゲートの不完全絡み込み力

Imperfect Entangling Power of Quantum Gates ( http://arxiv.org/abs/2401.00295v1 )

ライセンス: Link先を確認
Sudipta Mondal, Samir Kumar Hazra, Aditi Sen De(参考訳) 量子ゲートを定義するパラメータに対する完全な制御を達成することは、一般に非常に難しい課題であり、同時に環境相互作用は初期状態にも障害をもたらす可能性がある。 Here we address the problem of how the imperfections in unitaries and noise present in the input states affect the entanglement-generating power of a given quantum gate -- we refer to it as imperfect (noisy) entangling power. We observe that, when the parameters of a given unitary are chosen randomly from a Gaussian distribution centered around the desired mean, the quenched average entangling power -- averaged across multiple random samplings -- exhibits intriguing behavior like it may increase or show nonmonotonic behavior with the increase of disorder strength for certain classes of diagonal unitary operators. 任意のユニタリ作用素の場合、焼成平均電力は安定する傾向にあり、振動の代わりにパラメータの変動がほとんど一定である。 また,局所雑音モデルの存在下では,与えられたユニタリ作用素の絡み合い力を最大化する入力状態が無雑音シナリオと大きく異なることも明らかにした。 さらに,ノイズモデルと雑音強度に応じて,ノイズのないケース変化におけるエンタングルパワーに応じたユニタリ演算子間のランク付けを報告した。

Achieving perfect control over the parameters defining a quantum gate is, in general, a very challenging task, and at the same time, environmental interactions can introduce disturbances to the initial states as well. Here we address the problem of how the imperfections in unitaries and noise present in the input states affect the entanglement-generating power of a given quantum gate -- we refer to it as imperfect (noisy) entangling power. We observe that, when the parameters of a given unitary are chosen randomly from a Gaussian distribution centered around the desired mean, the quenched average entangling power -- averaged across multiple random samplings -- exhibits intriguing behavior like it may increase or show nonmonotonic behavior with the increase of disorder strength for certain classes of diagonal unitary operators. For arbitrary unitary operators, the quenched average power tends to stabilize, showing almost constant behavior with variation in the parameters instead of oscillating. Our observations also reveal that, in the presence of a local noise model, the input states that maximize the entangling power of a given unitary operator differ considerably from the noiseless scenario. Additionally, we report that the rankings among unitary operators according to their entangling power in the noiseless case change depending on the noise model and noise strength.
翻訳日:2024-01-03 18:07:39 公開日:2023-12-30
# 閉・開システムにおけるロバスト量子制御:理論と実践

Robust Quantum Control in Closed and Open Systems: Theory and Practice ( http://arxiv.org/abs/2401.00294v1 )

ライセンス: Link先を確認
C. A. Weidner, E. A. Reed, J. Monroe, B. Sheller, S. O'Neil, E. Maas, E. A. Jonckheere, F. C. Langbein and S. G. Schirmer(参考訳) 量子系のロバスト制御は、第2次量子革命の間、ますます関連する研究分野となっているが、量子物理学の改ざんと、基本的な性能限界を極めた現代的な解析形式におけるロバスト制御の間にはギャップがある。 一般に、量子系は線形で時間不変で計測に基づく頑健な制御技術には適さないため、新しいギャップブリッジ技術を開発する必要がある。 この調査は、制御理論家が量子制御の現状と古典的なロバスト制御の類似点を強調するために書かれた。 量子系に古典的ロバスト制御理論を適用する際に生じる問題, 量子物理学者がそのような系とそのロバスト性を探る典型的な方法, およびこの分野で解決すべきオープン問題について議論する。 我々は、制御研究者がこの急成長する分野に貢献できるように、汎用的で実践的な応用と最近の研究に焦点をあてる。

Robust control of quantum systems is an increasingly relevant field of study amidst the second quantum revolution, but there remains a gap between taming quantum physics and robust control in its modern analytical form that culminated in fundamental performance bounds. In general, quantum systems are not amenable to linear, time-invariant, measurement-based robust control techniques, and thus novel gap-bridging techniques must be developed. This survey is written for control theorists to highlight parallels between the current state of quantum control and classical robust control. We present issues that arise when applying classical robust control theory to quantum systems, typical methods used by quantum physicists to explore such systems and their robustness, as well as a discussion of open problems to be addressed in the field. We focus on general, practical applications and recent work to enable control researchers to contribute to advancing this burgeoning field.
翻訳日:2024-01-03 18:07:22 公開日:2023-12-30
# 大規模言語モデルのためのレッドチーム:数学の課題に対する幻覚に対処する

Red Teaming for Large Language Models At Scale: Tackling Hallucinations on Mathematics Tasks ( http://arxiv.org/abs/2401.00290v1 )

ライセンス: Link先を確認
Aleksander Buszydlik, Karol Dobiczek, Micha{\l} Teodor Oko\'n, Konrad Skublicki, Philip Lippmann, Jie Yang(参考訳) 基礎計算と代数的タスクにおいて,レッドチームによるllmの課題を検討し,様々なプロンプト手法がアウトプットの質にどのように影響するかを評価する。 数値問題やパズルを手続き的に生成する枠組みを提案し,いくつかのレッドチーム技術を適用した結果と比較する。 この結果から, 構造化推論と実例提供は回答の質の劣化を遅くするが, gpt-3.5-turbo モデルと gpt-4 モデルは初等計算や推論作業には適していないことが示唆された。

We consider the problem of red teaming LLMs on elementary calculations and algebraic tasks to evaluate how various prompting techniques affect the quality of outputs. We present a framework to procedurally generate numerical questions and puzzles, and compare the results with and without the application of several red teaming techniques. Our findings suggest that even though structured reasoning and providing worked-out examples slow down the deterioration of the quality of answers, the gpt-3.5-turbo and gpt-4 models are not well suited for elementary calculations and reasoning tasks, also when being red teamed.
翻訳日:2024-01-03 18:07:04 公開日:2023-12-30
# コードインテリジェンスのためのディープラーニング - サーベイ、ベンチマーク、ツールキット

Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit ( http://arxiv.org/abs/2401.00288v1 )

ライセンス: Link先を確認
Yao Wan, Yang He, Zhangqian Bi, Jianguo Zhang, Hongyu Zhang, Yulei Sui, Guandong Xu, Hai Jin, Philip S. Yu(参考訳) コードインテリジェンスは、コンピュータプログラミングの品質と生産性を改善するインテリジェントツールの開発を目的として、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。 現在、ソフトウェア工学、機械学習、データマイニング、自然言語処理、プログラミング言語など、コードインテリジェンスに焦点を当てた活発な研究コミュニティがすでに存在しています。 本稿では,コード表現学習,ディープラーニング技術,アプリケーションタスクの観点から,コードインテリジェンスのためのディープラーニングに関する包括的な文献レビューを行う。 また、コードインテリジェンスのための最先端のニューラルモデルをいくつかベンチマークし、ディープラーニングベースのコードインテリジェンスモデルの迅速なプロトタイピングに適したオープンソースのツールキットを提供しています。 特に,コード表現学習に基づく既存のコードインテリジェンスモデルを検証し,コードインテリジェンスの現状の理解を深めるための包括的概要を提供する。 さらに、既存のコードインテリジェンスモデルと将来のコードインテリジェンスモデル(https://xcodemind.github.io.)の評価と比較を容易にするために、コミュニティに提供するためのソースコードとデータリソースも公開しています。 最終的には、今後の研究の挑戦的かつ有望な方向性についても指摘します。

Code intelligence leverages machine learning techniques to extract knowledge from extensive code corpora, with the aim of developing intelligent tools to improve the quality and productivity of computer programming. Currently, there is already a thriving research community focusing on code intelligence, with efforts ranging from software engineering, machine learning, data mining, natural language processing, and programming languages. In this paper, we conduct a comprehensive literature review on deep learning for code intelligence, from the aspects of code representation learning, deep learning techniques, and application tasks. We also benchmark several state-of-the-art neural models for code intelligence, and provide an open-source toolkit tailored for the rapid prototyping of deep-learning-based code intelligence models. In particular, we inspect the existing code intelligence models under the basis of code representation learning, and provide a comprehensive overview to enhance comprehension of the present state of code intelligence. Furthermore, we publicly release the source code and data resources to provide the community with a ready-to-use benchmark, which can facilitate the evaluation and comparison of existing and future code intelligence models (https://xcodemind.github.io). At last, we also point out several challenging and promising directions for future research.
翻訳日:2024-01-03 18:06:51 公開日:2023-12-30
# 防衛技術:LLM防衛戦略の安全性と過度依存度に関する体系的評価と分析

The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness ( http://arxiv.org/abs/2401.00287v1 )

ライセンス: Link先を確認
Neeraj Varshney, Pavel Dolin, Agastya Seth, Chitta Baral(参考訳) 大規模言語モデル(LLM)は自然言語処理アプリケーションにおいてますます重要な役割を担っているため、その安全性に関する懸念はNLP研究の重要な領域となっている。 本稿では,安全・過失評価(sode)ベンチマークについて,安全・過失評価・過失評価に関する体系的評価・比較・分析を容易にする,慎重に設計した評価手法を用いた多種多様な安全・非安全プロンプトの収集について述べる。 SODE を用いて,複数の最先端 LLM に対する多種多様な LLM 防衛戦略について検討し,興味深く重要な発見がいくつか示された。 (a) 広く普及している「自己チェック」技術は、安全でない入力に対する安全性を確実に向上させるが、これは安全入力に対する過度な過度な防御コストが伴う。 b) 安全指導と(安全かつ安全でない入力の両方の)文脈内例示を提供することは、安全を一貫して改善するとともに、モデルの過度な過剰な防御を緩和する。 (c) 文脈的な知識を提供することで、安全ガードレールが壊れやすくなり、モデルが安全でない応答を生成することに対する脆弱性が増す。 本研究は全体として,LSMの安全性向上に向けたさらなる研究の道筋を築き,促進すると考えられる多くの重要な発見を明らかにするものである。

As Large Language Models (LLMs) play an increasingly pivotal role in natural language processing applications, their safety concerns become critical areas of NLP research. This paper presents Safety and Over-Defensiveness Evaluation (SODE) benchmark: a collection of diverse safe and unsafe prompts with carefully designed evaluation methods that facilitate systematic evaluation, comparison, and analysis over 'safety' and 'over-defensiveness.' With SODE, we study a variety of LLM defense strategies over multiple state-of-the-art LLMs, which reveals several interesting and important findings, such as (a) the widely popular 'self-checking' techniques indeed improve the safety against unsafe inputs, but this comes at the cost of extreme over-defensiveness on the safe inputs, (b) providing a safety instruction along with in-context exemplars (of both safe and unsafe inputs) consistently improves safety and also mitigates undue over-defensiveness of the models, (c) providing contextual knowledge easily breaks the safety guardrails and makes the models more vulnerable to generating unsafe responses. Overall, our work reveals numerous such critical findings that we believe will pave the way and facilitate further research in improving the safety of LLMs.
翻訳日:2024-01-03 18:06:27 公開日:2023-12-30
# BusReF: 赤外線可視画像の登録と1つの特徴を用いた再構成可能領域への融合

BusReF: Infrared-Visible images registration and fusion focus on reconstructible area using one set of features ( http://arxiv.org/abs/2401.00285v1 )

ライセンス: Link先を確認
Zeyang Zhang, Hui Li, Tianyang Xu, Xiaojun Wu, Josef Kittler(参考訳) マルチモーダルカメラが一緒に動作しているシナリオでは、アライン化されていない画像を扱う問題は回避できない。 しかし、既存の画像融合アルゴリズムは、より正確な融合結果を生成するために厳密に登録された入力画像ペアに重きを置き、下流の高レベル視覚タスクのパフォーマンスを向上させる。 この仮定を緩和するために、まず画像の登録を試みることができる。 しかし、既存の複数のモダリティを登録する手法には、複雑な構造や重要な意味情報への依存といった制限がある。 本稿では,BusRefと呼ばれる単一のフレームワークにおける画像登録と融合の問題に対処することを目的とする。 Infrared-Visible Image registration and fusion task (IVRF)に焦点を当てた。 このフレームワークでは、入力不整合イメージペアは、粗い登録、細かな登録、融合の3段階を通過する。 統一アプローチにより、より堅牢なIVRFが可能になることが示される。 また,非再構成領域が損失関数に与える影響を低減し,融合作業の正確性とロバスト性を大幅に向上させるため,マスクを用いた新しい訓練・評価手法を提案する。 最後に、勾配対応の核融合ネットワークは相補的な情報を保存するように設計されている。 このアルゴリズムの高度な性能を実証する。

In a scenario where multi-modal cameras are operating together, the problem of working with non-aligned images cannot be avoided. Yet, existing image fusion algorithms rely heavily on strictly registered input image pairs to produce more precise fusion results, as a way to improve the performance of downstream high-level vision tasks. In order to relax this assumption, one can attempt to register images first. However, the existing methods for registering multiple modalities have limitations, such as complex structures and reliance on significant semantic information. This paper aims to address the problem of image registration and fusion in a single framework, called BusRef. We focus on Infrared-Visible image registration and fusion task (IVRF). In this framework, the input unaligned image pairs will pass through three stages: Coarse registration, Fine registration and Fusion. It will be shown that the unified approach enables more robust IVRF. We also propose a novel training and evaluation strategy, involving the use of masks to reduce the influence of non-reconstructible regions on the loss functions, which greatly improves the accuracy and robustness of the fusion task. Last but not least, a gradient-aware fusion network is designed to preserve the complementary information. The advanced performance of this algorithm is demonstrated by
翻訳日:2024-01-03 18:06:01 公開日:2023-12-30
# 評価は必要なだけです。 社会科学におけるアノテーションタスクのための生成型大規模言語モデルの提案 オープンモデルを用いたプライマー

Evaluation is all you need. Prompting Generative Large Language Models for Annotation Tasks in the Social Sciences. A Primer using Open Models ( http://arxiv.org/abs/2401.00284v1 )

ライセンス: Link先を確認
Maximilian Weber, Merle Reichardt(参考訳) 本稿では,open generative large language model (llms) を社会科学におけるアノテーションタスクに利用することを検討する。 この研究は、限定的な再現性やプライバシの懸念など、プロプライエタリなモデルに関連する課題を強調し、独立したデバイスで操作可能なオープン(オープンソース)モデルの採用を提唱している。 アノテーションタスクの2つの例,つぶやきの感情分析,幼児期の経験的エッセイにおけるレジャー活動の同定について述べる。 この研究は、異なるプロンプト戦略とモデル(neural-chat-7b-v3-2, Starling-LM-7B-alpha, openchat_3.5, zephyr-7b-alpha, zephyr-7b-beta)の性能を評価する。 結果は、注意深い検証と調整済みのプロンプトエンジニアリングの必要性を示している。 この研究は、データプライバシと再現性に対するオープンモデルの利点を強調している。

This paper explores the use of open generative Large Language Models (LLMs) for annotation tasks in the social sciences. The study highlights the challenges associated with proprietary models, such as limited reproducibility and privacy concerns, and advocates for the adoption of open (source) models that can be operated on independent devices. Two examples of annotation tasks, sentiment analysis in tweets and identification of leisure activities in childhood aspirational essays are provided. The study evaluates the performance of different prompting strategies and models (neural-chat-7b-v3-2, Starling-LM-7B-alpha, openchat_3.5, zephyr-7b-alpha and zephyr-7b-beta). The results indicate the need for careful validation and tailored prompt engineering. The study highlights the advantages of open models for data privacy and reproducibility.
翻訳日:2024-01-03 18:05:44 公開日:2023-12-30
# 深部生成的記号回帰

Deep Generative Symbolic Regression ( http://arxiv.org/abs/2401.00282v1 )

ライセンス: Link先を確認
Samuel Holt, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 記号回帰(SR)は、科学的発見の基礎となるデータから簡潔な閉形式数学的方程式を発見することを目的としている。 しかし、閉形式方程式が複雑な組合せ探索空間にあるため、この問題は非常に難しい。 既存の手法は、ヒューリスティック検索から強化学習まで、入力変数の数に応じてスケールできない。 閉形式方程式はしばしば構造的特徴と不変性(例えば可換法則)を持ち、より効果的な記号的回帰解を構築するためにさらに活用できることを観察する。 この観察に動機づけられた我々の重要な貢献は、事前訓練された深層生成モデルを利用して方程式の固有正則性を捉えることである。 我々の新しい形式主義は象徴的回帰のいくつかの顕著なアプローチを統一し、事前学習におけるクロスエントロピー損失の使用など、従来のアドホックデザインを正当化し改善するための新たな視点を提供する。 具体的には,我々のフレームワークであるDeep Generative Symbolic Regression(DGSR)のインスタンス化を提案する。 実験の結果,DGSRは多数の入力変数の設定において真の方程式の回復率が高く,予測時間では最先端のRLシンボリック回帰解よりも計算効率がよいことがわかった。

Symbolic regression (SR) aims to discover concise closed-form mathematical equations from data, a task fundamental to scientific discovery. However, the problem is highly challenging because closed-form equations lie in a complex combinatorial search space. Existing methods, ranging from heuristic search to reinforcement learning, fail to scale with the number of input variables. We make the observation that closed-form equations often have structural characteristics and invariances (e.g., the commutative law) that could be further exploited to build more effective symbolic regression solutions. Motivated by this observation, our key contribution is to leverage pre-trained deep generative models to capture the intrinsic regularities of equations, thereby providing a solid foundation for subsequent optimization steps. We show that our novel formalism unifies several prominent approaches of symbolic regression and offers a new perspective to justify and improve on the previous ad hoc designs, such as the usage of cross-entropy loss during pre-training. Specifically, we propose an instantiation of our framework, Deep Generative Symbolic Regression (DGSR). In our experiments, we show that DGSR achieves a higher recovery rate of true equations in the setting of a larger number of input variables, and it is more computationally efficient at inference time than state-of-the-art RL symbolic regression solutions.
翻訳日:2024-01-03 18:05:27 公開日:2023-12-30
# TTP分析の強化: 検索拡張生成を伴うエンコーダオンリーおよびデコーダオンリー言語モデルの高機能化

Advancing TTP Analysis: Harnessing the Power of Encoder-Only and Decoder-Only Language Models with Retrieval Augmented Generation ( http://arxiv.org/abs/2401.00280v1 )

ライセンス: Link先を確認
Reza Fayyazi, Rozhina Taghdimi, Shanchieh Jay Yang(参考訳) TTP(Tactics, Techniques, and Procedures)は、攻撃者が脆弱性を悪用するために使用する方法の概要である。 MITRE ATT&CKフレームワークにおけるTPの解釈は、想定される専門知識、複雑な依存関係、固有の曖昧さのためにサイバーセキュリティ実践者にとって困難である。 一方、LLM(Large Language Models)による進歩は、サイバーセキュリティオペレーションにおけるその利用を探求する研究が近年急増している。 これにより、エンコーダのみ(例えばRoBERTa)とデコーダのみ(例えばGPT-3.5)のLLMが、TTPを理解・要約して、サイバー攻撃手順の意図された目的(戦術)をアナリストに通知できるかどうかを問うことができる。 最先端のLSMは、サイバーセキュリティのような重要な領域で問題となる不正確な情報を提供することによって幻覚を起こす傾向がある。 そこで,本稿では,デコーダのみのLCMに対して,関連するコンテキストを抽出するための検索拡張生成(RAG)手法を提案する。 さらに、エンコーダのみのllmの教師付き微調整(sft)に対するアプローチを対比する。 その結果,デコーダのみのLSM(事前訓練済み知識)の直接使用とエンコーダのみのLSMのSFTの両方が,サイバー攻撃手順の正確な解釈を提供することがわかった。 RAGがデコーダのみのLLMに使用される場合、特に直接関連するコンテキストが見つかった場合、重要な改善が示される。 本研究は, TTPの解釈において, LLMにRAGを用いることの限界と能力について考察する。

Tactics, Techniques, and Procedures (TTPs) outline the methods attackers use to exploit vulnerabilities. The interpretation of TTPs in the MITRE ATT&CK framework can be challenging for cybersecurity practitioners due to presumed expertise, complex dependencies, and inherent ambiguity. Meanwhile, advancements with Large Language Models (LLMs) have led to recent surge in studies exploring its uses in cybersecurity operations. This leads us to question how well encoder-only (e.g., RoBERTa) and decoder-only (e.g., GPT-3.5) LLMs can comprehend and summarize TTPs to inform analysts of the intended purposes (i.e., tactics) of a cyberattack procedure. The state-of-the-art LLMs have shown to be prone to hallucination by providing inaccurate information, which is problematic in critical domains like cybersecurity. Therefore, we propose the use of Retrieval Augmented Generation (RAG) techniques to extract relevant contexts for each cyberattack procedure for decoder-only LLMs (without fine-tuning). We further contrast such approach against supervised fine-tuning (SFT) of encoder-only LLMs. Our results reveal that both the direct-use of decoder-only LLMs (i.e., its pre-trained knowledge) and the SFT of encoder-only LLMs offer inaccurate interpretation of cyberattack procedures. Significant improvements are shown when RAG is used for decoder-only LLMs, particularly when directly relevant context is found. This study further sheds insights on the limitations and capabilities of using RAG for LLMs in interpreting TTPs.
翻訳日:2024-01-03 18:05:04 公開日:2023-12-30
# 低曲率限界における超低温中性子:ニュートン効果の考察

Ultracold Neutrons in the Low Curvature Limit: Remarks on the post-Newtonian effects ( http://arxiv.org/abs/2401.00277v1 )

ライセンス: Link先を確認
Benjamin Koch, Enrique Mu\~noz, Alessandro Santoni(参考訳) 超低温中性子は、量子化状態の制御における重力相互作用を探求するための優れた実験ツールである。 理論的な観点からは、曲線時空におけるディラック方程式から、地球の重力場における中性子の波動関数の進化を支配する非相対論的シュリンガー方程式を体系的に導出する摂動スキームを適用した。 最も低い順序で、この手順は線形ニュートンポテンシャルに影響されるシュリンガー系を再現するが、曲率と相対論的効果の両方による補正が存在する。 ここでは、摂動拡大のさらなる一歩を踏み出すには、非常に注意が必要であると論じる。 形式的にはfoldy-wouthuysen変換とnewtonian $c^{-2}-$expansionの助けを借りて、非相対論的ハミルトニアンを一般の静的時空として導出する。 この枠組み内でフェルミ座標を用いることで、中性子のエネルギースペクトルに対する次から次への順序補正を計算する。 最後に、これらをqBOUNCEのような典型的な実験的な構成で評価し、超低温中性子の観測の現在の精度がまだ観測できないが、将来または他の状況においても関連性があることに注意する。

Ultracold neutrons are great experimental tools to explore the gravitational interaction in the regime of quantized states. From a theoretical perspective, starting from a Dirac equation in curved spacetime, we applied a perturbative scheme to systematically derive the non-relativistic Schr\"odinger equation that governs the evolution of the neutron's wave function in the Earth's gravitational field. At the lowest order, this procedure reproduces a Schr\"odinger system affected by a linear Newtonian potential, but corrections due to both curvature and relativistic effects are present. Here, we argue that one should be very careful when going one step further in the perturbative expansion. Proceeding methodically with the help of the Foldy-Wouthuysen transformation and a formal post-Newtonian $c^{-2}-$expansion, we derive the non-relativistic Hamiltonian for a generic static spacetime. By employing Fermi coordinates within this framework, we calculate the next-to-leading order corrections to the neutron's energy spectrum. Finally, we evaluate them for typical experimental configurations, such as that of qBOUNCE, and note that, while the current precision for observations of ultracold neutrons may not yet enable to probe them, they could still be relevant in the future or in alternative circumstances.
翻訳日:2024-01-03 18:04:37 公開日:2023-12-30
# 2次不確かさの定量化:変数に基づく対策

Second-Order Uncertainty Quantification: Variance-Based Measures ( http://arxiv.org/abs/2401.00276v1 )

ライセンス: Link先を確認
Yusuf Sale, Paul Hofman, Lisa Wimmer, Eyke H\"ullermeier, Thomas Nagler(参考訳) 不確実性定量化は機械学習モデルの重要な側面であり、予測の信頼性に関する重要な洞察を提供し、現実世界のアプリケーションにおける意思決定プロセスを支援する。 本稿では,分類問題における二階分布に基づく不確かさの定量化に分散に基づく新しい手法を提案する。 この尺度の特筆すべき特徴は、クラスベースのレベルで不確実性を判断する能力であり、不確実な意思決定が必要な状況において有用である。 文献からいくつかの特性を想起し、分散に基づく測度が重要な(軸的)性質を満たすことを強調する。 この公理的アプローチに加えて, 一般に使用されるエントロピーに基づく尺度に対して, 効果的かつ競争力のある尺度を示す実験結果を示す。

Uncertainty quantification is a critical aspect of machine learning models, providing important insights into the reliability of predictions and aiding the decision-making process in real-world applications. This paper proposes a novel way to use variance-based measures to quantify uncertainty on the basis of second-order distributions in classification problems. A distinctive feature of the measures is the ability to reason about uncertainties on a class-based level, which is useful in situations where nuanced decision-making is required. Recalling some properties from the literature, we highlight that the variance-based measures satisfy important (axiomatic) properties. In addition to this axiomatic approach, we present empirical results showing the measures to be effective and competitive to commonly used entropy-based measures.
翻訳日:2024-01-03 18:04:10 公開日:2023-12-30
# 3次元オープンMPIデータセットを用いたゼロショットデノイザを用いた磁気粒子イメージングのための$\ell^1$-Plug-and-Playアプローチ

An $\ell^1$-Plug-and-Play Approach for Magnetic Particle Imaging Using a Zero Shot Denoiser with Validation on the 3D Open MPI Dataset ( http://arxiv.org/abs/2401.00275v1 )

ライセンス: Link先を確認
Vladyslav Gapyak and Corinna Rentschler and Thomas M\"arz and Andreas Weinmann(参考訳) 磁気粒子イメージング(mpi)は、近年注目を集めている医用画像技術である。 MPIの利点の1つは、高時間分解能であり、この技術は試料をあらゆる種類の電離放射線に曝さないことである。 磁性ナノ粒子の磁場に対する非線形応答に基づいている。 受信コイルで測定された電気信号から、粒子濃度を再構成する必要がある。 復元問題の不備から、古典的チホノフ正則化や反復的手法から現代の機械学習アプローチに至るまで、早期停止方法から様々な正規化手法が提案されている。 本研究は後者のクラスに寄与する:$\ell^1$-priorの汎用ゼロショットデノイザに基づくプラグアンドプレイアプローチを提案する。 さらに,パラメータ選択戦略を開発する。 最後に,前処理レベルの異なる3次元オープンMPIデータセットに対して,提案手法を定量的に定性的に評価する。

Magnetic particle imaging (MPI) is an emerging medical imaging modality which has gained increasing interest in recent years. Among the benefits of MPI are its high temporal resolution, and that the technique does not expose the specimen to any kind of ionizing radiation. It is based on the non-linear response of magnetic nanoparticles to an applied magnetic field. From the electric signal measured in receive coils, the particle concentration has to be reconstructed. Due to the ill-posedness of the reconstruction problem, various regularization methods have been proposed for reconstruction ranging from early stopping methods, via classical Tikhonov regularization and iterative methods to modern machine learning approaches. In this work, we contribute to the latter class: we propose a plug-and-play approach based on a generic zero-shot denoiser with an $\ell^1$-prior. Moreover, we develop parameter selection strategies. Finally, we quantitatively and qualitatively evaluate the proposed algorithmic scheme on the 3D Open MPI data set with different levels of preprocessing.
翻訳日:2024-01-03 18:03:58 公開日:2023-12-30
# マンダリン英語コードスイッチングASRにおけるゼロショット一般化可能性の検討と自己スーパービジョンと弱スーパービジョンを用いた最近の基礎モデルの音声-テキスト翻訳

Investigating Zero-Shot Generalizability on Mandarin-English Code-Switched ASR and Speech-to-text Translation of Recent Foundation Models with Self-Supervision and Weak Supervision ( http://arxiv.org/abs/2401.00273v1 )

ライセンス: Link先を確認
Chih-Kai Yang, Kuan-Po Huang, Ke-Han Lu, Chun-Yi Kuan, Chi-Yuan Hsiao, Hung-yi Lee(参考訳) 本研究は、SamlessM4T、SeamlessM4T v2、Whisper-large-v3など、自己監督または弱監督に基づく最先端の大規模基盤モデルの評価を行った。 自己教師付きモデルは教師付きモデルに近い性能を達成でき、多言語による自己教師付き事前学習の有効性を示す。 また,これらのモデルには相変わらず類似の誤りを犯し続け,文内コードスイッチングのモデル化に不満足な性能を示した。 さらに、Whisperのいくつかの変種の有効性について検討し、コードスイッチングシナリオにおいて効果を保ち、自己教師型モデルの同様の手法がコードスイッチングタスクの性能向上に有用であると結論付けた。

This work evaluated several cutting-edge large-scale foundation models based on self-supervision or weak supervision, including SeamlessM4T, SeamlessM4T v2, and Whisper-large-v3, on three code-switched corpora. We found that self-supervised models can achieve performances close to the supervised model, indicating the effectiveness of multilingual self-supervised pre-training. We also observed that these models still have room for improvement as they kept making similar mistakes and had unsatisfactory performances on modeling intra-sentential code-switching. In addition, the validity of several variants of Whisper was explored, and we concluded that they remained effective in a code-switching scenario, and similar techniques for self-supervised models are worth studying to boost the performance of code-switched tasks.
翻訳日:2024-01-03 18:03:42 公開日:2023-12-30
# SHARE: 単一ビューの人間対人再構築

SHARE: Single-view Human Adversarial REconstruction ( http://arxiv.org/abs/2401.00343v1 )

ライセンス: Link先を確認
Shreelekha Revankar, Shijia Liao, Yu Shen, Junbang Liang, Huaishu Peng, Ming Lin(参考訳) 画像からの3次元人物姿勢・形状再構成(HPS)の精度は徐々に向上している。 しかし、すべての画像歪みに対してロバストな手法は知られていない。 カメラのポーズの変化による問題に対処するため,既存のHPS技術の堅牢性を高めるために,逆データ拡張を利用した新しい微調整手法であるSHAREを導入する。 我々は,HPS再建におけるカメラポーズの影響を包括的に分析する。 まず,多様なカメラ視点から体系的に捉えた大規模画像データセットを作成した。 次に,カメラポーズとhps品質の関係を特徴付ける連続関数として,カメラポーズと再構成誤差のマッピングを確立した。 この表現を生かして,本手法の新たなサンプリング手法である rome (regions of maximal error) を提案する。 SHARE フレームワークは,HMR,SPIN,PARE,CLIFF,ExPose の様々な単一ビュー HPS メソッドで一般化可能である。 以上の結果から,複数のカメラ位置から撮影した画像がベースライン性能を損なうことなく,シングルビューHPS技術における平均関節誤差の低減を図った。 多くの困難なケースにおいて、本手法は既存のモデルの性能を上回っており、実世界の多様なアプリケーションにおける実用的重要性を強調している。

The accuracy of 3D Human Pose and Shape reconstruction (HPS) from an image is progressively improving. Yet, no known method is robust across all image distortion. To address issues due to variations of camera poses, we introduce SHARE, a novel fine-tuning method that utilizes adversarial data augmentation to enhance the robustness of existing HPS techniques. We perform a comprehensive analysis on the impact of camera poses on HPS reconstruction outcomes. We first generated large-scale image datasets captured systematically from diverse camera perspectives. We then established a mapping between camera poses and reconstruction errors as a continuous function that characterizes the relationship between camera poses and HPS quality. Leveraging this representation, we introduce RoME (Regions of Maximal Error), a novel sampling technique for our adversarial fine-tuning method. The SHARE framework is generalizable across various single-view HPS methods and we demonstrate its performance on HMR, SPIN, PARE, CLIFF and ExPose. Our results illustrate a reduction in mean joint errors across single-view HPS techniques, for images captured from multiple camera positions without compromising their baseline performance. In many challenging cases, our method surpasses the performance of existing models, highlighting its practical significance for diverse real-world applications.
翻訳日:2024-01-03 17:55:48 公開日:2023-12-30
# 連想記憶のためのヘビー学習規則のベンチマーク

Benchmarking Hebbian learning rules for associative memory ( http://arxiv.org/abs/2401.00335v1 )

ライセンス: Link先を確認
Anders Lansner, Naresh B Ravichandran, Pawel Herman(参考訳) 連想メモリ(英: associative memory)またはコンテンツ対応メモリ(英: content addressable memory)は、コンピュータ科学や情報処理において重要な構成要素であり、認知科学や計算脳科学において重要な概念である。 多くの異なるニューラルネットワークアーキテクチャと学習規則が、パターン補完や競合、ノイズ低減、記憶能力といった重要な機能を調査しながら、脳の連想記憶をモデル化するために提案されている。 あまり調査されていないが重要な機能は、トレーニングセットがプロトタイプパターンを歪ませたパターンインスタンスからなるプロトタイプ抽出であり、トレーニングされたネットワークのタスクは、新しいインスタンスが与えられた正しいプロトタイプパターンをリコールすることである。 本稿では,連想記憶性能の異なる側面を特徴付け,記憶容量とプロトタイプ抽出に関する6つの学習ルールをベンチマークする。 ヘビアン可塑性を持つモデルのみを、[0,1]間隔の単位活性を持つ疎分散表現でのみ考える。 非モジュラーネットワークアーキテクチャとモジュラーネットワークアーキテクチャの両方を評価し,異なる種類のスパースなランダムなバイナリパターンセットでトレーニングおよびテストを行う際の性能を比較した。 共分散学習は、これらの条件下では頑健だが記憶能力が低いことを示し、ベイズ信頼伝播学習ルール(BCPNN)は1つを除く全てのケースにおいて優れたマージンを有し、試験された2番目のベストラーニングルールの3倍の合成スコアに達することを示した。

Associative memory or content addressable memory is an important component function in computer science and information processing and is a key concept in cognitive and computational brain science. Many different neural network architectures and learning rules have been proposed to model associative memory of the brain while investigating key functions like pattern completion and rivalry, noise reduction, and storage capacity. A less investigated but important function is prototype extraction where the training set comprises pattern instances generated by distorting prototype patterns and the task of the trained network is to recall the correct prototype pattern given a new instance. In this paper we characterize these different aspects of associative memory performance and benchmark six different learning rules on storage capacity and prototype extraction. We consider only models with Hebbian plasticity that operate on sparse distributed representations with unit activities in the interval [0,1]. We evaluate both non-modular and modular network architectures and compare performance when trained and tested on different kinds of sparse random binary pattern sets, including correlated ones. We show that covariance learning has a robust but low storage capacity under these conditions and that the Bayesian Confidence Propagation learning rule (BCPNN) is superior with a good margin in all cases except one, reaching a three times higher composite score than the second best learning rule tested.
翻訳日:2024-01-03 17:55:27 公開日:2023-12-30
# 逆行訓練と知識蒸留によるリーフ病の分類

Explainability-Driven Leaf Disease Classification using Adversarial Training and Knowledge Distillation ( http://arxiv.org/abs/2401.00334v1 )

ライセンス: Link先を確認
Sebastian-Vasile Echim, Iulian-Marius T\u{a}iatu, Dumitru-Clementin Cercel, Florin Pop(参考訳) 本研究は,植物葉病の分類に焦点をあて,逆行訓練,モデル説明可能性,モデル圧縮の3つの重要な側面を考察する。 モデルの敵攻撃に対する堅牢性は、敵の訓練によって強化され、脅威が存在する場合でも正確な分類が保証される。 説明可能性技術を活用することで、モデルの意思決定プロセスに対する洞察を得、信頼と透明性を改善します。 さらに,分類性能を維持しつつ計算効率を最適化するためのモデル圧縮手法を検討する。 本実験により,ベンチマークデータセット上でのロバスト性は,正規テストでは3%~20%,敵攻撃テストでは50%~70%の精度で,分類精度の値が決定される。 また, 学生モデルの計算効率は, 計算効率が15~25倍に向上し, より複雑なモデルの知識を抽出できることを実証した。

This work focuses on plant leaf disease classification and explores three crucial aspects: adversarial training, model explainability, and model compression. The models' robustness against adversarial attacks is enhanced through adversarial training, ensuring accurate classification even in the presence of threats. Leveraging explainability techniques, we gain insights into the model's decision-making process, improving trust and transparency. Additionally, we explore model compression techniques to optimize computational efficiency while maintaining classification performance. Through our experiments, we determine that on a benchmark dataset, the robustness can be the price of the classification accuracy with performance reductions of 3%-20% for regular tests and gains of 50%-70% for adversarial attack tests. We also demonstrate that a student model can be 15-25 times more computationally efficient for a slight performance reduction, distilling the knowledge of more complex models.
翻訳日:2024-01-03 17:55:00 公開日:2023-12-30
# 選好フィードバックによる2相オフライン深層強化学習の効率化

Efficient Two-Phase Offline Deep Reinforcement Learning from Preference Feedback ( http://arxiv.org/abs/2401.00330v1 )

ライセンス: Link先を確認
Yinglun Xu, Gagandeep Singh(参考訳) 本研究では,オフライン・プレファレンスに基づく強化学習問題を考える。 我々は、人間の嗜好から以前の強化学習でよく見られる2相学習アプローチに焦点を当てる。 オフラインpbrl設定に2段階学習を適用すると,学習ユーティリティモデルが難しすぎるため,学習エージェントが2段階学習時に最適化することが困難になる。 この課題を克服するために,アクションクリッピングによる行動規則化下での2段階学習手法を提案する。 その見識は、データセットでカバーされていない状態アクションは、限られた情報しか提供せず、第2の学習フェーズで問題の複雑さが増すことである。 本手法は,第2学習段階における状態行動を無視して高い学習効率を実現する。 我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。

In this work, we consider the offline preference-based reinforcement learning problem. We focus on the two-phase learning approach that is prevalent in previous reinforcement learning from human preference works. We find a challenge in applying two-phase learning in the offline PBRL setting that the learned utility model can be too hard for the learning agent to optimize during the second learning phase. To overcome the challenge, we propose a two-phasing learning approach under behavior regularization through action clipping. The insight is that the state-actions which are poorly covered by the dataset can only provide limited information and increase the complexity of the problem in the second learning phase. Our method ignores such state-actions during the second learning phase to achieve higher learning efficiency. We empirically verify that our method has high learning efficiency on a variety of datasets in robotic control environments.
翻訳日:2024-01-03 17:54:46 公開日:2023-12-30
# 分散機械学習トラフィックのバースト性について

On the Burstiness of Distributed Machine Learning Traffic ( http://arxiv.org/abs/2401.00329v1 )

ライセンス: Link先を確認
Natchanon Luangsomboon, Fahimeh Fazel, J\"org Liebeherr, Ashkan Sobhani, Shichao Guan, Xingjun Chu(参考訳) 機械学習モデル(ML)モデルの分散トレーニングによるトラフィックは、エンタープライズデータセンタにおけるトラフィック混在の大部分を占めています。 分散MLに取り組みながら、分散MLによって生成されたネットワークトラフィックはほとんど注目されていない。 テストベッドネットワーク上の測定値を用いて,ResNet-50ニューラルネットワークのトレーニングによって生じる交通特性を,その短期的バースト性に着目して検討する。 後者については、異なる時間スケールでトラフィックバーストネスを定量化するメトリクスを提案する。 分析の結果,分散MLトラフィックは短時間で非常に高いバースト性を示し,時間間隔5~msで60:1ピーク平均比を超えることがわかった。 トレーニングソフトウェアは、同一アプリケーション内の異なるソースからのバースト送信が混雑やパケットの損失をもたらすことのない方法で送信をオーケストレーションする。 複数のアプリケーションへの計測データの外挿は、渋滞とフロー制御アルゴリズムのための分散MLトラフィックの課題を浮き彫りにする。

Traffic from distributed training of machine learning (ML) models makes up a large and growing fraction of the traffic mix in enterprise data centers. While work on distributed ML abounds, the network traffic generated by distributed ML has received little attention. Using measurements on a testbed network, we investigate the traffic characteristics generated by the training of the ResNet-50 neural network with an emphasis on studying its short-term burstiness. For the latter we propose metrics that quantify traffic burstiness at different time scales. Our analysis reveals that distributed ML traffic exhibits a very high degree of burstiness on short time scales, exceeding a 60:1 peak-to-mean ratio on time intervals as long as 5~ms. We observe that training software orchestrates transmissions in such a way that burst transmissions from different sources within the same application do not result in congestion and packet losses. An extrapolation of the measurement data to multiple applications underscores the challenges of distributed ML traffic for congestion and flow control algorithms.
翻訳日:2024-01-03 17:54:30 公開日:2023-12-30
# 1次元advection-diffusion方程式を解くための2つの量子アルゴリズム

Two quantum algorithms for solving the one-dimensional advection-diffusion equation ( http://arxiv.org/abs/2401.00326v1 )

ライセンス: Link先を確認
Julia Ingelmann, Sachin S. Bharadwaj, Philipp Pfeffer, Katepalli R. Sreenivasan, J\"org Schumacher(参考訳) 2つの量子アルゴリズムが周期的境界条件を持つ線形一次元対流拡散方程式の数値解に対して提示される。 量子ビット数の増加に伴う精度と性能を、ポイントごとに比較する。 具体的には、harrow-hassidim--lloyd法と変分量子アルゴリズム(vqa)に基づく量子線形系アルゴリズム(qlsa)を用いて線形偏微分方程式を解き、最大6量子ビットで符号化できる。 両方のアルゴリズムはハイブリッドな性質、すなわち古典的および量子コンピューティングの構成要素の組み合わせを含んでいる。 QLSAとVQAはそれぞれ、社内ソルバQFlowSとオープンアクセスQiskitソフトウェアを用いて理想的な状態ベクトルシミュレーションとして解決される。 両ケースにおける性能向上に不可欠であるアルゴリズムのいくつかの側面について論じる。 これらは、QLSAの量子位相推定のための追加の量子レジスタのサイズと、VQAのコスト関数の最小化のアルゴリズムの選択である。 後者のアルゴリズムは、測定とデコヒーレンス回路ノイズを含むノイズの多いQiskitフレームワークにも実装されている。 我々は現在の限界を反映し、量子コンピュータ上の古典流体の数値シミュレーションのための今後の研究の道筋を提案する。

Two quantum algorithms are presented for the numerical solution of a linear one-dimensional advection-diffusion equation with periodic boundary conditions. Their accuracy and performance with increasing qubit number are compared point-by-point with each other. Specifically, we solve the linear partial differential equation with a Quantum Linear Systems Algorithms (QLSA) based on the Harrow--Hassidim--Lloyd method and a Variational Quantum Algorithm (VQA), for resolutions that can be encoded using up to 6 qubits, which corresponds to $N=64$ grid points on the unit interval. Both algorithms are of hybrid nature, i.e., they involve a combination of classical and quantum computing building blocks. The QLSA and VQA are solved as ideal statevector simulations using the in-house solver QFlowS and open-access Qiskit software, respectively. We discuss several aspects of both algorithms which are crucial for a successful performance in both cases. These are the sizes of an additional quantum register for the quantum phase estimation for the QLSA and the choice of the algorithm of the minimization of the cost function for the VQA. The latter algorithm is also implemented in the noisy Qiskit framework including measurement and decoherence circuit noise. We reflect the current limitations and suggest some possible routes of future research for the numerical simulation of classical fluid flows on a quantum computer.
翻訳日:2024-01-03 17:54:16 公開日:2023-12-30
# DXAI:画像分解による分類の説明

DXAI: Explaining Classification by Image Decomposition ( http://arxiv.org/abs/2401.00320v1 )

ライセンス: Link先を確認
Elnatan Kadar, Guy Gilboa(参考訳) 本稿では,分解型説明可能ai(dxai)を用いて,ニューラルネットワークの分類を可視化する新しい手法を提案する。 提案手法は, 説明ヒートマップを提供する代わりに, データや選択した分類器に関して, 画像のクラス別およびクラス別部分への分解を行う。 分析と合成の基本的な信号処理パラダイムに従って、元の画像は分解された部品の合計である。 したがって、分類を説明する方法が根本的に異なる。 クラス識別部は、クラス識別部が相補的なクラス情報を持たないすべての画像特徴から理想的に構成される。 この新たな視覚化は、特に属性が密度が高く、グローバルで、自然界において、例えば、クラス区別に色やテクスチャが不可欠である場合において、特定のシナリオにおいてより有用で有益なものになる。 コードはhttps://github.com/dxai2024/dxaiで入手できる。

We propose a new way to explain and to visualize neural network classification through a decomposition-based explainable AI (DXAI). Instead of providing an explanation heatmap, our method yields a decomposition of the image into class-agnostic and class-distinct parts, with respect to the data and chosen classifier. Following a fundamental signal processing paradigm of analysis and synthesis, the original image is the sum of the decomposed parts. We thus obtain a radically different way of explaining classification. The class-agnostic part ideally is composed of all image features which do not posses class information, where the class-distinct part is its complementary. This new visualization can be more helpful and informative in certain scenarios, especially when the attributes are dense, global and additive in nature, for instance, when colors or textures are essential for class distinction. Code is available at https://github.com/dxai2024/dxai.
翻訳日:2024-01-03 17:53:53 公開日:2023-12-30
# bidirectional temporal plan graph: より効率的なマルチエージェントパス発見計画実行のための切り替え可能なパスオーダの実現

Bidirectional Temporal Plan Graph: Enabling Switchable Passing Orders for More Efficient Multi-Agent Path Finding Plan Execution ( http://arxiv.org/abs/2401.00315v1 )

ライセンス: Link先を確認
Yifan Su, Rishi Veerapaneni, Jiaoyang Li(参考訳) マルチエージェントパス探索(mapf)問題は、共有環境で複数のエージェントの衝突のない経路を計画することである。 MAPFソルバの大多数は、エージェントが特定のタイミングで特定の場所に到着できるという仮定に依存している。 しかし、現実の実行の不確実性はエージェントをこの仮定から逸脱させ、衝突やデッドロックを引き起こす可能性がある。 先行研究は、エージェントが時間計画グラフ(tpg)に従い、mapfプランで定義されたすべての場所で一貫した通過順序を強制することでこの問題を解決する。 しかし,tpgが過度に厳しいのは,ある状況ではパス順序を満たすためにはエージェントが不必要に待つ必要があるため,実行時間が長くなるためである。 この問題を克服するために,双方向時間計画グラフ(bidirectional temporal plan graph, btpg)と呼ばれる新しいグラフィカル表現を導入する。 BTPGを最適化したBTPG-na\iveとBTPG-optimizedの2つのアルゴリズムを設計する。 実験の結果, BTPG は TPG に順調に優れ, 不要待ち時間が 8-20% 減少することがわかった。

The Multi-Agent Path Finding (MAPF) problem involves planning collision-free paths for multiple agents in a shared environment. The majority of MAPF solvers rely on the assumption that an agent can arrive at a specific location at a specific timestep. However, real-world execution uncertainties can cause agents to deviate from this assumption, leading to collisions and deadlocks. Prior research solves this problem by having agents follow a Temporal Plan Graph (TPG), enforcing a consistent passing order at every location as defined in the MAPF plan. However, we show that TPGs are overly strict because, in some circumstances, satisfying the passing order requires agents to wait unnecessarily, leading to longer execution time. To overcome this issue, we introduce a new graphical representation called a Bidirectional Temporal Plan Graph (BTPG), which allows switching passing orders during execution to avoid unnecessary waiting time. We design two anytime algorithms for constructing a BTPG: BTPG-na\"ive and BTPG-optimized. Experimental results show that following BTPGs consistently outperforms following TPGs, reducing unnecessary waits by 8-20%.
翻訳日:2024-01-03 17:53:38 公開日:2023-12-30
# GAN-GA:医用画像生成のための遺伝的アルゴリズムに基づく生成モデル

GAN-GA: A Generative Model based on Genetic Algorithm for Medical Image Generation ( http://arxiv.org/abs/2401.00314v1 )

ライセンス: Link先を確認
M. AbdulRazek, G. Khoriba and M. Belal(参考訳) 画像診断は疾患の診断と治療に必須のツールである。 しかし、医用画像の欠如は、不正確な診断と非効率な治療につながる可能性がある。 生成モデルは、既存のデータセットから新しいデータを生成し、このデータの異常を検出する能力のため、医療画像不足問題に対処するための有望なソリューションを提供する。 スケーリング、クロッピング、フリップ、パディング、ローテーション、翻訳といった位置拡張手法によるデータ拡張は、医療画像データなどのデータが少ない領域において、より過剰にフィットする可能性がある。 本稿では遺伝的アルゴリズムを組み込んだ生成モデルであるGAN-GAを提案する。 提案モデルは特徴を維持しつつ画像の忠実性と多様性を高める。 提案する医用画像合成手法は,画像解釈の重要な側面である医用画像の品質と忠実性を向上させる。 合成画像を評価するには、Frechet Inception Distance(FID)を用いる。 提案したGAN-GAモデルは、急性リンパ性白血病(ALL)医療画像、画像データセットを生成してテストされ、生成モデルで使用されるのは初めてである。 その結果をベースラインモデルとしてInfoGANと比較した。 実験結果から,提案した最適化GAN-GAはFIDスコアを約6.8\%向上させることがわかった。 ソースコードとデータセットは、https://github.com/Mustafa-AbdulRazek/InfoGAN-GAで提供される。

Medical imaging is an essential tool for diagnosing and treating diseases. However, lacking medical images can lead to inaccurate diagnoses and ineffective treatments. Generative models offer a promising solution for addressing medical image shortage problems due to their ability to generate new data from existing datasets and detect anomalies in this data. Data augmentation with position augmentation methods like scaling, cropping, flipping, padding, rotation, and translation could lead to more overfitting in domains with little data, such as medical image data. This paper proposes the GAN-GA, a generative model optimized by embedding a genetic algorithm. The proposed model enhances image fidelity and diversity while preserving distinctive features. The proposed medical image synthesis approach improves the quality and fidelity of medical images, an essential aspect of image interpretation. To evaluate synthesized images: Frechet Inception Distance (FID) is used. The proposed GAN-GA model is tested by generating Acute lymphoblastic leukemia (ALL) medical images, an image dataset, and is the first time to be used in generative models. Our results were compared to those of InfoGAN as a baseline model. The experimental results show that the proposed optimized GAN-GA enhances FID scores by about 6.8\%, especially in earlier training epochs. The source code and dataset will be available at: https://github.com/Mustafa-AbdulRazek/InfoGAN-GA.
翻訳日:2024-01-03 17:53:17 公開日:2023-12-30
# 分割型市場におけるユーザとクリエーターのマッチング

Matching of Users and Creators in Two-Sided Markets with Departures ( http://arxiv.org/abs/2401.00313v1 )

ライセンス: Link先を確認
Daniel Huttenlocher, Hannah Li, Liang Lyu, Asuman Ozdaglar and James Siderius(参考訳) ソーシャルメディアサイトを含む今日の多くのオンラインプラットフォームは、コンテンツクリエーターとユーザーを橋渡しする二面市場だ。 プラットフォームレコメンデーションアルゴリズムに関する既存の文献のほとんどは、ユーザの好みと意思決定に重点を置いており、クリエーターのインセンティブを同時に扱うものではない。 コンテンツレコメンデーションのモデルでは,ユーザとクリエーターの双方が十分なエンゲージメントを得られなければ,プラットフォームを永久に離脱できるという新たな性質から,ユーザとコンテンツのマッチングのダイナミクスを明示的に重視する。 私たちのモデルでは、各プレイヤーは、現在のマッチから派生したユーティリティに基づいて各タイムステップに参加することを決定します。 著者の離脱を考慮しないユーザ中心の欲望アルゴリズムは,2面離脱を考慮しながら総エンゲージメントを最大化するアルゴリズムと比較して,任意に総エンゲージメントを低下させる可能性がある。 さらに,ユーザのみ,あるいはクリエーターのみがプラットフォームを離れる場合とは対照的に,任意の定数係数内で最大総エンゲージメントを近似する2面離脱がnpハードであることを証明する。 本稿では,ユーザの好みを軽度に仮定して性能保証を行う2つの実用的なアルゴリズムを提案する。

Many online platforms of today, including social media sites, are two-sided markets bridging content creators and users. Most of the existing literature on platform recommendation algorithms largely focuses on user preferences and decisions, and does not simultaneously address creator incentives. We propose a model of content recommendation that explicitly focuses on the dynamics of user-content matching, with the novel property that both users and creators may leave the platform permanently if they do not experience sufficient engagement. In our model, each player decides to participate at each time step based on utilities derived from the current match: users based on alignment of the recommended content with their preferences, and creators based on their audience size. We show that a user-centric greedy algorithm that does not consider creator departures can result in arbitrarily poor total engagement, relative to an algorithm that maximizes total engagement while accounting for two-sided departures. Moreover, in stark contrast to the case where only users or only creators leave the platform, we prove that with two-sided departures, approximating maximum total engagement within any constant factor is NP-hard. We present two practical algorithms, one with performance guarantees under mild assumptions on user preferences, and another that tends to outperform algorithms that ignore two-sided departures in practice.
翻訳日:2024-01-03 17:52:54 公開日:2023-12-30
# 動的量子制御のロバスト性:差分感度境界

Robustness of Dynamic Quantum Control: Differential Sensitivity Bound ( http://arxiv.org/abs/2401.00301v1 )

ライセンス: Link先を確認
S. P. O'Neil, C. A. Weidner, E. A. Jonckheere, F. C. Langbein and S. G. Schirmer(参考訳) 最適化されたピースワイズ・コンスタントパルスによる動的制御は、量子ゲートを実装するためのオープンループ制御の一般的なパラダイムである。 このような制御の合成には多くの方法が存在するが、モデルの不確実性が存在する場合に得られる制御スキームの堅牢性に関する多くの疑問がある。 本稿では,パラメトリックな不確実性に対するゲート忠実度誤差の差分感度に基づく新しいロバストネス尺度を導入し,パラメトリックな不確実性に対する差分感度のバウンダリを用いて,様々な量子ゲートタイプ,システムサイズ,制御実装に対する最適制御器の性能保証を確立する。 具体的には、与えられた忠実性誤差を保証するハミルトンの不確かさの集合に対する最大許容摂動が確実に計算できることを示す。 このロバスト性の尺度は、名目操作条件下で評価された忠実度誤差の差分感度の上限値に逆比例する。 以上の結果から,高信頼度制御体制においては,高信頼度と高信頼度とのトレードオフが生じるのではなく,高信頼度制御体制においては,パラメトリック不確実性の存在下での制御のロバスト性の増加と高い名目ゲート忠実度が正に相関していることが示唆された。

Dynamic control via optimized, piecewise-constant pulses is a common paradigm for open-loop control to implement quantum gates. While numerous methods exist for the synthesis of such controls, there are many open questions regarding the robustness of the resulting control schemes in the presence of model uncertainty; unlike in classical control, there are generally no analytical guarantees on the control performance with respect to inexact modeling of the system. In this paper a new robustness measure based on the differential sensitivity of the gate fidelity error to parametric (structured) uncertainties is introduced, and bounds on the differential sensitivity to parametric uncertainties are used to establish performance guarantees for optimal controllers for a variety of quantum gate types, system sizes, and control implementations. Specifically, it is shown how a maximum allowable perturbation over a set of Hamiltonian uncertainties that guarantees a given fidelity error, can be reliably computed. This measure of robustness is inversely proportional to the upper bound on the differential sensitivity of the fidelity error evaluated under nominal operating conditions. Finally, the results show that the nominal fidelity error and differential sensitivity upper bound are positively correlated across a wide range of problems and control implementations, suggesting that in the high-fidelity control regime, rather than there being a trade-off between fidelity and robustness, higher nominal gate fidelities are positively correlated with increased robustness of the controls in the presence of parametric uncertainties.
翻訳日:2024-01-03 17:52:11 公開日:2023-12-30
# コンテンツ一貫性超解法における拡散モデルの安定性向上

Improving the Stability of Diffusion Models for Content Consistent Super-Resolution ( http://arxiv.org/abs/2401.00877v1 )

ライセンス: Link先を確認
Lingchen Sun, Rongyuan Wu, Zhengqiang Zhang, Hongwei Yong, Lei Zhang(参考訳) 事前学習された潜在拡散モデルの生成先行は、画像超解像(SR)結果の知覚的品質を高める大きな可能性を示している。 残念ながら、既存の拡散前のSR法は共通の問題に遭遇し、ノイズサンプルが異なる同じ低解像度画像に対してかなり異なる出力を生成する傾向にある。 このような確率性は、テキストから画像生成タスクには望ましいが、画像内容がよく保存されるSRタスクには問題がある。 拡散優先型srの安定性を向上させるために,画像構造の精巧化に拡散モデルを用い,画像の細部化のために生成的逆行訓練を施す。 具体的には,画像主構造を再現するための高い効率と安定性を有するコンパクト拡散ネットワークを訓練する非一様時間ステップ学習戦略を提案し,詳細化のための逆訓練により,可変オートエンコーダ(vae)のプリトレーニングデコーダを微調整する。 広汎な実験により,提案手法,すなわちコンテント一貫性超解像 (CCSR) は,拡散前のSRの確率性を著しく低減し,SR出力のコンテント一貫性を改善し,画像生成過程を高速化することを示した。 コードとモデルは {https://github.com/csslc/CCSR} で見ることができる。

The generative priors of pre-trained latent diffusion models have demonstrated great potential to enhance the perceptual quality of image super-resolution (SR) results. Unfortunately, the existing diffusion prior-based SR methods encounter a common problem, i.e., they tend to generate rather different outputs for the same low-resolution image with different noise samples. Such stochasticity is desired for text-to-image generation tasks but problematic for SR tasks, where the image contents are expected to be well preserved. To improve the stability of diffusion prior-based SR, we propose to employ the diffusion models to refine image structures, while employing the generative adversarial training to enhance image fine details. Specifically, we propose a non-uniform timestep learning strategy to train a compact diffusion network, which has high efficiency and stability to reproduce the image main structures, and finetune the pre-trained decoder of variational auto-encoder (VAE) by adversarial training for detail enhancement. Extensive experiments show that our proposed method, namely content consistent super-resolution (CCSR), can significantly reduce the stochasticity of diffusion prior-based SR, improving the content consistency of SR outputs and speeding up the image generation process. Codes and models can be found at {https://github.com/csslc/CCSR}.
翻訳日:2024-01-03 15:39:16 公開日:2023-12-30
# 脳疾患検出のためのバランスグラフ構造情報

Balanced Graph Structure Information for Brain Disease Detection ( http://arxiv.org/abs/2401.00876v1 )

ライセンス: Link先を確認
Falih Gozi Febrinanto, Mujie Liu, Feng Xia(参考訳) 関心の脳領域(ROI)間の関係を分析することは、自閉症や統合失調症などの神経疾患を検出するのに不可欠である。 最近の進歩では、グラフニューラルネットワーク(GNN)を使用して、脳内のグラフ構造を活用し、検出性能を改善している。 現在の方法では、ROIの血液酸素レベル依存(BOLD)信号間の相関測定を用いてグラフ構造を生成する。 他の方法はトレーニングサンプルを使用して、エンドツーエンドの学習を通じて最適なグラフ構造を学ぶ。 しかし、これらの手法を独立に実装すると、相関グラフのノイズの多いデータや最適なグラフの過度に適合する問題が発生する。 本研究では,グラフ畳み込みネットワーク(GCN)を用いた相関行列と最適なサンプルグラフの2つのグラフ構造をモデル化したBargrain(脳のバランスグラフ構造)を提案する。 このアプローチは、両方のグラフから利点を得、単一のタイプの構造にのみ依存する制限に対処することを目的としています。 我々の広範な実験に基づいて,bargrainは,平均f1スコアで測定した脳疾患データセットの分類タスクにおいて,最先端の手法よりも優れています。

Analyzing connections between brain regions of interest (ROI) is vital to detect neurological disorders such as autism or schizophrenia. Recent advancements employ graph neural networks (GNNs) to utilize graph structures in brains, improving detection performances. Current methods use correlation measures between ROI's blood-oxygen-level-dependent (BOLD) signals to generate the graph structure. Other methods use the training samples to learn the optimal graph structure through end-to-end learning. However, implementing those methods independently leads to some issues with noisy data for the correlation graphs and overfitting problems for the optimal graph. In this work, we proposed Bargrain (balanced graph structure for brains), which models two graph structures: filtered correlation matrix and optimal sample graph using graph convolution networks (GCNs). This approach aims to get advantages from both graphs and address the limitations of only relying on a single type of structure. Based on our extensive experiment, Bargrain outperforms state-of-the-art methods in classification tasks on brain disease datasets, as measured by average F1 scores.
翻訳日:2024-01-03 15:38:52 公開日:2023-12-30
# 不均衡二極性フェルミオン超流動の熱的効果

Thermal effects in an imbalanced dipolar fermionic superfluid ( http://arxiv.org/abs/2401.00874v1 )

ライセンス: Link先を確認
Subhanka Mal, Hiranmaya Mishra, Prasanta K. Panigrahi, Bimalendu Deb(参考訳) 非平衡超流動原子フェルミガスの温度効果について検討した。 二成分二極性フェルミオン原子の2層構造を1つの成分の原子を含む1層と2つの成分の集団間に不均衡な他の成分の原子を含む2層とみなす。 この不均衡は、相分離されたBCS、Fulde-Ferrel-Larkin-Ovchinnikov (FFLO)、Sarmaおよび通常のフェルミ液相のような均一で不均一な超流動相をもたらす。 平均場 BCS 理論と超流動質量密度基準を用いて、熱力学相図において異なる位相を分類する。 両極性フェルミ系では,サーマ相は臨界温度以下の有限温度において大きな不均衡に対して安定であり,FFLO相はBCS-BCEクロスオーバーのBCS側の中間不均衡に対して安定であることを示す。 温度と人口不均衡面の位相図は、BCS、FFLO、通常のフェルミ液相の共存に対応する3つのリフシッツ点を示し、残りの2つは、双極子相互作用のためのサルマ相、FFLO相、正常フェルミ相の共存に対応する。

We investigate the temperature effects in an imbalanced superfluid atomic Fermi gas. We consider a bilayer system of two-component dipolar fermionic atoms with one layer containing atoms of one component and the other layer the atoms of other component with an imbalance between the populations of the two components. This imbalance results in uniform and nonuniform superfluid phases such as phase-separated BCS, Fulde-Ferrel-Larkin-Ovchinnikov (FFLO), Sarma and normal Fermi liquid phases for different system parameters. Using the mean-field BCS theory together with the superfluid mass-density criterion we classify different phases in thermodynamic phase diagram. Our results indicate that for a dipolar Fermi system the Sarma phase is stable for large imbalance at finite temperature below the critical temperature, and the FFLO phase is stable for intermediate imbalance on the BCS side of a BCS-BCE crossover. The phase diagram in the temperature and population imbalance plane indicate three Lifshitz points: one corresponding to coexistance of BCS, FFLO and normal Fermi liquid phase while the other two correspond to the coexistance of the Sarma phase, FFLO phase and normal Fermi phase for dipolar interactions.
翻訳日:2024-01-03 15:38:33 公開日:2023-12-30
# 自己スーパービジョンクラスタリングとエネルギーベースモデルのベイズ統合

A Bayesian Unification of Self-Supervised Clustering and Energy-Based Models ( http://arxiv.org/abs/2401.00873v1 )

ライセンス: Link先を確認
Emanuele Sansone and Robin Manhaeve(参考訳) 自己教師付き学習は、大量のラベルのないデータを活用するための一般的かつ強力な手法であり、文献に様々な訓練目的が提案されている。 本研究では,最先端の自己教師型学習目標のベイズ解析を行い,各クラスの基本となる確率的グラフィカルモデルを解明し,第一原理から導出するための標準化された方法論を提案する。 分析はまた、確率に基づく生成モデルと自己教師付き学習を統合する自然な方法を示している。 我々は、クラスタベースの自己教師型学習とエネルギーモデルの範囲内でこの概念をインスタンス化し、最も重要な障害モードを確実に罰する新しい下位境界を導入する。 さらに、新たに提案された下界は、停止勾配や運動量エンコーダ、あるいは特殊なクラスタリング層といった非対称な要素を必要とせずに、標準的なバックボーンアーキテクチャのトレーニングを可能にする。 SVHN, CIFAR10, CIFAR100などの合成および実世界のデータを用いた実験により, 目的関数がクラスタリング, 生成, アウト・オブ・ディストリビューション検出性能において, 既存の自己教師あり学習戦略より優れていることを示す。 また,GEDIをニューラルシンボリック・フレームワークに統合することで,推論のショートカット問題を緩和し,分類性能の向上により高品質なシンボル表現を学習できることを実証した。

Self-supervised learning is a popular and powerful method for utilizing large amounts of unlabeled data, for which a wide variety of training objectives have been proposed in the literature. In this study, we perform a Bayesian analysis of state-of-the-art self-supervised learning objectives, elucidating the underlying probabilistic graphical models in each class and presenting a standardized methodology for their derivation from first principles. The analysis also indicates a natural means of integrating self-supervised learning with likelihood-based generative models. We instantiate this concept within the realm of cluster-based self-supervised learning and energy models, introducing a novel lower bound which is proven to reliably penalize the most important failure modes. Furthermore, this newly proposed lower bound enables the training of a standard backbone architecture without the necessity for asymmetric elements such as stop gradients, momentum encoders, or specialized clustering layers - typically introduced to avoid learning trivial solutions. Our theoretical findings are substantiated through experiments on synthetic and real-world data, including SVHN, CIFAR10, and CIFAR100, thus showing that our objective function allows to outperform existing self-supervised learning strategies in terms of clustering, generation and out-of-distribution detection performance by a wide margin. We also demonstrate that GEDI can be integrated into a neural-symbolic framework to mitigate the reasoning shortcut problem and to learn higher quality symbolic representations thanks to the enhanced classification performance.
翻訳日:2024-01-03 15:38:07 公開日:2023-12-30
# PlanarNeRF: ニューラルネットワークを用いた平面原始体のオンライン学習

PlanarNeRF: Online Learning of Planar Primitives with Neural Radiance Fields ( http://arxiv.org/abs/2401.00871v1 )

ライセンス: Link先を確認
Zheng Chen, Qingan Yan, Huangying Zhan, Changjiang Cai, Xiangyu Xu, Yuzhong Huang, Weihan Wang, Ziyue Feng, Lantao Liu, Yi Xu(参考訳) 空間的に完全な平面プリミティブを視覚データから同定することはコンピュータビジョンにおいて重要な課題である。 従来の手法は主に2Dセグメントのリカバリや3D構造の簡略化に制限されている。 オンライン学習を通して高密度3次元平面を検出する新しいフレームワークPlanarNeRFを提案する。 ニューラルネットワークの表現に基づいて、PlanarNeRFには3つの大きなコントリビューションがある。 まず、外見と幾何学的知識を兼ね備えた3次元平面検出を強化する。 次に, 平面パラメータを推定するために, 軽量平面フィッティングモジュールを提案する。 第3に、更新機構を備えた新しいグローバルメモリバンク構造を導入し、一貫したクロスフレーム対応を確保する。 PlanarNeRFの柔軟なアーキテクチャにより、2D制御と自己制御の両方のソリューションで機能し、それぞれがスパーストレーニング信号から効果的に学習し、トレーニング効率を大幅に向上する。 様々なシナリオにおいてPlanarNeRFの有効性を実証し,既存の作業よりも顕著に改善した。

Identifying spatially complete planar primitives from visual data is a crucial task in computer vision. Prior methods are largely restricted to either 2D segment recovery or simplifying 3D structures, even with extensive plane annotations. We present PlanarNeRF, a novel framework capable of detecting dense 3D planes through online learning. Drawing upon the neural field representation, PlanarNeRF brings three major contributions. First, it enhances 3D plane detection with concurrent appearance and geometry knowledge. Second, a lightweight plane fitting module is proposed to estimate plane parameters. Third, a novel global memory bank structure with an update mechanism is introduced, ensuring consistent cross-frame correspondence. The flexible architecture of PlanarNeRF allows it to function in both 2D-supervised and self-supervised solutions, in each of which it can effectively learn from sparse training signals, significantly improving training efficiency. Through extensive experiments, we demonstrate the effectiveness of PlanarNeRF in various scenarios and remarkable improvement over existing works.
翻訳日:2024-01-03 15:37:38 公開日:2023-12-30
# 大きな言語モデルにプライバシーを忘れるように教える

Teach Large Language Models to Forget Privacy ( http://arxiv.org/abs/2401.00870v1 )

ライセンス: Link先を確認
Ran Yan, Yujun Li, Wenqian Li, Peihua Mai, Yan Pang, and Yinchuan Li(参考訳) 大きな言語モデル(LLM)は強力であることが証明されているが、プライバシリークのリスクは依然として重大な懸念である。 ディファレンシャルプライバシや準同型暗号化といった従来のプライバシ保護手法は、ブラックボックスのapiのみの設定では不十分であり、モデルの透明性と重い計算リソースを要求する。 我々は,llmローカルプライバシ問題に取り組むための最初のフレームワークであるprompt2forget (p2f)を提案する。 この方法は、完全な質問を小さなセグメントに分解し、作成された回答を生成し、モデルのオリジナルの入力のメモリを隠蔽する。 ベンチマークデータセットには、さまざまな分野のプライバシーに敏感な情報を含む質問が含まれている。 P2Fはゼロショットの一般化を実現し、手動調整なしで広範囲のユースケースに適応可能である。 実験結果から, P2F は LLM のメモリを難読化でき, 約90% % の忘れやすさを達成できた。 これは、naive direct instruction techniqueと対照的に最大63\%の強化を示し、llm内の機密情報のメモリ保持を緩和するp2fの有効性を強調している。 本研究は,LLM忘れタスクの新たな分野において,新たなLLMドメインにおけるプライバシ保護の有意義な進歩を示す最初のベンチマークを確立した。

Large Language Models (LLMs) have proven powerful, but the risk of privacy leakage remains a significant concern. Traditional privacy-preserving methods, such as Differential Privacy and Homomorphic Encryption, are inadequate for black-box API-only settings, demanding either model transparency or heavy computational resources. We propose Prompt2Forget (P2F), the first framework designed to tackle the LLM local privacy challenge by teaching LLM to forget. The method involves decomposing full questions into smaller segments, generating fabricated answers, and obfuscating the model's memory of the original input. A benchmark dataset was crafted with questions containing privacy-sensitive information from diverse fields. P2F achieves zero-shot generalization, allowing adaptability across a wide range of use cases without manual adjustments. Experimental results indicate P2F's robust capability to obfuscate LLM's memory, attaining a forgetfulness score of around 90\% without any utility loss. This represents an enhancement of up to 63\% when contrasted with the naive direct instruction technique, highlighting P2F's efficacy in mitigating memory retention of sensitive information within LLMs. Our findings establish the first benchmark in the novel field of the LLM forgetting task, representing a meaningful advancement in privacy preservation in the emerging LLM domain.
翻訳日:2024-01-03 15:37:23 公開日:2023-12-30
# FlashVideo: テキスト対ビデオ生成におけるSwift推論フレームワーク

FlashVideo: A Framework for Swift Inference in Text-to-Video Generation ( http://arxiv.org/abs/2401.00869v1 )

ライセンス: Link先を確認
Bin Lei, le Chen, Caiwen Ding(参考訳) 進化する機械学習の分野において、ビデオ生成は、動的かつ現実的なシーンを合成することで知られる自己回帰に基づくトランスフォーマーモデルと拡散モデルで大きな進歩を遂げている。 しかし、これらのモデルは、GIFのような短いビデオクリップを生成する場合でも、長い推論時間で困難に直面することが多い。 本稿では,swift テキスト対ビデオ生成のための新しいフレームワーク flashvideo を紹介する。 FlashVideoは、ビデオ生成のためのRetNetアーキテクチャの最初の成功例であり、フィールドにユニークなアプローチをもたらす。 RetNetベースのアーキテクチャを活用すると、FlashVideoは推論の時間的複雑さを$\mathcal{O}(L^2)$から$\mathcal{O}(L)$に減らし、推論速度を大幅に加速する。 さらに,フレーム補間効率を向上させるために,冗長なフレーム補間手法を採用する。 包括的な実験により、FlashVideoは従来の自己回帰型トランスモデルよりも$\times9.17$の効率向上を実現しており、推論速度はBERTベースのトランスモデルと同じ桁であることが示された。

In the evolving field of machine learning, video generation has witnessed significant advancements with autoregressive-based transformer models and diffusion models, known for synthesizing dynamic and realistic scenes. However, these models often face challenges with prolonged inference times, even for generating short video clips such as GIFs. This paper introduces FlashVideo, a novel framework tailored for swift Text-to-Video generation. FlashVideo represents the first successful adaptation of the RetNet architecture for video generation, bringing a unique approach to the field. Leveraging the RetNet-based architecture, FlashVideo reduces the time complexity of inference from $\mathcal{O}(L^2)$ to $\mathcal{O}(L)$ for a sequence of length $L$, significantly accelerating inference speed. Additionally, we adopt a redundant-free frame interpolation method, enhancing the efficiency of frame interpolation. Our comprehensive experiments demonstrate that FlashVideo achieves a $\times9.17$ efficiency improvement over a traditional autoregressive-based transformer model, and its inference speed is of the same order of magnitude as that of BERT-based transformer models.
翻訳日:2024-01-03 15:37:00 公開日:2023-12-30
# Egocentric Stereo Videoによる3D人物認識

3D Human Pose Perception from Egocentric Stereo Videos ( http://arxiv.org/abs/2401.00889v1 )

ライセンス: Link先を確認
Hiroyasu Akada, Jian Wang, Vladislav Golyanik, Christian Theobalt(参考訳) ヘッドマウントデバイスはコンパクトになりつつあるが、エゴセントリックなビューを提供し、デバイスユーザの大きな自己排他性を提供する。 したがって、既存の手法では、エゴセントリックな視点から複雑な3dポーズを正確に推定できないことが多い。 本研究では,エゴセントリックステレオビデオのシーン情報と時間的文脈を活用し,エゴセントリックステレオ3次元ポーズ推定を改善するためのトランスフォーマフレームワークを提案する。 具体的には 1)エゴセントリックステレオフレームの窓を均一にサンプリングした3次元シーン復元モジュールの奥行き特徴,および 2)ビデオ入力の時間的特徴によって強化されたヒト関節クエリ。 本手法では, しゃがんだり座ったりしても, 人間のポーズを正確に推定することができる。 さらに,2つのベンチマークデータセット,すなわちunrealego2とunrealego-rw(realworld)を導入する。 提案したデータセットは、既存のデータセットよりも幅広い人間の動きを持つエゴセントリックなステレオビューをはるかに多く提供し、既存のメソッドと今後のメソッドの包括的な評価を可能にする。 広範な実験により,提案手法が従来の手法を大きく上回ることが示された。 私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。

While head-mounted devices are becoming more compact, they provide egocentric views with significant self-occlusions of the device user. Hence, existing methods often fail to accurately estimate complex 3D poses from egocentric views. In this work, we propose a new transformer-based framework to improve egocentric stereo 3D human pose estimation, which leverages the scene information and temporal context of egocentric stereo videos. Specifically, we utilize 1) depth features from our 3D scene reconstruction module with uniformly sampled windows of egocentric stereo frames, and 2) human joint queries enhanced by temporal features of the video inputs. Our method is able to accurately estimate human poses even in challenging scenarios, such as crouching and sitting. Furthermore, we introduce two new benchmark datasets, i.e., UnrealEgo2 and UnrealEgo-RW (RealWorld). The proposed datasets offer a much larger number of egocentric stereo views with a wider variety of human motions than the existing datasets, allowing comprehensive evaluation of existing and upcoming methods. Our extensive experiments show that the proposed approach significantly outperforms previous methods. We will release UnrealEgo2, UnrealEgo-RW, and trained models on our project page.
翻訳日:2024-01-03 15:19:55 公開日:2023-12-30
# 貯水池コンピュータによるトラクターリコンストラクション:貯水池の条件付きリアプノフ指数が忠実なトラクターリコンストラクションに及ぼす影響

Attractor reconstruction with reservoir computers: The effect of the reservoir's conditional Lyapunov exponents on faithful attractor reconstruction ( http://arxiv.org/abs/2401.00885v1 )

ライセンス: Link先を確認
Joseph D. Hart(参考訳) 貯水池コンピューティングは、訓練された力学系のフラクタル次元やライプノフスペクトル全体を含むカオス的アトラクタを再現できることが示されている機械学習技術である。 学習段階における駆動型リザーバコンピュータの一般化同期ダイナミクスと,アトラクタ再構築タスクにおける自律型リザーバコンピュータの性能を定量的に関連付ける。 その結果, 誘導型貯水池におけるリアプノフ指数は, 真のシステムにおいて最も小さい(最も負の)リャプノフ指数よりも有意に小さい(より負の)ことが示唆された。 その結果,貯水池の最大条件ライプノフ指数は貯水池隣接行列のスペクトル半径に大きく依存することがわかった。 我々の議論は、よく知られたカオスシステムの数値例によって裏付けられている。

Reservoir computing is a machine learning technique which has been shown to be able to replicate the chaotic attractor, including the fractal dimension and the entire Lyapunov spectrum, of the dynamical system on which it is trained. We quantitatively relate the generalized synchronization dynamics of a driven reservoir computer during the training stage to the performance of the autonomous reservoir computer at the attractor reconstruction task. We show that, for successful attractor reconstruction and Lyapunov exponent estimation, the largest conditional Lyapunov exponent of the driven reservoir must be significantly smaller (more negative) than the smallest (most negative) Lyapunov exponent of the true system. We find that the maximal conditional Lyapunov exponent of the reservoir depends strongly on the spectral radius of the reservoir adjacency matrix, and therefore, for attractor reconstruction and Lyapunov exponent estimation, small spectral radius reservoir computers perform better in general. Our arguments are supported by numerical examples on well-known chaotic systems.
翻訳日:2024-01-03 15:19:38 公開日:2023-12-30
# オートエンコーダによる白血病診断の自動化 : 比較研究

Automating Leukemia Diagnosis with Autoencoders: A Comparative Study ( http://arxiv.org/abs/2401.00883v1 )

ライセンス: Link先を確認
Minoo Sayyadpour, Nasibe Moghaddamniya, Touraj Banirostam(参考訳) 白血病はヒトの生命を脅かす最も一般的で致命的ながんの1つである。 患者の重要なパラメータから得られた医療データは、これらのデータの中に隠された貴重な情報を含んでいる。 このテーマでは、この情報を深層学習で抽出することができる。 本稿では,AutoEncoderを用いて,白血病の診断精度を高めるための有用な機能を開発した。 AutoEncoderで使用する最適なアクティベーション関数とオプティマイザを取得し、このニューラルネットワークに最適なアーキテクチャを設計することが試みられている。 提案されたアーキテクチャは、この分野の古典的機械学習モデルと比較される。 提案手法は他の機械学習よりも精度が良く,f1-scoreメトリクスは11%以上向上した。

Leukemia is one of the most common and death-threatening types of cancer that threaten human life. Medical data from some of the patient's critical parameters contain valuable information hidden among these data. On this subject, deep learning can be used to extract this information. In this paper, AutoEncoders have been used to develop valuable features to help the precision of leukemia diagnosis. It has been attempted to get the best activation function and optimizer to use in AutoEncoder and designed the best architecture for this neural network. The proposed architecture is compared with this area's classical machine learning models. Our proposed method performs better than other machine learning in precision and f1-score metrics by more than 11%.
翻訳日:2024-01-03 15:19:18 公開日:2023-12-30
# ロボットの高レベル推論と実行のギャップを埋める

Towards Bridging the Gap between High-Level Reasoning and Execution on Robots ( http://arxiv.org/abs/2401.00880v1 )

ライセンス: Link先を確認
Till Hofmann(参考訳) 例えば、タスク計画やgologによるエージェントプログラミングによってアクションを推論する場合、ロボットのアクションは抽象レベルでモデル化され、オブジェクトを拾うといった複雑なアクションは決定論的効果と現在の状態のみに依存する前提条件を持つ原子プリミティブとして扱われる。 しかし、そのような動作をロボットで実行する場合、もはやプリミティブと見なすことはできない。 その代わり、アクション実行は、追加の時間的前提条件とタイミング制約を伴う複数のステップを含む複雑なタスクである。 さらに、アクションは、例えば誤検知結果を生成するなど、ノイズがあり、常に望ましい効果を持つとは限らない。 これらの側面は一般的に推論タスクでは無視されるが、実行時に対処する必要がある。 本稿では,このギャップを埋めるためのいくつかのアプローチを提案する。

When reasoning about actions, e.g., by means of task planning or agent programming with Golog, the robot's actions are typically modeled on an abstract level, where complex actions such as picking up an object are treated as atomic primitives with deterministic effects and preconditions that only depend on the current state. However, when executing such an action on a robot it can no longer be seen as a primitive. Instead, action execution is a complex task involving multiple steps with additional temporal preconditions and timing constraints. Furthermore, the action may be noisy, e.g., producing erroneous sensing results and not always having the desired effects. While these aspects are typically ignored in reasoning tasks, they need to be dealt with during execution. In this thesis, we propose several approaches towards closing this gap.
翻訳日:2024-01-03 15:19:07 公開日:2023-12-30
# sok: ソフトウェア開発者のレンズによるプライバシー強化技術を幻滅させる

SoK: Demystifying Privacy Enhancing Technologies Through the Lens of Software Developers ( http://arxiv.org/abs/2401.00879v1 )

ライセンス: Link先を確認
Maisha Boteju, Thilina Ranbaduge, Dinusha Vatsalan, Nalin Asanka Gamagedara Arachchilage(参考訳) データ保護対策がなければ、ソフトウェアアプリケーションはプライバシー侵害につながり、エンドユーザやソフトウェア組織に脅威をもたらす。 プライバシー強化技術(PET)は個人情報を保護する技術的手段であり、プライバシー侵害を最小限に抑える。 しかし、ソフトウェアアプリケーションがPETを使用してデータ保護を提供するためには、ソフトウェア開発者はPETを開発中のソフトウェアに積極的に正しく組み込む必要がある。 したがって、開発者がPETをソフトウェアに組み込むのを奨励し支援する方法を明らかにするために、SLR(Systematic Literature Review)は、開発者のプライバシプラクティスに関する39の実証的研究を分析します。 ソフトウェアアプリケーションシナリオにおける6匹のペットの利用を報告している。 次に、ペットをソフトウェアに組み込む際に直面する課題について論じ、ペットの無知のような本質的な課題から、開発コストの増大など、広範囲にわたる課題までについて論じる。 次に、SLRはこれらの課題に対処するための既存のソリューションとソリューションの制限を提示します。 さらに、開発者はPETをより深く理解し、PETをソフトウェアに組み込む際に開発者が直面する課題を最小限に抑えるために、今後の研究の道筋を概説している。

In the absence of data protection measures, software applications lead to privacy breaches, posing threats to end-users and software organisations. Privacy Enhancing Technologies (PETs) are technical measures that protect personal data, thus minimising such privacy breaches. However, for software applications to deliver data protection using PETs, software developers should actively and correctly incorporate PETs into the software they develop. Therefore, to uncover ways to encourage and support developers to embed PETs into software, this Systematic Literature Review (SLR) analyses 39 empirical studies on developers' privacy practices. It reports the usage of six PETs in software application scenarios. Then, it discusses challenges developers face when integrating PETs into software, ranging from intrinsic challenges, such as the unawareness of PETs, to extrinsic challenges, such as the increased development cost. Next, the SLR presents the existing solutions to address these challenges, along with the limitations of the solutions. Further, it outlines future research avenues to better understand PETs from a developer perspective and minimise the challenges developers face when incorporating PETs into software.
翻訳日:2024-01-03 15:18:55 公開日:2023-12-30
# 自律運転のための画像からの3次元物体検出:調査

3D Object Detection from Images for Autonomous Driving: A Survey ( http://arxiv.org/abs/2202.02980v6 )

ライセンス: Link先を確認
Xinzhu Ma, Wanli Ouyang, Andrea Simonelli, Elisa Ricci(参考訳) 自動運転における基本的かつ困難な問題の一つである画像からの3dオブジェクト検出は、近年、産学界からも注目を集めている。 ディープラーニング技術の急速な発展により、画像に基づく3D検出は目覚ましい進歩を遂げた。 特に、2015年から2021年にかけて200以上の著作がこの問題を研究しており、幅広い理論、アルゴリズム、応用を含んでいる。 しかし、この知識を収集・整理するための最近の調査は存在しない。 本稿では,このギャップを文献に埋めて,この新規かつ継続的な研究分野の包括的調査を行い,イメージベース3d検出のための最も一般的なパイプラインを要約し,各コンポーネントを深く分析する。 さらに,最新の手法を異なるカテゴリに整理するための2つの新しい分類法を提案し,既存の手法をより体系的に検討し,今後の手法との公平な比較を促進することを意図した。 これまでの成果を振り返って,この分野の課題を分析し,画像に基づく3次元検出研究の今後の方向性について考察する。

3D object detection from images, one of the fundamental and challenging problems in autonomous driving, has received increasing attention from both industry and academia in recent years. Benefiting from the rapid development of deep learning technologies, image-based 3D detection has achieved remarkable progress. Particularly, more than 200 works have studied this problem from 2015 to 2021, encompassing a broad spectrum of theories, algorithms, and applications. However, to date no recent survey exists to collect and organize this knowledge. In this paper, we fill this gap in the literature and provide the first comprehensive survey of this novel and continuously growing research field, summarizing the most commonly used pipelines for image-based 3D detection and deeply analyzing each of their components. Additionally, we also propose two new taxonomies to organize the state-of-the-art methods into different categories, with the intent of providing a more systematic review of existing methods and facilitating fair comparisons with future works. In retrospect of what has been achieved so far, we also analyze the current challenges in the field and discuss future directions for image-based 3D detection research.
翻訳日:2024-01-03 03:33:26 公開日:2023-12-30
# UniFed: オープンソースフレームワークを統合するオールインワンのフェデレーション学習プラットフォーム

UniFed: All-In-One Federated Learning Platform to Unify Open-Source Frameworks ( http://arxiv.org/abs/2207.10308v3 )

ライセンス: Link先を確認
Xiaoyuan Liu, Tianneng Shi, Chulin Xie, Qinbin Li, Kangping Hu, Haoyu Kim, Xiaojun Xu, The-Anh Vu-Le, Zhen Huang, Arash Nourian, Bo Li, Dawn Song(参考訳) フェデレーション学習(fl)は実践的で広く採用されている分散学習パラダイムとなっている。 しかし、多様なユースケースをカバーする包括的で標準化されたソリューションが欠如しているため、実際にの使用は困難である。 さらに、特定のユースケースに対して適切なFLフレームワークを選択することは大変な作業です。 本稿では,既存のオープンソースFLフレームワークを標準化する最初の統一プラットフォームであるUniFedを紹介する。 プラットフォームは、分散実験とデプロイのためのエンドツーエンドワークフローを合理化し、11の人気のあるオープンソースflフレームワークを含んでいる。 特にワークフローとデータフォーマットのかなりのバリエーションに対処するために、unifedは20の編集可能なフィールドを提供する構成ベースのスキーマ強化タスク仕様を導入した。 unifedはまた、分散実行管理、ロギング、データ分析などの機能を提供する。 UniFedでは、開発者調査やコードレベルの調査を通じて、機能、プライバシ保護、パフォーマンスの観点から、11の人気のあるFLフレームワークを評価し、比較します。 FLフレームワーク評価のための15の多様なFLシナリオ設定(水平および垂直の設定など)を収集する。 この包括的な評価によって、モデルとシステムのパフォーマンスの両方を分析し、詳細な比較とフレームワーク選択の推奨を提供することができます。 UniFedは、特定のユースケースに対して適切なFLフレームワークを選択して利用し、標準化された分散実験とデプロイを可能にするプロセスを簡単にする。 分散ノード178個までの実験に基づく結果と分析は,効果的なflソリューションを追求する実践者への支援を目的とした,貴重なシステム設計とデプロイメントの洞察を提供する。

Federated Learning (FL) has become a practical and widely adopted distributed learning paradigm. However, the lack of a comprehensive and standardized solution covering diverse use cases makes it challenging to use in practice. In addition, selecting an appropriate FL framework for a specific use case can be a daunting task. In this work, we present UniFed, the first unified platform for standardizing existing open-source FL frameworks. The platform streamlines the end-to-end workflow for distributed experimentation and deployment, encompassing 11 popular open-source FL frameworks. In particular, to address the substantial variations in workflows and data formats, UniFed introduces a configuration-based schema-enforced task specification, offering 20 editable fields. UniFed also provides functionalities such as distributed execution management, logging, and data analysis. With UniFed, we evaluate and compare 11 popular FL frameworks from the perspectives of functionality, privacy protection, and performance, through conducting developer surveys and code-level investigation. We collect 15 diverse FL scenario setups (e.g., horizontal and vertical settings) for FL framework evaluation. This comprehensive evaluation allows us to analyze both model and system performance, providing detailed comparisons and offering recommendations for framework selection. UniFed simplifies the process of selecting and utilizing the appropriate FL framework for specific use cases, while enabling standardized distributed experimentation and deployment. Our results and analysis based on experiments with up to 178 distributed nodes provide valuable system design and deployment insights, aiming to empower practitioners in their pursuit of effective FL solutions.
翻訳日:2024-01-03 03:20:49 公開日:2023-12-30
# ADMMによる効果的なコミュニケーションによるプライバシー保護型垂直的フェデレーション学習の改善

Improving Privacy-Preserving Vertical Federated Learning by Efficient Communication with ADMM ( http://arxiv.org/abs/2207.10226v3 )

ライセンス: Link先を確認
Chulin Xie, Pin-Yu Chen, Qinbin Li, Arash Nourian, Ce Zhang, Bo Li(参考訳) フェデレートラーニング(FL)は、分散リソース制約されたデバイスが、プライバシ目的でトレーニングデータをローカルに保持しながら、共有モデルを共同でトレーニングすることを可能にする。 クライアントが部分的な機能を収集できるvertical fl(vfl)は,近年,集中的な研究活動を行っている。 私たちは、既存のvflフレームワークが直面している主な課題を特定しました。 サーバは、トレーニングステップ毎にクライアントと勾配を通信する必要があるため、プライバシ予算の迅速な消費につながる高い通信コストが発生します。 そこで本稿では,各クライアントの個別の貢献を考慮に入れて,サーバやクライアントが反復的に取り組むことのできるサブ目的に対して,vfl最適化目標を効率的に分解することを可能にする,複数ヘッドによるvflフレームワーク(vim)を提案する。 特に,マルチプライバシ(admm)ベースの手法を用いて,クライアントが通信前に複数のローカル更新を行うことを可能にし,通信コストを低減し,ディファレンシャルプライバシ(dp)下での性能向上を実現する最適化手法を提案する。 ユーザプライバシを保護するために,当社のフレームワークに対して,ユーザレベルのDPメカニズムを提供する。 さらに,VIMの副産物として,学習頭部の重みが局所的クライアントの重要性を反映していることを示す。 広範に評価を行い、4つの垂直FLデータセットにおいて、VIMは最先端と比較して性能が著しく向上し、収束が速いことを示す。 また、ローカルクライアントの重要性を明確に評価し、VIMがクライアントレベルの説明やクライアントの妄想といった機能を実現することを示す。 この作業が、効果的なVFLトレーニングと理解の新しい方法に光を当てることを願っています。

Federated learning (FL) enables distributed resource-constrained devices to jointly train shared models while keeping the training data local for privacy purposes. Vertical FL (VFL), which allows each client to collect partial features, has attracted intensive research efforts recently. We identified the main challenges that existing VFL frameworks are facing: the server needs to communicate gradients with the clients for each training step, incurring high communication cost that leads to rapid consumption of privacy budgets. To address these challenges, in this paper, we introduce a VFL framework with multiple heads (VIM), which takes the separate contribution of each client into account, and enables an efficient decomposition of the VFL optimization objective to sub-objectives that can be iteratively tackled by the server and the clients on their own. In particular, we propose an Alternating Direction Method of Multipliers (ADMM)-based method to solve our optimization problem, which allows clients to conduct multiple local updates before communication, and thus reduces the communication cost and leads to better performance under differential privacy (DP). We provide the user-level DP mechanism for our framework to protect user privacy. Moreover, we show that a byproduct of VIM is that the weights of learned heads reflect the importance of local clients. We conduct extensive evaluations and show that on four vertical FL datasets, VIM achieves significantly higher performance and faster convergence compared with the state-of-the-art. We also explicitly evaluate the importance of local clients and show that VIM enables functionalities such as client-level explanation and client denoising. We hope this work will shed light on a new way of effective VFL training and understanding.
翻訳日:2024-01-03 03:20:15 公開日:2023-12-30
# データ駆動確率システムから効果的なダイナミクスを学ぶ

Learning effective dynamics from data-driven stochastic systems ( http://arxiv.org/abs/2205.04151v3 )

ライセンス: Link先を確認
Lingyu Feng, Ting Gao, Min Dai and Jinqiao Duan(参考訳) マルチスケール確率力学系は、多くの実世界の応用において複雑な現象を描写する能力のため、様々な科学的・工学的な問題に広く採用されている。 本研究は,低速確率力学系の有効動力学を研究することを目的としている。 未知の低速確率系を満たす短時間の観測データから,Auto-SDEと呼ばれるニューラルネットワークを含む新しいアルゴリズムを提案し,不変な低速多様体を学習する。 本手法は,離散化された確率微分方程式による損失を伴う一連の時間依存オートエンコーダニューラルネットワークの進化的性質を捉える。 また, 各種評価指標を用いた数値実験により, 精度, 安定, 有効性を検証した。

Multiscale stochastic dynamical systems have been widely adopted to a variety of scientific and engineering problems due to their capability of depicting complex phenomena in many real world applications. This work is devoted to investigating the effective dynamics for slow-fast stochastic dynamical systems. Given observation data on a short-term period satisfying some unknown slow-fast stochastic systems, we propose a novel algorithm including a neural network called Auto-SDE to learn invariant slow manifold. Our approach captures the evolutionary nature of a series of time-dependent autoencoder neural networks with the loss constructed from a discretized stochastic differential equation. Our algorithm is also validated to be accurate, stable and effective through numerical experiments under various evaluation metrics.
翻訳日:2024-01-03 03:18:07 公開日:2023-12-30
# スケーラブルな真正研究教育の枠組み

Scalable authentic research education framework ( http://arxiv.org/abs/2210.08966v4 )

ライセンス: Link先を確認
Sergey V Samsonau, Aziza Kurbonova, Lu Jiang, Hazem Lashen, Jiamu Bai, Theresa Merchant, Ruoxi Wang, Laiba Mehnaz, Zecheng Wang, Ishita Patil(参考訳) 我々は,様々な学校で真正な研究教育方法論を広範に採用できる枠組みについて報告する。 我々は、既存の多くの研究教育プログラムに現れる共通の障壁をリストし、対処する。 本プログラムでは,補完的な技術を持つ学生のチームが,自然科学研究者のための有用な人工知能(AI)ソリューションを開発した。 これを実現するために、私たちは研究所と協力してニーズを明らかにし、特定し、学生チームはコンサルティングのようなアレンジメントを使って、ユニークな問題に対するaiソリューションの発見、設計、開発に取り組んでいます。 これまでのところ、このグループはニューヨーク大学(NYU)で6学期連続で活動しており、1年生から修士候補まで80人以上の学生を雇い、約20のプロジェクトや協力者と協力してきた。 学生に教育的利益をもたらす一方で、我々のアプローチは、特定のニーズに対する機械学習の有用性を評価する機会を得た科学者に直接利益をもたらします。

We report a framework that enables the broad adoption of authentic research educational methodology at various schools. We list and address common barriers that appear in many existing authentic research education programs. In our program, teams of students with complementary skills develop useful artificial intelligence (AI) solutions for researchers in natural sciences. To accomplish this, we work with research laboratories that reveal/specify their needs, and then our student teams work on the discovery, design, and development of an AI solution for unique problems using a consulting-like arrangement. To date, our group has been operating at New York University (NYU) for six consecutive semesters, has engaged more than eighty students, ranging from first-year college students to master's candidates, and has worked with around twenty projects and collaborators. While creating education benefits for students, our approach also directly benefits scientists, who get an opportunity to evaluate the usefulness of machine learning for their specific needs.
翻訳日:2024-01-03 03:08:25 公開日:2023-12-30
# マクロ現実論の見直しと改革--一般化確率論の枠組みを用いてその欠陥を解消する

A review and reformulation of macroscopic realism: resolving its deficiencies using the framework of generalized probabilistic theories ( http://arxiv.org/abs/2209.11783v2 )

ライセンス: Link先を確認
David Schmid(参考訳) マクロリアリズムの概念は、GregettとGargによって、我々の直感的なマクロ世界の概念を捉えるために導入された。 現在までに、マクロリアリズムを改ざんする方法として、数多くの実験的な証人が提案されている。 本稿では、マクロリアリズムの定義とその様々な提案されたテストの両方を批判的にレビューし、分析し、これらの問題(および他の著者による重要な批判の再考)を特定します。 これらの問題は、一般化確率論の枠組みの中でマクロ現実主義を再構築することで解決できることを示す。 特に、私は、理論がすべてのマクロ的体系を厳密な古典的(simplicial)一般化確率論によって記述するならば、その理論はマクロ現実主義とみなすべきであると論じる。 このアプローチはマクロリアリズムの理解に顕著な明確さと精度をもたらし、マクロリアリズムを研究するための新しいツール(概念と技術の両方)を提供する。 私はこのアプローチを活用する 一 マクロ現実主義が古典主義の概念である意味を明確にすること 二 最大情報的かつ理論に依存しない新しいマクロリアリズムの試験(マクロリアリズムの以前の試験を除く。)を提案し、 iii) マクロシステム上の一般化された文脈性の証明は、マクロリアリズムの失敗を暗示する。

The notion of macrorealism was introduced by Leggett and Garg in an attempt to capture our intuitive conception of the macroscopic world, which seems difficult to reconcile with our knowledge of quantum physics. By now, numerous experimental witnesses have been proposed as methods of falsifying macrorealism. In this work, I critically review and analyze both the definition of macrorealism and the various proposed tests thereof, identifying a number of problems with these (and revisiting key criticisms raised by other authors). I then show that all these problems can be resolved by reformulating macrorealism within the framework of generalized probabilistic theories. In particular, I argue that a theory should be considered to be macrorealist if and only if it describes every macroscopic system by a strictly classical (i.e., simplicial) generalized probabilistic theory. This approach brings significant clarity and precision to our understanding of macrorealism, and provides us with a host of new tools -- both conceptual and technical -- for studying macrorealism. I leverage this approach i) to clarify in what sense macrorealism is a notion of classicality, ii) to propose a new test of macrorealism that is maximally informative and theory-independent (unlike all prior tests of macrorealism), and iii) to show that every proof of generalized contextuality on a macroscopic system implies the failure of macrorealism.
翻訳日:2024-01-03 03:06:50 公開日:2023-12-30
# 条件付き拡散モデルによる損失画像圧縮

Lossy Image Compression with Conditional Diffusion Models ( http://arxiv.org/abs/2209.06950v7 )

ライセンス: Link先を確認
Ruihan Yang, Stephan Mandt(参考訳) 本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。 このアプローチは変換符号化パラダイムに依存しており、画像はエントロピー符号化のための潜在空間にマッピングされ、そこから再構成のためにデータ空間にマッピングされる。 平均)デコーダが決定論的ニューラルネットワークであるvaeベースのニューラルネットワークとは対照的に、このデコーダは条件拡散モデルである。 そこで本手法では, 逆拡散過程を条件付けした ``content'' 潜在変数を導入し, この変数を用いて画像に関する情報を格納する。 拡散過程を特徴付ける残りの ``texture'' 変数は復号時に合成される。 モデルの性能は,関心の認知的指標に調整可能であることを示す。 複数のデータセットと画像品質評価指標を含む広範囲な実験により,提案手法はGANモデルよりも強いFIDスコアを得られる一方で,VAEモデルと競合する性能を複数の歪み指標で得ることが示された。 さらに、$\mathcal{X}$-parameterizationで拡散を訓練することで、少数の復号ステップで高品質な再構成が可能となり、モデルの実用性に大きな影響を及ぼす。 私たちのコードは、 \url{https://github.com/buggyyang/cdc_compression} で利用可能です。

This paper outlines an end-to-end optimized lossy image compression framework using diffusion generative models. The approach relies on the transform coding paradigm, where an image is mapped into a latent space for entropy coding and, from there, mapped back to the data space for reconstruction. In contrast to VAE-based neural compression, where the (mean) decoder is a deterministic neural network, our decoder is a conditional diffusion model. Our approach thus introduces an additional ``content'' latent variable on which the reverse diffusion process is conditioned and uses this variable to store information about the image. The remaining ``texture'' variables characterizing the diffusion process are synthesized at decoding time. We show that the model's performance can be tuned toward perceptual metrics of interest. Our extensive experiments involving multiple datasets and image quality assessment metrics show that our approach yields stronger reported FID scores than the GAN-based model, while also yielding competitive performance with VAE-based models in several distortion metrics. Furthermore, training the diffusion with $\mathcal{X}$-parameterization enables high-quality reconstructions in only a handful of decoding steps, greatly affecting the model's practicality. Our code is available at: \url{https://github.com/buggyyang/CDC_compression}
翻訳日:2024-01-03 03:06:26 公開日:2023-12-30
# 中毒攻撃に対する連帯学習におけるプライバシと認定堅牢性の関係の解明

Unraveling the Connections between Privacy and Certified Robustness in Federated Learning Against Poisoning Attacks ( http://arxiv.org/abs/2209.04030v3 )

ライセンス: Link先を確認
Chulin Xie, Yunhui Long, Pin-Yu Chen, Qinbin Li, Arash Nourian, Sanmi Koyejo, Bo Li(参考訳) フェデレートラーニング(FL)は、分散ユーザのデータを活用するグローバルモデルを共同でトレーニングするための効率的なパラダイムを提供する。 地元のトレーニングデータは信頼性の低い異なるユーザーから来ているため、いくつかの研究でflは中毒攻撃に弱いことが示されている。 一方、ローカルユーザのプライバシを保護するため、FLは通常、差分プライベート(DPFL)でトレーニングされる。 そこで,本論文では,flにおける差動プライバシと認証ロバスト性との関係について質問する。 DPFLの本質的なプライバシー特性を利用して、FLに認証された堅牢性を提供できるか? このような堅牢性認証を改善するために、FLのプライバシーをさらに改善できるだろうか? まず,ユーザレベルのプライバシとインスタンスレベルのプライバシの両方を調査し,インスタンスレベルのプライバシを改善するための公式なプライバシ解析を提供する。 次に、ユーザレベルとインスタンスレベルの両方において、dpflの認証予測と認証アタック非効率の2つの堅牢性認定基準を提供する。 理論的には, 対向ユーザ数やインスタンス数が限定された場合, 両基準を基準として, dpflのロバスト性が証明されている。 実験的な実験により、さまざまなデータセットに対する様々な毒殺攻撃の下で、我々の理論を検証する。 DPFLにおけるプライバシ保護のレベルの増加は、より強力な攻撃非効率をもたらすが、必ずしもより強力な認証予測につながるとは限らない。 したがって、最適な認定予測を達成するには、プライバシとユーティリティ損失の適切なバランスが必要となる。

Federated learning (FL) provides an efficient paradigm to jointly train a global model leveraging data from distributed users. As local training data comes from different users who may not be trustworthy, several studies have shown that FL is vulnerable to poisoning attacks. Meanwhile, to protect the privacy of local users, FL is usually trained in a differentially private way (DPFL). Thus, in this paper, we ask: What are the underlying connections between differential privacy and certified robustness in FL against poisoning attacks? Can we leverage the innate privacy property of DPFL to provide certified robustness for FL? Can we further improve the privacy of FL to improve such robustness certification? We first investigate both user-level and instance-level privacy of FL and provide formal privacy analysis to achieve improved instance-level privacy. We then provide two robustness certification criteria: certified prediction and certified attack inefficacy for DPFL on both user and instance levels. Theoretically, we provide the certified robustness of DPFL based on both criteria given a bounded number of adversarial users or instances. Empirically, we conduct extensive experiments to verify our theories under a range of poisoning attacks on different datasets. We find that increasing the level of privacy protection in DPFL results in stronger certified attack inefficacy; however, it does not necessarily lead to a stronger certified prediction. Thus, achieving the optimal certified prediction requires a proper balance between privacy and utility loss.
翻訳日:2024-01-03 03:05:47 公開日:2023-12-30
# PCR-CG:深い鮮明な色と幾何学によるポイントクラウドの登録

PCR-CG: Point Cloud Registration via Deep Explicit Color and Geometry ( http://arxiv.org/abs/2302.14418v2 )

ライセンス: Link先を確認
Yu Zhang, Junle Yu, Xiaolin Huang, Wenhui Zhou, Ji Hou(参考訳) 本稿では,新しい3Dポイントクラウド登録モジュールであるPCR-CGについて紹介する。 幾何表現のみを使用する従来の方法とは異なり、このモジュールはポイントクラウド登録タスクにおいて、色を幾何学に効果的に関連付けるように特別に設計されている。 我々の重要な貢献は、色信号から学習した深い特徴を幾何学表現に埋め込む2D-3Dクロスプラットフォーム学習アルゴリズムである。 2d-3dプロジェクションモジュールの設計により,画像から知覚される対応を中心にした正方形領域の画素特徴は,ポイントクラウドと効果的に相関する。 このように、重なり合う領域は点雲だけでなく、テクスチャの外観からも推測することができる。 色を加えるのは簡単ではない。 3dに色を加えるために設計された様々なベースラインと比較し、ピクセルごとの機能やrgb値を暗黙的に追加するなどした。 Predator [25]をベースラインメソッドとして利用し、提案したモジュールをその上に組み込む。 2次元特徴の有効性を検証するために,異なる2次元事前学習ネットワークを省略し,事前学習した重みとタスク性能の正の相関を示す。 実験の結果,3dlomatchベンチマークにおけるベースライン法より6.5%の登録リコールが有意に改善した。 さらに,sota法に対するアプローチを評価し,ジオトランスフォーマに対する2.4%の登録リコールやコフィニットに対する3.5%の改善など,一貫した改善を観察した。 本研究は,登録作業のポイントクラウドに明示的な深色特徴を関連付ける大きな利点を明らかにした。

In this paper, we introduce PCR-CG: a novel 3D point cloud registration module explicitly embedding the color signals into the geometry representation. Different from previous methods that only use geometry representation, our module is specifically designed to effectively correlate color into geometry for the point cloud registration task. Our key contribution is a 2D-3D cross-modality learning algorithm that embeds the deep features learned from color signals to the geometry representation. With our designed 2D-3D projection module, the pixel features in a square region centered at correspondences perceived from images are effectively correlated with point clouds. In this way, the overlapped regions can be inferred not only from point cloud but also from the texture appearances. Adding color is non-trivial. We compare against a variety of baselines designed for adding color to 3D, such as exhaustively adding per-pixel features or RGB values in an implicit manner. We leverage Predator [25] as the baseline method and incorporate our proposed module onto it. To validate the effectiveness of 2D features, we ablate different 2D pre-trained networks and show a positive correlation between the pre-trained weights and the task performance. Our experimental results indicate a significant improvement of 6.5% registration recall over the baseline method on the 3DLoMatch benchmark. We additionally evaluate our approach on SOTA methods and observe consistent improvements, such as an improvement of 2.4% registration recall over GeoTransformer as well as 3.5% over CoFiNet. Our study reveals a significant advantages of correlating explicit deep color features to the point cloud in the registration task.
翻訳日:2024-01-03 02:57:35 公開日:2023-12-30
# 相対論的デジタルツイン:IoTを未来に持ち込む

Relativistic Digital Twin: Bringing the IoT to the Future ( http://arxiv.org/abs/2301.07390v3 )

ライセンス: Link先を確認
Luca Sciullo, Alberto De Marchi, Angelo Trotta, Federico Montori, Luciano Bononi, Marco Di Felice(参考訳) 複雑なIoTエコシステムは、予測分析を実行し、何のシナリオをシミュレートするために、物理資産のDigital Twins(DT)の使用を必要とすることが多い。 DTはIoTデバイスを複製し、行動の変化に時間をかけて適応することができる。 しかし、IoTのDTは一般的に、異なるシナリオにシームレスに適応することが可能になるため、特定のユースケースに合わせて調整される。 さらに、IoTの断片化は、複数のデータフォーマットとIoTネットワークプロトコルの使用を特徴とする異種シナリオでのDTのデプロイ方法に、さらなる課題をもたらす。 本稿では、IoTエンティティの汎用DTを自動的に生成し、実際のオブジェクトを常に観察することで、時間とともに行動モデルを調整するRelativistic Digital Twin(RDT)フレームワークを提案する。 このフレームワークはWeb of Things(WoT)を通じたオブジェクト表現に依存しており、各IoTデバイスとDTに標準化されたインターフェースを提供する。 この目的のために、W3C WoT標準を拡張し、行動モデルの概念を包含し、新しい語彙を通してThing Description (TD)で定義した。 最後に, 室内温度の予測能力を備えたスマートホームシナリオのDTと, 屋外シナリオにおける軌道の予測能力を備えた実世界のドローンのDTの2つの相反する使用事例について, その正しさと学習性能を評価するために, RDTフレームワークを評価した。 実験の結果, 生成したDTは, 考察されたシナリオに関わらず, 観測後の実際のDTの挙動を推定できることがわかった。

Complex IoT ecosystems often require the usage of Digital Twins (DTs) of their physical assets in order to perform predictive analytics and simulate what-if scenarios. DTs are able to replicate IoT devices and adapt over time to their behavioral changes. However, DTs in IoT are typically tailored to a specific use case, without the possibility to seamlessly adapt to different scenarios. Further, the fragmentation of IoT poses additional challenges on how to deploy DTs in heterogeneous scenarios characterized by the usage of multiple data formats and IoT network protocols. In this paper, we propose the Relativistic Digital Twin (RDT) framework, through which we automatically generate general-purpose DTs of IoT entities and tune their behavioral models over time by constantly observing their real counterparts. The framework relies on the object representation via the Web of Things (WoT), to offer a standardized interface to each of the IoT devices as well as to their DTs. To this purpose, we extended the W3C WoT standard in order to encompass the concept of behavioral model and define it in the Thing Description (TD) through a new vocabulary. Finally, we evaluated the RDT framework over two disjoint use cases to assess its correctness and learning performance, i.e., the DT of a simulated smart home scenario with the capability of forecasting the indoor temperature, and the DT of a real-world drone with the capability of forecasting its trajectory in an outdoor scenario. Experiments show that the generated DT can estimate the behavior of its real counterpart after an observation stage, regardless of the considered scenario.
翻訳日:2024-01-03 02:55:58 公開日:2023-12-30
# グロタンディークの不等式は多項式法に逆を特徴づける

Grothendieck inequalities characterize converses to the polynomial method ( http://arxiv.org/abs/2212.08559v2 )

ライセンス: Link先を確認
Jop Bri\"et, Francisco Escudero Guti\'errez and Sander Gribling(参考訳) Aaronson et al. (CCC'16) の驚くべき「多項式法への逆」は、任意の有界二次多項式は、有名なグロタンディーク定数に関連する普遍的乗法係数まで1-クエリアルゴリズムによって正確に計算できることを示している。 ここでは、加法近似を許容しても、そのような結果はクォート多項式や2-クエリアルゴリズムに一般化されないことを示す。 また、それらの結果から示唆される加法近似は有界双線型形式に対して密接であり、1-クエリ量子アルゴリズムの観点からグロタンディーク定数の新たな特徴付けを与える。 その過程で、形式の全有界ノルムとその双対ノルムの再構成を提供する。

A surprising 'converse to the polynomial method' of Aaronson et al. (CCC'16) shows that any bounded quadratic polynomial can be computed exactly in expectation by a 1-query algorithm up to a universal multiplicative factor related to the famous Grothendieck constant. Here we show that such a result does not generalize to quartic polynomials and 2-query algorithms, even when we allow for additive approximations. We also show that the additive approximation implied by their result is tight for bounded bilinear forms, which gives a new characterization of the Grothendieck constant in terms of 1-query quantum algorithms. Along the way we provide reformulations of the completely bounded norm of a form, and its dual norm.
翻訳日:2024-01-03 02:54:31 公開日:2023-12-30
# エネルギー系スライスワッサースタイン距離

Energy-Based Sliced Wasserstein Distance ( http://arxiv.org/abs/2304.13586v3 )

ライセンス: Link先を確認
Khai Nguyen and Nhat Ho(参考訳) スライスドワッサースタイン距離(sliced wasserstein distance)は、2つの確率測度の間の統計的に効率的かつ計算効率の良い計量として広く認識されている。 SW距離の重要な成分はスライシング分布である。 この分布を選択するには2つのアプローチがある。 第一のアプローチは固定された事前分布を使うことである。 第二のアプローチは、パラメトリック分布の族に属する最良の分布を最適化し、期待される距離を最大化することである。 しかし、どちらのアプローチにも限界がある。 固定された事前分布は、2つの一般的な確率測度を判別できる射影方向を強調する点で非形式的である。 最適なディストリビューションのための最適化は、しばしば高価で不安定です。 さらに、候補分布のパラメトリック族を設計することは容易に誤特定できる。 この問題に対処するために,スライシング分布をパラメータフリーで,投影された一次元ワッサースタイン距離のエネルギー関数に比例する密度分布として設計する。 次に,新しいスライス・ワッサースタイン距離,エネルギーベーススライス・ワッサースタイン(ebsw)距離を導出し,その位相的,統計的,計算的性質について,重要サンプリング,サンプリング重要度分析,マルコフ連鎖法を用いて検討した。 最後に,ebswの性能を示すために,ポイントクラウド勾配流,カラートランスフォーメーション,ポイントクラウド再構成の実験を行った。

The sliced Wasserstein (SW) distance has been widely recognized as a statistically effective and computationally efficient metric between two probability measures. A key component of the SW distance is the slicing distribution. There are two existing approaches for choosing this distribution. The first approach is using a fixed prior distribution. The second approach is optimizing for the best distribution which belongs to a parametric family of distributions and can maximize the expected distance. However, both approaches have their limitations. A fixed prior distribution is non-informative in terms of highlighting projecting directions that can discriminate two general probability measures. Doing optimization for the best distribution is often expensive and unstable. Moreover, designing the parametric family of the candidate distribution could be easily misspecified. To address the issues, we propose to design the slicing distribution as an energy-based distribution that is parameter-free and has the density proportional to an energy function of the projected one-dimensional Wasserstein distance. We then derive a novel sliced Wasserstein metric, energy-based sliced Waserstein (EBSW) distance, and investigate its topological, statistical, and computational properties via importance sampling, sampling importance resampling, and Markov Chain methods. Finally, we conduct experiments on point-cloud gradient flow, color transfer, and point-cloud reconstruction to show the favorable performance of the EBSW.
翻訳日:2024-01-03 02:47:12 公開日:2023-12-30
# 誤差の存在下でのステアリングによる量子状態工学

Quantum state engineering by steering in the presence of errors ( http://arxiv.org/abs/2303.16329v3 )

ライセンス: Link先を確認
E. Medina-Guerra, Parveen Kumar, I. V. Gornyi, and Yuval Gefen(参考訳) 量子状態工学は、量子情報分野における様々な応用において重要な役割を果たす。 運転・散逸、断熱冷却、測定に基づくステアリングなど、異なる戦略が過去に提案されており、それぞれが上向きと下向きで、状態生成と操作のために提案されてきた。 本稿では,量子システムを目的とする状態に向けて制御するために,一般化された測定のシーケンスを用いる計測ベースの状態工学プロトコルのクラスについて述べる。 従来、測定ベースのプロトコルは理想的な手順に依存しており、実験的な実現と外部ノイズの不完全性から生じる様々なエラーの影響の探索を避けていた。 我々は,これらのステアリングプロトコルの各種誤差に対するロバスト性に関する詳細な解析を行うために,量子軌道形式を用いる。 プロトコルの実行中に変更が残らないかによって、動的または静的に分類できる一連のエラーについて検討する。 具体的には, システム-検出器結合の誤選択, 測定ステップ後の検出器状態の再初期化, 操舵方向の変動, システム-検出器相互作用における環境負荷の影響について検討する。 このプロトコルは,システム検出器結合パラメータの誤選択に対して完全に堅牢であり,他の誤りに対して合理的な頑健性を示す。 我々は,プロトコルのロバスト性を特徴づけ,解析結果を提供するために,忠実度,トレース距離,線形エントロピーなどの様々な量化器を用いる。 その後,乗算ホワイトノイズを持つハミルトニアンの指数関数の古典的期待値と時間順序演算子の交換と,検出結果に対する期待値と部分的トレースの交換を実演する。

Quantum state engineering plays a vital role in various applications in the field of quantum information. Different strategies, including drive-and-dissipation, adiabatic cooling, and measurement-based steering, have been proposed in the past for state generation and manipulation, each with its upsides and downsides. Here, we address a class of measurement-based state engineering protocols where a sequence of generalized measurements is employed to steer a quantum system toward a desired target state. Previously studied measurement-based protocols relied on idealized procedures and avoided exploration of the effects of various errors stemming from imperfections of experimental realizations and external noise. We employ the quantum trajectory formalism to provide a detailed analysis of the robustness of these steering protocols against various errors. We study a set of errors that can be classified as dynamic or static, depending on whether they remain unchanged while running the protocol. More specifically, we investigate the impact of erroneous choice of system-detector coupling, re-initialization of the detector state following a measurement step, fluctuating steering directions, and environmentally induced errors in the system-detector interaction. We show that the protocol remains fully robust against the erroneous choice of system-detector coupling parameters and presents reasonable robustness against other errors. We employ various quantifiers such as fidelity, trace distance, and linear entropy to characterize the protocol's robustness and provide analytical results. Subsequently, we demonstrate the commutation between the classical expectation value and the time-ordering operator of the exponential of a Hamiltonian with multiplicative white noise, as well as the commutation of the expectation value and the partial trace with respect to detector outcomes.
翻訳日:2024-01-03 02:43:27 公開日:2023-12-30
# 分割・分割とグローバル性能低下ランキングに基づく多目的複雑ネットワークpruningフレームワーク

A Multi-objective Complex Network Pruning Framework Based on Divide-and-conquer and Global Performance Impairment Ranking ( http://arxiv.org/abs/2303.16212v2 )

ライセンス: Link先を確認
Ronghua Shang, Songling Zhu, Yinan Wu, Weitong Zhang, Licheng Jiao, Songhua Xu(参考訳) モデル圧縮はディープニューラルネットワーク(DNN)の実践的展開において重要な役割を担い、進化的多目的プルーニング(EMO)はDNNの圧縮速度と性能のバランスをとる上で不可欠なツールである。 しかし、人口ベースの性質から、エモプラニングは複雑な最適化空間と、特に複雑なネットワークにおいて、リソース集約的な構造検証プロセスに苦しむ。 そこで本稿では,emo-dir(division-and-conquer and global performance loss ranking)に基づく多目的複雑なネットワークpruningフレームワークを提案する。 まず,複数のサブネットワーク上でのEMOプルーニングの複雑なタスクを,複数のサブネットワーク上で簡単にサブタスクに分解する分割型EMOネットワークプルーニング手法を提案する。 一方、この分解はプルーニング最適化空間を狭め、最適化の難しさを減らし、一方、より小さなネットワーク構造はより高速に収束するので、提案アルゴリズムはより少ない計算資源を消費する。 次に、クロスネットワーク制約に基づくサブネットワークトレーニング方法を設計し、独立したemoプルーニングサブタスクをブリッジすることで、プルーニングされたネットワーク全体のパフォーマンスを改善する。 最後に,EMOに基づく複数サブネットワーク共同プルーニング手法を提案する。 本手法は,複数のサブネットワーク上でのemoプルーニング結果から,グローバルパフォーマンス障害ランキングを通じてパレートフロントを結合し,共同プルーニングスキームを設計する。 CIFAR-10/100とImageNet-100/1kに関する豊富な実験を行った。 提案アルゴリズムは,最先端プルーニング手法と同等の性能を実現する。

Model compression plays a vital role in the practical deployment of deep neural networks (DNNs), and evolutionary multi-objective (EMO) pruning is an essential tool in balancing the compression rate and performance of the DNNs. However, due to its population-based nature, EMO pruning suffers from the complex optimization space and the resource-intensive structure verification process, especially in complex networks. To this end, a multi-objective complex network pruning framework based on divide-and-conquer and global performance impairment ranking (EMO-DIR) is proposed in this paper. Firstly, a divide-and-conquer EMO network pruning method is proposed, which decomposes the complex task of EMO pruning on the entire network into easier sub-tasks on multiple sub-networks. On the one hand, this decomposition narrows the pruning optimization space and decreases the optimization difficulty; on the other hand, the smaller network structure converges faster, so the proposed algorithm consumes lower computational resources. Secondly, a sub-network training method based on cross-network constraints is designed, which could bridge independent EMO pruning sub-tasks, allowing them to collaborate better and improving the overall performance of the pruned network. Finally, a multiple sub-networks joint pruning method based on EMO is proposed. This method combines the Pareto Fronts from EMO pruning results on multiple sub-networks through global performance impairment ranking to design a joint pruning scheme. The rich experiments on CIFAR-10/100 and ImageNet-100/1k are conducted. The proposed algorithm achieves a comparable performance with the state-of-the-art pruning methods.
翻訳日:2024-01-03 02:42:59 公開日:2023-12-30
# 講演とバッジ: GitHubにおける個人的成果の探索的分析

A Lot of Talk and a Badge: An Exploratory Analysis of Personal Achievements in GitHub ( http://arxiv.org/abs/2303.14702v2 )

ライセンス: Link先を確認
Fabio Calefato and Luigi Quaranta and Filippo Lanubile(参考訳) コンテキスト。 GitHubは、個人的成果を通じて新たなゲーミフィケーション要素を導入し、バッジをアンロックし、開発者個人のプロフィールページに表示し、開発活動を認識する。 目的。 本稿では,GitHubにおける個人用バッジの拡散を研究するための混合手法を用いた探索分析と,導入に対する効果と反応について述べる。 方法。 まず,6,000人以上の開発者から経年データのマイニングを行い,相関解析と回帰解析を行った。 次に調査を行い,300以上のgithubコミュニティによる個人バッジに関する議論を分析し,新機能の導入に対するコミュニティの反応を評価する。 結果だ ほとんどの開発者は少なくともバッジをサンプルにしているが、プロフィールを非公開にし、バッジを表示することをオプトアウトするユーザーの増加も観察している。 加えて、バッジは概して開発者の品質とタイムラインやコラボレーションへの欲求といった配置と相関が低い。 また、Starstruckバッジ(フォロワーの数を反映している)を除いて、その導入には効果がないこともわかりました。 最後に、コミュニティの反応は一般的に混ざり合っており、開発者は原則的にアピールするが、明確な目的を持たず、現在の形での彼らの能力をほとんど反映していない。 結論だ 我々はgithubプラットフォームデザイナに対して、ゲーム化メカニズムと開発者の評価のための信頼できる手がかりのソースとして、個人バッジの現在の実装を改善する方法について推奨する。

Context. GitHub has introduced a new gamification element through personal achievements, whereby badges are unlocked and displayed on developers' personal profile pages in recognition of their development activities. Objective. In this paper, we present an exploratory analysis using mixed methods to study the diffusion of personal badges in GitHub, in addition to the effects and reactions to their introduction. Method. First, we conduct an observational study by mining longitudinal data from more than 6,000 developers and performed correlation and regression analysis. Then, we conduct a survey and analyze over 300 GitHub community discussions on the topic of personal badges to gauge how the community responded to the introduction of the new feature. Results. We find that most of the developers sampled own at least a badge, but we also observe an increasing number of users who choose to keep their profile private and opt out of displaying badges. Besides, badges are generally poorly correlated with developers' qualities and dispositions such as timeliness and desire to collaborate. We also find that, except for the Starstruck badge (reflecting the number of followers), their introduction does not have an effect. Finally, the reaction of the community has been in general mixed, as developers find them appealing in principle but without a clear purpose and hardly reflecting their abilities in the current form. Conclusions. We provide recommendations to GitHub platform designers on how to improve the current implementation of personal badges as both a gamification mechanism and as sources of reliable cues of ability for developers' assessment
翻訳日:2024-01-03 02:42:29 公開日:2023-12-30
# Aleth-NeRF:コンセプトフィールドを用いた低照度視野合成

Aleth-NeRF: Low-light Condition View Synthesis with Concealing Fields ( http://arxiv.org/abs/2303.05807v2 )

ライセンス: Link先を確認
Ziteng Cui, Lin Gu, Xiao Sun, Xianzheng Ma, Yu Qiao, Tatsuya Harada(参考訳) 一般的な低照度シーンは、Neural Radiance Fields (NeRF)など、ほとんどのコンピュータビジョン技術では難しい。 ビューアー中心のバニラNeRFは、表示方向の3D位置からの発光としてのみレンダリングプロセスを単純化し、低照度誘起暗黒をモデル化することができない。 古代ギリシア人のエミッション理論に触発され、視覚知覚は目から放射される光によって達成され、我々はバニラのNeRFにわずかな修正を加えて、低照度シーンの複数のビューを訓練する。 ボリュームレンダリングの段階で光の輸送を減少させるサロゲートの概念であるConcealing Fieldsを導入する。 具体的には,提案手法であるAleth-NeRFを暗黒画像から直接学習して,前処理によるボリュームオブジェクトの表現と隠れフィールドの理解を行う。 Concealing Fieldsを単純に排除することで、シングルまたはマルチビューの well-lit イメージをレンダリングし、他の2次元低光強調法よりも優れた性能を得ることができる。 さらに,今後の研究のために,最初のLOw-light and normal-light Multi-view (LOM)データセットを収集する。 このバージョンは無効で、新しいAAAIバージョンを参照してください: arXiv:2312.09093

Common capture low-light scenes are challenging for most computer vision techniques, including Neural Radiance Fields (NeRF). Vanilla NeRF is viewer-centred simplifies the rendering process only as light emission from 3D locations in the viewing direction, thus failing to model the low-illumination induced darkness. Inspired by the emission theory of ancient Greeks that visual perception is accomplished by rays casting from eyes, we make slight modifications on vanilla NeRF to train on multiple views of low-light scenes, we can thus render out the well-lit scene in an unsupervised manner. We introduce a surrogate concept, Concealing Fields, that reduces the transport of light during the volume rendering stage. Specifically, our proposed method, Aleth-NeRF, directly learns from the dark image to understand volumetric object representation and concealing field under priors. By simply eliminating Concealing Fields, we can render a single or multi-view well-lit image(s) and gain superior performance over other 2D low-light enhancement methods. Additionally, we collect the first paired LOw-light and normal-light Multi-view (LOM) datasets for future research. This version is invalid, please refer to our new AAAI version: arXiv:2312.09093
翻訳日:2024-01-03 02:41:37 公開日:2023-12-30
# 原子構造表現の完全性

Completeness of Atomic Structure Representations ( http://arxiv.org/abs/2302.14770v3 )

ライセンス: Link先を確認
Jigyasa Nigam, Sergey N. Pozdnyakov, Kevin K. Huguenin-Dumittan, and Michele Ceriotti(参考訳) 本稿では,分子内の原子などの点粒子群の包括的かつ対称的な表現を得ることが,物理学や理論化学において重要な課題である。 この問題は、基本的な対称性や保存法と整合性を保ちながら、物理的関係を正確に再現するモデルの能力を支えるため、科学における機械学習技術の普及によってさらに重要になっている。 しかし、一般に点雲を表すために使われる記述子(特に隣の密度の離散化された相関に基づくもの、原子スケールの既存の物質MLモデルの大部分を支えるもの)は、3次元の粒子の特別な配置を区別できない。 これにより、マシンでプロパティを学習することは不可能である。 原子密度相関は、非現実的である全ての原子間の相互関係を同時に記述する極限において証明可能である。 本稿では, 粒子三重項の相対配置に基づいて, 近傍の離散化の分解を唯一の収束パラメータとして持つ普遍近似能力を持つ対称性適応モデルを作成するための新しい手法を提案する。 我々の戦略は、従来の対称ディスクリプタの幅広いクラスに対抗するために特別に構築された原子配列のクラスで実証され、その制限に対処する可能性を示している。

In this paper, we address the challenge of obtaining a comprehensive and symmetric representation of point particle groups, such as atoms in a molecule, which is crucial in physics and theoretical chemistry. The problem has become even more important with the widespread adoption of machine-learning techniques in science, as it underpins the capacity of models to accurately reproduce physical relationships while being consistent with fundamental symmetries and conservation laws. However, some of the descriptors that are commonly used to represent point clouds -- most notably those based on discretized correlations of the neighbor density, that underpin most of the existing ML models of matter at the atomic scale -- are unable to distinguish between special arrangements of particles in three dimensions. This makes it impossible to machine learn their properties. Atom-density correlations are provably complete in the limit in which they simultaneously describe the mutual relationship between all atoms, which is impractical. We present a novel approach to construct descriptors of \emph{finite} correlations based on the relative arrangement of particle triplets, which can be employed to create symmetry-adapted models with universal approximation capabilities, which have the resolution of the neighbor discretization as the sole convergence parameter. Our strategy is demonstrated on a class of atomic arrangements that are specifically built to defy a broad class of conventional symmetric descriptors, showcasing its potential for addressing their limitations.
翻訳日:2024-01-03 02:41:11 公開日:2023-12-30
# 距離空間と長田次元における$k$-NN則の普遍的整合性。 II年

Universal consistency of the $k$-NN rule in metric spaces and Nagata dimension. II ( http://arxiv.org/abs/2305.17282v3 )

ライセンス: Link先を確認
Sushma Kumari and Vladimir G. Pestov(参考訳) 分離可能な距離空間における近接学習規則の$k$を引き続き検討する。 C\'erou と Guyader (2006) と Preiss (1983) の結果により、この規則は長田の意味でのシグマ有限次元であるすべての計量空間 $X$ において普遍的に整合であることが知られている。 ここで、この規則は結び付きのない空間において強く普遍的に一貫していることを示す。 devroye が適用したタイマーキング戦略では gy\"{o}rfi, krzy\ である。 ユークリッド集合における {z}ak, and Lugosi (1994) は、非アーキメディア計量空間(すなわち、長田次元 0 の空間)において強い普遍的整合性を示す。 C\'erou と Guyader の定理と Assouad と Quentin de Gromard (2006) の結果を組み合わせると、$k$-NN 則はデ・グルートの意味で有限次元の計量空間において普遍的に一貫したものであると推測される。 特に、$k$-nn の規則は、kor\'anyi and reimann (1995) と sawyer and wheeden (1992) によって独立に構築された例から、永田の意味でシグマ有限次元でないハイゼンベルク群において普遍的に一致する。

We continue to investigate the $k$ nearest neighbour learning rule in separable metric spaces. Thanks to the results of C\'erou and Guyader (2006) and Preiss (1983), this rule is known to be universally consistent in every metric space $X$ that is sigma-finite dimensional in the sense of Nagata. Here we show that the rule is strongly universally consistent in such spaces in the absence of ties. Under the tie-breaking strategy applied by Devroye, Gy\"{o}rfi, Krzy\.{z}ak, and Lugosi (1994) in the Euclidean setting, we manage to show the strong universal consistency in non-Archimedian metric spaces (that is, those of Nagata dimension zero). Combining the theorem of C\'erou and Guyader with results of Assouad and Quentin de Gromard (2006), one deduces that the $k$-NN rule is universally consistent in metric spaces having finite dimension in the sense of de Groot. In particular, the $k$-NN rule is universally consistent in the Heisenberg group which is not sigma-finite dimensional in the sense of Nagata as follows from an example independently constructed by Kor\'anyi and Reimann (1995) and Sawyer and Wheeden (1992).
翻訳日:2024-01-03 02:34:26 公開日:2023-12-30
# CommonScenes:Scene Graph DiffusionによるCommonsense 3D屋内シーンの生成

CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion ( http://arxiv.org/abs/2305.16283v5 )

ライセンス: Link先を確認
Guangyao Zhai, Evin P{\i}nar \"Ornek, Shun-Cheng Wu, Yan Di, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) 制御可能なシーン合成は,様々な産業用途を対象とした対話型環境の構築を目的としている。 シーングラフは、シーンコンテキストをコンパクトに抽象化することでこれらのアプリケーションを容易にするのに非常に適したインターフェースを提供する。 既存の手法は、広範囲のデータベースや事前学習された形状埋め込みからの検索に依存しており、しばしばシーン-オブジェクトとオブジェクト-オブジェクトの関係を見落としている。 この問題に対処するため,我々は,シーングラフを対応する制御可能な3dシーンに変換する完全生成モデルであるcommonscenesを提案する。 我々のパイプラインは2つのブランチから構成されており、1つは変分オートエンコーダによりシーン全体のレイアウトを予測し、もう1つは潜時拡散により互換性のある形状を生成する。 生成したシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作できる。 高品質なオブジェクトレベルのメッシュと関係性を提供するシーングラフデータセットが欠如しているため、SG-FRONTを構築することで、既製の屋内データセット3D-FRONTを付加的なシーングラフラベルで強化する。 SG-FRONTでは、生成一貫性、品質、多様性に関する他の手法に対して、CommonScenesが明確な優位性を示す。 コードとデータセットは受け入れ時にリリースされる。

Controllable scene synthesis aims to create interactive environments for various industrial use cases. Scene graphs provide a highly suitable interface to facilitate these applications by abstracting the scene context in a compact manner. Existing methods, reliant on retrieval from extensive databases or pre-trained shape embeddings, often overlook scene-object and object-object relationships, leading to inconsistent results due to their limited generation capacity. To address this issue, we present CommonScenes, a fully generative model that converts scene graphs into corresponding controllable 3D scenes, which are semantically realistic and conform to commonsense. Our pipeline consists of two branches, one predicting the overall scene layout via a variational auto-encoder and the other generating compatible shapes via latent diffusion, capturing global scene-object and local inter-object relationships in the scene graph while preserving shape diversity. The generated scenes can be manipulated by editing the input scene graph and sampling the noise in the diffusion model. Due to lacking a scene graph dataset offering high-quality object-level meshes with relations, we also construct SG-FRONT, enriching the off-the-shelf indoor dataset 3D-FRONT with additional scene graph labels. Extensive experiments are conducted on SG-FRONT where CommonScenes shows clear advantages over other methods regarding generation consistency, quality, and diversity. Codes and the dataset will be released upon acceptance.
翻訳日:2024-01-03 02:33:11 公開日:2023-12-30
# 言語モデルのコンテキスト内学習を改善するシンボルチューニング

Symbol tuning improves in-context learning in language models ( http://arxiv.org/abs/2305.08298v2 )

ライセンス: Link先を確認
Jerry Wei and Le Hou and Andrew Lampinen and Xiangning Chen and Da Huang and Yi Tay and Xinyun Chen and Yifeng Lu and Denny Zhou and Tengyu Ma and Quoc V. Le(参考訳) 我々は、自然言語ラベル(例えば「ポジティブ/ネガティブ感情」)を任意の記号(例えば「フード/バー」)に置き換える、文脈内入力ラベルペアで言語モデルを微調整するシンボルチューニングを提案する。 シンボルチューニングは、モデルがタスクを理解するために命令や自然言語ラベルを使用できない場合、その代わりに入出力ラベルマッピングを学習しなければならないという直観を利用する。 我々はFlan-PaLMモデルに対して最大540Bパラメータのシンボルチューニングを行い、様々な設定で利点を観察する。 まず、シンボルチューニングは、未認識のコンテキスト内学習タスクのパフォーマンスを向上させ、命令なしや自然言語ラベルなしといった、不特定なプロンプトに対してはるかに堅牢である。 第2に、シンボルチューニングモデルはアルゴリズム推論タスクにおいてはるかに強力であり、リスト関数ベンチマークでは最大18.2%、simple turing conceptsベンチマークでは最大15.3%のパフォーマンスが向上している。 最後に、シンボル調整されたモデルでは、インコンテキストで示されるフリップペインラベルが大幅に改善され、インコンテキスト情報を使用して、事前のセマンティック知識をオーバーライドする能力が向上した。

We present symbol tuning - finetuning language models on in-context input-label pairs where natural language labels (e.g., "positive/negative sentiment") are replaced with arbitrary symbols (e.g., "foo/bar"). Symbol tuning leverages the intuition that when a model cannot use instructions or natural language labels to figure out a task, it must instead do so by learning the input-label mappings. We experiment with symbol tuning across Flan-PaLM models up to 540B parameters and observe benefits across various settings. First, symbol tuning boosts performance on unseen in-context learning tasks and is much more robust to underspecified prompts, such as those without instructions or without natural language labels. Second, symbol-tuned models are much stronger at algorithmic reasoning tasks, with up to 18.2% better performance on the List Functions benchmark and up to 15.3% better performance on the Simple Turing Concepts benchmark. Finally, symbol-tuned models show large improvements in following flipped-labels presented in-context, meaning that they are more capable of using in-context information to override prior semantic knowledge.
翻訳日:2024-01-03 02:30:38 公開日:2023-12-30
# Atom Skippingに基づく依存ランダム分布のクラス

A Class of Dependent Random Distributions Based on Atom Skipping ( http://arxiv.org/abs/2304.14954v2 )

ライセンス: Link先を確認
Dehua Bi and Yuan Ji(参考訳) 我々は,グループ化されたデータに対するベイズ的非パラメトリックモデルであるPlaid Atoms Model (PAM)を提案する。 原子スキッピング」というアイデアに基づいて開発されたPAMは、複数のグループにまたがる依存するランダム分布とクラスタを生成するモデルの、確立されたカテゴリの一部である。 原子スキッピングレファラーは、無限混合の原子に0重みを確率的に割り当てる。 グループ間をスキップする原子をデプロイすると、PAMはグループ間で重なり合うクラスタと非重なり合うクラスタリングパターンを生成する。 結果として、クラスタの後方確率を単一のグループに排他的に報告したり、グループのサブセット間で共有したりするなど、解釈可能な後部推論が可能となる。 提案するモデルと関連するモデルの理論的性質について論じる。 多変量またはカウントデータに対する提案モデルの拡張について述べる。 実世界のデータセットを用いたシミュレーション研究と応用は、既存のモデルと比較して新しいモデルのパフォーマンスを示している。

We propose the Plaid Atoms Model (PAM), a novel Bayesian nonparametric model for grouped data. Founded on an idea of `atom skipping', PAM is part of a well-established category of models that generate dependent random distributions and clusters across multiple groups. Atom skipping referrs to stochastically assigning 0 weights to atoms in an infinite mixture. Deploying atom skipping across groups, PAM produces a dependent clustering pattern with overlapping and non-overlapping clusters across groups. As a result, interpretable posterior inference is possible such as reporting the posterior probability of a cluster being exclusive to a single group or shared among a subset of groups. We discuss the theoretical properties of the proposed and related models. Minor extensions of the proposed model for multivariate or count data are presented. Simulation studies and applications using real-world datasets illustrate the performance of the new models with comparison to existing models.
翻訳日:2024-01-03 02:29:51 公開日:2023-12-30
# 深層学習モデルを用いた人株取引者のチャート分析手法のシミュレーション

Using a Deep Learning Model to Simulate Human Stock Trader's Methods of Chart Analysis ( http://arxiv.org/abs/2304.14870v2 )

ライセンス: Link先を確認
Sungwoo Kang, Jong-Kook Kim(参考訳) 効率的な市場仮説にもかかわらず、多くの研究は株式市場における非効率性の存在を示唆し、市場上利益を得る技術の開発に繋がる。 近年のシステム取引は、市場行動を分析し予測するための強力なツールとしてディープラーニングスキームが登場し、大きな進歩を遂げている。 本稿では,専門家の技術アナリストの取引方法に触発された手法を提案する。 この計画では、過去600日間の株価を見て、次のd日で株価が10%上昇するか20%下落するかを予測している。 さらに,提案手法では,Resnet(ディープラーニングモデル)が接続やロジットをスキップすることで,予測の確率を増大させる。 モデルは韓国と米国の株式市場の過去のデータを使って訓練され、テストされた。 5の周期ラベルを使うことが最良の結果をもたらすことを示す。 韓国市場では、利益は市場リターンの39%以上、利益はアメリカの市場リターンの40%以上に達した。

Despite the efficient market hypothesis, many studies suggest the existence of inefficiencies in the stock market leading to the development of techniques to gain above-market returns. Systematic trading has undergone significant advances in recent decades with deep learning schemes emerging as a powerful tool for analyzing and predicting market behavior. In this paper, a method is proposed that is inspired by how professional technical analysts trade. This scheme looks at stock prices of the previous 600 days and predicts whether the stock price will rise or fall 10% or 20% within the next D days. Plus, the proposed method uses the Resnet's (a deep learning model) skip connections and logits to increase the probability of the prediction. The model was trained and tested using historical data from both the Korean and US stock markets. We show that using the period label of 5 gives the best result. On Korea market it achieved a profit more than 39% above the market return, and a profit more than 40% above the market return on the US market.
翻訳日:2024-01-03 02:29:38 公開日:2023-12-30
# 分子内の電子デコヒーレンス経路のマッピング

Mapping Electronic Decoherence Pathways in Molecules ( http://arxiv.org/abs/2306.08574v3 )

ライセンス: Link先を確認
Ignacio Gustin, Chang Woo Kim, David W. McCamant and Ignacio Franco(参考訳) 分子電子量子デコヒーレンスを支配する基本的な化学原理を確立することは、依然として顕著な課題である。 溶媒と分子内振動や化学機能化がデコヒーレンスにどのように寄与するかといった基本的な疑問は未解決のままであり、最先端の理論的および実験的アプローチの到達を超えている。 そこで本研究では, 凝縮相環境に浸漬した分子クロマトフォの電子的デコヒーレンス経路を分離し, 電子的量子コヒーレンスの損失を解明する手法を開発した。 そこで本研究では, 共鳴ラマン分光法を, 室温, 溶媒, 蛍光分子, 非蛍光分子の化学複雑度で分子スペクトル密度を再構成する一般的な実験手法として同定した。 次に、スペクトル密度から脱コヒーレンスダイナミクスを定量的に捉え、脱コヒーレンス経路を個々の分子振動や溶媒モードによる寄与に分解して同定する方法を示す。 DNA塩基チミンの水中における電子的脱コヒーレンス経路の解析による戦略の有用性について述べる。 電子コヒーレンスは約30 fsで崩壊する。 早期のデコヒーレンスは分子内振動によって決定され、溶媒によって全崩壊する。 チミンの化学置換は、チミン環と水との水素結合相互作用によってデコヒーレンスを調節し、最も速いデコヒーレンスへと導く。 温度の上昇は溶媒の寄与の重要性を高めるため脱コヒーレンスを速くするが、初期の脱コヒーレンスダイナミクスはそのまま残る。 開発された戦略は、分子構造と量子デコヒーレンスの間の関係を確立する重要な機会を開き、それを合理的に調節する化学戦略を開発する。

Establishing the fundamental chemical principles that govern molecular electronic quantum decoherence has remained an outstanding challenge. Fundamental questions such as how solvent and intramolecular vibrations or chemical functionalization contribute to the decoherence remain unanswered and are beyond the reach of state-of-the-art theoretical and experimental approaches. Here we address this challenge by developing a strategy to isolate electronic decoherence pathways for molecular chromophores immersed in condensed phase environments that enables elucidating how electronic quantum coherence is lost. For this, we first identify resonance Raman spectroscopy as a general experimental method to reconstruct molecular spectral densities with full chemical complexity at room temperature, in solvent, and for fluorescent and non-fluorescent molecules. We then show how to quantitatively capture the decoherence dynamics from the spectral density and identify decoherence pathways by decomposing the overall coherence loss into contributions due to individual molecular vibrations and solvent modes. We illustrate the utility of the strategy by analyzing the electronic decoherence pathways of the DNA base thymine in water. Its electronic coherences decay in ~ 30 fs. The early-time decoherence is determined by intramolecular vibrations while the overall decay by solvent. Chemical substitution of thymine modulates the decoherence with hydrogen-bond interactions of the thymine ring with water leading to the fastest decoherence. Increasing temperature leads to faster decoherence as it enhances the importance of solvent contributions but leaves the early-time decoherence dynamics intact. The developed strategy opens key opportunities to establish the connection between molecular structure and quantum decoherence as needed to develop chemical strategies to rationally modulate it.
翻訳日:2024-01-03 02:23:00 公開日:2023-12-30
# 拡散モデルにおける負転移の対応

Addressing Negative Transfer in Diffusion Models ( http://arxiv.org/abs/2306.00354v3 )

ライセンス: Link先を確認
Hyojun Go, JinYoung Kim, Yunsung Lee, Seunghyun Lee, Shinhyeok Oh, Hyeongdon Moon, Seungtaek Choi(参考訳) 拡散に基づく生成モデルは様々な領域で顕著な成功を収めている。 マルチタスク学習(MTL)の形式を表現するために、異なるノイズレベルを同時に含むタスクの認知に関する共有モデルを訓練する。 しかし、MTLの観点からの拡散モデルの解析と改善はいまだに未検討である。 特に、mtlはよく知られた負の伝達現象につながり、タスク間の衝突によって特定のタスクのパフォーマンスが低下することがある。 本稿では,MTL の観点から拡散訓練を解析し,(O1) 雑音レベルの差が大きくなるにつれてタスク間のタスク親和性が低下し,(O2) 負の伝達が拡散訓練においても生じるという2つの重要な観察結果を示す。 これらの観測に基づいて、負の伝達を緩和することで拡散訓練を強化することを目指している。 これを実現するために,既存のMLL手法の活用を提案するが,膨大なタスクが存在するため,タスク毎の損失や勾配を計算するのに計算コストがかかる。 この課題に対処するために,タスクを小さなタスククラスタにクラスタ化し,MTLメソッドを適用することを提案する。 具体的には、(O2)に基づいて、クラスタ内のタスク間の時間的近接を強制するために間隔クラスタリングを用いる。 本研究では,信号対雑音比,時間ステップ,タスク親和性を用いて,動的計画法を用いて区間クラスタリングを解決できることを示す。 本手法は,mtl法の効率的な計算を可能にすることにより,拡散モデルにおける負の伝達問題に対処する。 提案するクラスタリングの有効性とmtl法との統合を各種実験により検証し,実証した。 1) 世代品質と品質の向上 2)拡散モデルのより高速な訓練収束。

Diffusion-based generative models have achieved remarkable success in various domains. It trains a shared model on denoising tasks that encompass different noise levels simultaneously, representing a form of multi-task learning (MTL). However, analyzing and improving diffusion models from an MTL perspective remains under-explored. In particular, MTL can sometimes lead to the well-known phenomenon of negative transfer, which results in the performance degradation of certain tasks due to conflicts between tasks. In this paper, we first aim to analyze diffusion training from an MTL standpoint, presenting two key observations: (O1) the task affinity between denoising tasks diminishes as the gap between noise levels widens, and (O2) negative transfer can arise even in diffusion training. Building upon these observations, we aim to enhance diffusion training by mitigating negative transfer. To achieve this, we propose leveraging existing MTL methods, but the presence of a huge number of denoising tasks makes this computationally expensive to calculate the necessary per-task loss or gradient. To address this challenge, we propose clustering the denoising tasks into small task clusters and applying MTL methods to them. Specifically, based on (O2), we employ interval clustering to enforce temporal proximity among denoising tasks within clusters. We show that interval clustering can be solved using dynamic programming, utilizing signal-to-noise ratio, timestep, and task affinity for clustering objectives. Through this, our approach addresses the issue of negative transfer in diffusion models by allowing for efficient computation of MTL methods. We validate the efficacy of proposed clustering and its integration with MTL methods through various experiments, demonstrating 1) improved generation quality and 2) faster training convergence of diffusion models.
翻訳日:2024-01-03 02:19:34 公開日:2023-12-30
# スケルトンベース行動認識のためのグラフ畳み込みニューラルネットワークのロバスト性に関するフーリエ解析

Fourier Analysis on Robustness of Graph Convolutional Neural Networks for Skeleton-based Action Recognition ( http://arxiv.org/abs/2305.17939v2 )

ライセンス: Link先を確認
Nariki Tanaka, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) フーリエ解析を用いて、骨格に基づく行動認識のためのグラフ畳み込みニューラルネットワーク(GCN)の堅牢性と脆弱性について検討する。 我々は,グラフフーリエ変換 (GFT) と離散フーリエ変換 (DFT) の組み合わせであるジョイントフーリエ変換 (JFT) を採用し,敵対的攻撃や共通の腐敗に対して,敵対的に訓練されたGCNの堅牢性を検討する。 NTU RGB+Dデータセットによる実験結果から,畳み込みニューラルネットワークに基づく画像分類において通常発生する,敵対的攻撃と低周波摂動の堅牢性トレードオフは導入されないことが明らかとなった。 この知見は, 敵意攻撃に対するロバスト性を高めるための実践的アプローチであり, スケルトンベース行動認識における共通の腐敗を示唆する。 さらに,Fourierアプローチでは,骨格部閉塞症に対する脆弱性を説明できないことが判明した。 これらの知見はGCNの堅牢性に対する理解を深め、骨格に基づく行動認識のためのより堅牢な学習手法の開発を導く可能性がある。

Using Fourier analysis, we explore the robustness and vulnerability of graph convolutional neural networks (GCNs) for skeleton-based action recognition. We adopt a joint Fourier transform (JFT), a combination of the graph Fourier transform (GFT) and the discrete Fourier transform (DFT), to examine the robustness of adversarially-trained GCNs against adversarial attacks and common corruptions. Experimental results with the NTU RGB+D dataset reveal that adversarial training does not introduce a robustness trade-off between adversarial attacks and low-frequency perturbations, which typically occurs during image classification based on convolutional neural networks. This finding indicates that adversarial training is a practical approach to enhancing robustness against adversarial attacks and common corruptions in skeleton-based action recognition. Furthermore, we find that the Fourier approach cannot explain vulnerability against skeletal part occlusion corruption, which highlights its limitations. These findings extend our understanding of the robustness of GCNs, potentially guiding the development of more robust learning methods for skeleton-based action recognition.
翻訳日:2024-01-03 02:17:48 公開日:2023-12-30
# ChatGPTはテキストに関わっているか? ChatGPT生成テキスト検出のためのポーランド率の測定

Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect ChatGPT-Generated Text ( http://arxiv.org/abs/2307.11380v2 )

ライセンス: Link先を確認
Lingyi Yang, Feng Jiang, Haizhou Li(参考訳) テキスト生成におけるchatgptのような大規模言語モデルの顕著な能力は、読者に感銘を与え、研究者は誤情報、フィッシング、学術的不正など潜在的なリスクを軽減するために検出器を考案した。 それにもかかわらず、これまでのほとんどの研究は、純粋なChatGPT生成テキストと人間が認可したテキストとを区別する検出器の作成を主な目的としてきた。 しかし、このアプローチは、ChatGPTをポリケートしたテキストのような人間と機械のコラボレーションによって生成されたテキストの識別に失敗する。 このギャップに対処し,より堅牢な検出器の構築を容易にする新しいデータセットであるhpt(chatgpt-polished academic abstracts)を導入する。 純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。 また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratioを提案する。 結果のテキストにおけるChatGPTの影響の度合いを測定するメカニズムを提供する。 実験の結果,提案モデルではHPPTデータセットと既存の2つのデータセット(HC3とCDB)がより堅牢であることがわかった。 さらに,提案する「ポリッシュ比」は,チャットgptの関与度を定量化し,より包括的な説明を提供する。

The remarkable capabilities of large-scale language models, such as ChatGPT, in text generation have impressed readers and spurred researchers to devise detectors to mitigate potential risks, including misinformation, phishing, and academic dishonesty. Despite this, most previous studies have been predominantly geared towards creating detectors that differentiate between purely ChatGPT-generated texts and human-authored texts. This approach, however, fails to work on discerning texts generated through human-machine collaboration, such as ChatGPT-polished texts. Addressing this gap, we introduce a novel dataset termed HPPT (ChatGPT-polished academic abstracts), facilitating the construction of more robust detectors. It diverges from extant corpora by comprising pairs of human-written and ChatGPT-polished abstracts instead of purely ChatGPT-generated texts. Additionally, we propose the "Polish Ratio" method, an innovative measure of the degree of modification made by ChatGPT compared to the original human-written text. It provides a mechanism to measure the degree of ChatGPT influence in the resulting text. Our experimental results show our proposed model has better robustness on the HPPT dataset and two existing datasets (HC3 and CDB). Furthermore, the "Polish Ratio" we proposed offers a more comprehensive explanation by quantifying the degree of ChatGPT involvement.
翻訳日:2024-01-03 02:11:39 公開日:2023-12-30
# 線形バンドイットの性能と理論的保証のバランスをとる幾何アウェアアプローチ

Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits ( http://arxiv.org/abs/2306.14872v3 )

ライセンス: Link先を確認
Yuwei Luo, Mohsen Bayati(参考訳) 本論文は,d$-dimensional stochastic linear bandit literature(d$-dimensional stochastic linear bandit literature)における最近の研究の動機である。 この課題は、これらのアルゴリズムが特定の問題インスタンスではうまく機能しないが、典型例では優れているという事実から生じる。 そこで本研究では,問題パラメータ周辺の不確かさ楕円の幾何学的性質を追跡する新しいデータ駆動手法を提案する。 この手法により,Greedy,OFUL,Thompson サンプリングを含む幅広いアルゴリズムに対して,幾何情報を含むインスタンス依存の頻繁な後悔境界を定式化することができる。 この結果、ベースアルゴリズムが性能が悪い問題インスタンスを識別して ``course-correct" することができる。 コース修正アルゴリズムは、$T$周期決定シナリオに対して$\tilde{\mathcal{O}}(d\sqrt{T})$のミニマックス最適後悔を達成し、その経験的有効性を含む基本アルゴリズムの望ましい属性を効果的に維持する。 シミュレーションの結果を合成データと実データを用いて検証する。

This paper is motivated by recent research in the $d$-dimensional stochastic linear bandit literature, which has revealed an unsettling discrepancy: algorithms like Thompson sampling and Greedy demonstrate promising empirical performance, yet this contrasts with their pessimistic theoretical regret bounds. The challenge arises from the fact that while these algorithms may perform poorly in certain problem instances, they generally excel in typical instances. To address this, we propose a new data-driven technique that tracks the geometric properties of the uncertainty ellipsoid around the main problem parameter. This methodology enables us to formulate an instance-dependent frequentist regret bound, which incorporates the geometric information, for a broad class of base algorithms, including Greedy, OFUL, and Thompson sampling. This result allows us to identify and ``course-correct" problem instances in which the base algorithms perform poorly. The course-corrected algorithms achieve the minimax optimal regret of order $\tilde{\mathcal{O}}(d\sqrt{T})$ for a $T$-period decision-making scenario, effectively maintaining the desirable attributes of the base algorithms, including their empirical efficacy. We present simulation results to validate our findings using synthetic and real data.
翻訳日:2024-01-03 02:07:54 公開日:2023-12-30
# 画像拡散モデルによる時間整合映像の編集

Edit Temporal-Consistent Videos with Image Diffusion Model ( http://arxiv.org/abs/2308.09091v2 )

ライセンス: Link先を確認
Yuanzhi Wang, Yong Li, Xiaoya Zhang, Xin Liu, Anbo Dai, Antoni B. Chan, Zhen Cui(参考訳) 大規模なテキスト・ツー・イメージ(T2I)拡散モデルが拡張され、動画編集性能が向上した。 それでも、生成されたビデオは、ビデオの時間的特性が忠実にモデル化されていないため、通常、空間的不規則性と時間的不整合を示す。 本稿では,頑健なテキストガイド付き映像編集における時間的不整合を軽減すべく,エレガントかつ効果的な時間整合ビデオ編集(tcve)手法を提案する。 空間コンテンツ操作のための事前学習されたt2i 2d unetの活用に加えて,入力映像列の時間的コヒーレンスを忠実に捉えるための専用の時間的unetアーキテクチャを構築した。 さらに、空間焦点成分と時間焦点成分とのコヒーレンス及び相互関係を確立するために、コヒーシブな空間時間モデリングユニットを定式化する。 このユニットは、事前訓練された2d unetと時間的unetを効果的に相互接続し、ビデオコンテンツ操作能力を維持しつつ、生成されたビデオの時間的一貫性を高める。 定量的な実験結果と可視化結果から,TCVEはビデオ時間的一貫性とビデオ編集能力の両方において,現場の既存のベンチマークを超越して最先端のパフォーマンスを達成できることを示した。

Large-scale text-to-image (T2I) diffusion models have been extended for text-guided video editing, yielding impressive zero-shot video editing performance. Nonetheless, the generated videos usually show spatial irregularities and temporal inconsistencies as the temporal characteristics of videos have not been faithfully modeled. In this paper, we propose an elegant yet effective Temporal-Consistent Video Editing (TCVE) method to mitigate the temporal inconsistency challenge for robust text-guided video editing. In addition to the utilization of a pretrained T2I 2D Unet for spatial content manipulation, we establish a dedicated temporal Unet architecture to faithfully capture the temporal coherence of the input video sequences. Furthermore, to establish coherence and interrelation between the spatial-focused and temporal-focused components, a cohesive spatial-temporal modeling unit is formulated. This unit effectively interconnects the temporal Unet with the pretrained 2D Unet, thereby enhancing the temporal consistency of the generated videos while preserving the capacity for video content manipulation. Quantitative experimental results and visualization results demonstrate that TCVE achieves state-of-the-art performance in both video temporal consistency and video editing capability, surpassing existing benchmarks in the field.
翻訳日:2024-01-03 01:59:50 公開日:2023-12-30
# テキスト対ビデオ生成のためのデュアルストリーム拡散ネット

Dual-Stream Diffusion Net for Text-to-Video Generation ( http://arxiv.org/abs/2308.08316v3 )

ライセンス: Link先を確認
Binhui Liu, Xin Liu, Anbo Dai, Zhiyong Zeng, Dan Wang, Zhen Cui, Jian Yang(参考訳) 近年の拡散モデルにより、テキスト・ビデオ生成が注目を集めている。 しかし、重要なボトルネックは、生成ビデオがフリックやアーティファクトを運ぶことが多いことだ。 本研究では,ビデオ生成におけるコンテンツ変動の一貫性を改善するために,DSDN(Dual-stream diffusion net)を提案する。 特に、デザインされた2つの拡散ストリーム、ビデオコンテンツとモーションブランチは、パーソナライズされたビデオのバリエーションとコンテンツを生成するために、それぞれのプライベートスペースで個別に実行されるだけでなく、デザインされたクロストランスフォーマーインタラクションモジュールを活用することで、コンテンツとモーションドメインの整合性も向上する。 また,映像の動作をファシリケートする動き分解器とコンバインダも導入する。 定性的かつ定量的な実験により、フリック数が少ない素晴らしい連続ビデオが作成できることを示した。

With the emerging diffusion models, recently, text-to-video generation has aroused increasing attention. But an important bottleneck therein is that generative videos often tend to carry some flickers and artifacts. In this work, we propose a dual-stream diffusion net (DSDN) to improve the consistency of content variations in generating videos. In particular, the designed two diffusion streams, video content and motion branches, could not only run separately in their private spaces for producing personalized video variations as well as content, but also be well-aligned between the content and motion domains through leveraging our designed cross-transformer interaction module, which would benefit the smoothness of generated videos. Besides, we also introduce motion decomposer and combiner to faciliate the operation on video motion. Qualitative and quantitative experiments demonstrate that our method could produce amazing continuous videos with fewer flickers.
翻訳日:2024-01-03 01:59:03 公開日:2023-12-30
# 少数ショット言語誘導マニピュレーションが可能な蒸留機能フィールド

Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation ( http://arxiv.org/abs/2308.07931v2 )

ライセンス: Link先を確認
William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola(参考訳) 自己教師型および言語教師型画像モデルは、一般化に重要な世界の豊富な知識を含んでいる。 しかし、多くのロボットタスクは、しばしば2D画像の特徴に欠けている3D幾何学の詳細な理解を必要とする。 この研究は、2d基礎モデルからの正確な3d幾何学とリッチセマンティクスを組み合わせるために蒸留フィーチャフィールドを活用することで、ロボット操作のためのこの2dから3dへのギャップを橋渡しする。 そこで本研究では,これらの空間的および意味的先行性を利用した6-DOFの把握と配置のための数ショット学習手法を提案する。 視覚言語モデルであるCLIPから抽出した特徴を用いて、自由テキスト自然言語による操作のための新しいオブジェクトを指定し、未知の表現や新しいカテゴリのオブジェクトに一般化する能力を示す。

Self-supervised and language-supervised image models contain rich knowledge of the world that is important for generalization. Many robotic tasks, however, require a detailed understanding of 3D geometry, which is often lacking in 2D image features. This work bridges this 2D-to-3D gap for robotic manipulation by leveraging distilled feature fields to combine accurate 3D geometry with rich semantics from 2D foundation models. We present a few-shot learning method for 6-DOF grasping and placing that harnesses these strong spatial and semantic priors to achieve in-the-wild generalization to unseen objects. Using features distilled from a vision-language model, CLIP, we present a way to designate novel objects for manipulation via free-text natural language, and demonstrate its ability to generalize to unseen expressions and novel categories of objects.
翻訳日:2024-01-03 01:58:44 公開日:2023-12-30
# 教師なし領域適応のための対比バイプロジェクタ

Contrastive Bi-Projector for Unsupervised Domain Adaption ( http://arxiv.org/abs/2308.07017v2 )

ライセンス: Link先を確認
Lin-Chieh Huang, Hung-Hsu Tsai(参考訳) 本稿では,既存のUDA手法を改善するために,コントラッシブ・バイプロジェクタ(CBP)に基づく新しいunsupervised domain adaption(UDA)手法を提案する。 ここでCBPUDAと呼ばれ、特徴抽出器(FE)を効果的に促進し、分類とドメイン適応のための曖昧な特徴の生成を減らす。 CBPは、2つの分類器を入力特徴から2つの異なる特徴へのマッピングを行う2つのプロジェクタに置き換えるという点で、従来の2つの分類器ベースの手法とは異なる。 これら2つのプロジェクタとCBPUDAのFEは、強力な分類性能を持つように、より洗練された決定境界を得るために逆向きに訓練することができる。 提案する損失関数の2つの性質を解析した。 第1の特性は、共役予測エントロピーの上界を導出することであり、これは、提案された損失関数(CD損失)を形成するために用いられる。 CDの損失は、対照的な学習と二クラス化の利点を生かしている。 2つ目の特性は、CD損失の勾配を分析し、CD損失の欠点を克服することである。 本論文では, 勾配スケーリング (gs) 方式の開発において, 2つ目の特性を生かした。 CBPUDAのトレーニングでは、コントラスト学習と対逆学習を同時に行う必要があるため、GSスキームはCD損失の不安定な問題に対処するために利用することができる。 したがって、GSスキームによるCD損失を用いることで、上述した問題を克服し、クラス内の特徴をよりコンパクトにし、クラス間の特徴を識別できるようにする。 実験結果は,本論文で検討されている従来の uda 法よりも cbpuda が優れていることを示す。

This paper proposes a novel unsupervised domain adaption (UDA) method based on contrastive bi-projector (CBP), which can improve the existing UDA methods. It is called CBPUDA here, which effectively promotes the feature extractors (FEs) to reduce the generation of ambiguous features for classification and domain adaption. The CBP differs from traditional bi-classifier-based methods at that these two classifiers are replaced with two projectors of performing a mapping from the input feature to two distinct features. These two projectors and the FEs in the CBPUDA can be trained adversarially to obtain more refined decision boundaries so that it can possess powerful classification performance. Two properties of the proposed loss function are analyzed here. The first property is to derive an upper bound of joint prediction entropy, which is used to form the proposed loss function, contrastive discrepancy (CD) loss. The CD loss takes the advantages of the contrastive learning and the bi-classifier. The second property is to analyze the gradient of the CD loss and then overcome the drawback of the CD loss. The result of the second property is utilized in the development of the gradient scaling (GS) scheme in this paper. The GS scheme can be exploited to tackle the unstable problem of the CD loss because training the CBPUDA requires using contrastive learning and adversarial learning at the same time. Therefore, using the CD loss with the GS scheme overcomes the problem mentioned above to make features more compact for intra-class and distinguishable for inter-class. Experimental results express that the CBPUDA is superior to conventional UDA methods under consideration in this paper for UDA and fine-grained UDA tasks.
翻訳日:2024-01-03 01:58:29 公開日:2023-12-30
# オープンボキャブラリー物体検出のための自己学習

Taming Self-Training for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2308.06412v2 )

ライセンス: Link先を確認
Shiyu Zhao, Samuel Schulter, Long Zhao, Zhixing Zhang, Vijay Kumar B.G, Yumin Suh, Manmohan Chandraker, Dimitris N. Metaxas(参考訳) 近年の研究では、事前学習された視覚と言語モデル(VLM)から擬似ラベル(PL)を活用することにより、オープン語彙オブジェクト検出(OVD)において有望な性能を示した。 しかし、PLを活用するために強力で広く利用されている教師学生の自己学習は、OVDではめったに行われない。 本研究は, VLMからのノイズの多いPLとPLの頻繁な分布変化という,OVDにおける自己学習の2つの課題を明らかにする。 これらの課題に対処するために,2つの重要な視点からOVDの自己学習を行うSAS-Detを提案する。 まず,標準検出をオープンブランチとクローズドブランチに分割したsaf(slit-and-fusion)ヘッドを提案する。 この設計は疑似ボックスからのノイズの監視を減らすことができる。 さらに、異なる訓練データから相補的知識を学習し、融合時の性能を著しく向上させる。 第二に、閉集合タスクとは異なり、OVDにおけるPL分布は教師モデルによってのみ決定される。 本稿では,教師の更新回数を減らすための定期的な更新戦略を導入し,pl分布の変化頻度を減少させ,学習過程を安定化させる。 SAS-Detは効率的かつ効果的である。 SAS-Detは、COCOとLVISのベンチマークでそれぞれ37.4 AP50と29.1 APrを達成した。

Recent studies have shown promising performance in open-vocabulary object detection (OVD) by utilizing pseudo labels (PLs) from pretrained vision and language models (VLMs). However, teacher-student self-training, a powerful and widely used paradigm to leverage PLs, is rarely explored for OVD. This work identifies two challenges of using self-training in OVD: noisy PLs from VLMs and frequent distribution changes of PLs. To address these challenges, we propose SAS-Det that tames self-training for OVD from two key perspectives. First, we present a split-and-fusion (SAF) head that splits a standard detection into an open-branch and a closed-branch. This design can reduce noisy supervision from pseudo boxes. Moreover, the two branches learn complementary knowledge from different training data, significantly enhancing performance when fused together. Second, in our view, unlike in closed-set tasks, the PL distributions in OVD are solely determined by the teacher model. We introduce a periodic update strategy to decrease the number of updates to the teacher, thereby decreasing the frequency of changes in PL distributions, which stabilizes the training process. Extensive experiments demonstrate SAS-Det is both efficient and effective. SAS-Det outperforms recent models of the same scale by a clear margin and achieves 37.4 AP50 and 29.1 APr on novel categories of the COCO and LVIS benchmarks, respectively.
翻訳日:2024-01-03 01:58:00 公開日:2023-12-30
# Phoneme Hallucinator: セット拡張によるワンショット音声変換

Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion ( http://arxiv.org/abs/2308.06382v2 )

ライセンス: Link先を確認
Siyuan Shan, Yang Li, Amartya Banerjee, Junier B. Oliva(参考訳) 音声変換(VC)は、人の声を他の人の声に似せて、言語的内容を保存することを目的としている。 既存の手法は、コンテンツインテリジェンスと話者類似性の間のジレンマに悩まされる;すなわち、高いインテリジェンスを持つ方法は通常、低い話者類似性を持つが、高い話者類似性を持つ方法は、高いインテリジェンスを達成するために、多くのターゲット話者音声データを必要とする。 本研究では,両世界の最良を達成できる新しい方法であるtextit{Phoneme Hallucinator}を提案する。 Phoneme HallucinatorはワンショットVCモデルであり、短いターゲット話者の声(例えば3秒)のみに基づいて、多様化された高忠実度ターゲット話者音素を幻覚させる新しいモデルを採用している。 幻覚音素は、隣人に基づく音声変換を行うために利用される。 私たちのモデルはテキストフリーで任意のvcモデルで、テキストアノテーションを必要とせず、見当たらない話者への変換をサポートします。 客観的および主観的評価は, 既存のVC手法よりも, 可知性と話者類似性の両方において優れていたことを示している。

Voice conversion (VC) aims at altering a person's voice to make it sound similar to the voice of another person while preserving linguistic content. Existing methods suffer from a dilemma between content intelligibility and speaker similarity; i.e., methods with higher intelligibility usually have a lower speaker similarity, while methods with higher speaker similarity usually require plenty of target speaker voice data to achieve high intelligibility. In this work, we propose a novel method \textit{Phoneme Hallucinator} that achieves the best of both worlds. Phoneme Hallucinator is a one-shot VC model; it adopts a novel model to hallucinate diversified and high-fidelity target speaker phonemes based just on a short target speaker voice (e.g. 3 seconds). The hallucinated phonemes are then exploited to perform neighbor-based voice conversion. Our model is a text-free, any-to-any VC model that requires no text annotations and supports conversion to any unseen speaker. Objective and subjective evaluations show that \textit{Phoneme Hallucinator} outperforms existing VC methods for both intelligibility and speaker similarity.
翻訳日:2024-01-03 01:57:34 公開日:2023-12-30
# 空間的に変化するナノフォトニクスニューラルネットワーク

Spatially Varying Nanophotonic Neural Networks ( http://arxiv.org/abs/2308.03407v3 )

ライセンス: Link先を確認
Kaixuan Wei, Xiao Li, Johannes Froech, Praneeth Chakravarthula, James Whitehead, Ethan Tseng, Arka Majumdar, Felix Heide(参考訳) 人工知能の爆発的な成長とエネルギーコストは、従来の電子プロセッサに代わる潜在的な選択肢として、新しいコンピューティングモードへの強い関心を喚起した。 電子の代わりに光子を使って演算を行うフォトニックプロセッサは、超低レイテンシと消費電力で光ニューラルネットワークを実現することを約束している。 しかし、基礎となるネットワーク設計によって制限された既存の光学ニューラルネットワークは、最先端の電子ニューラルネットワークよりもはるかに低い画像認識精度を実現している。 本研究では,センサに画像を記録する前に,撮像中にニューラルネットワーク計算を行うフラットカメラ光学系に超並列光学計算を組み込むことにより,このギャップを解消する。 具体的には、大きなカーネルを活用し、低次元再パラメータ化技術を用いて学習した大カーネル空間変動畳み込みニューラルネットワークを提案する。 我々は,平面型メタ光学系を用いて,角度依存応答を誘導するナノフォトニック構造を含むネットワークを実験的にインスタンス化する。 約2kパラメータを持つ非常に軽量な電子バックエンドと組み合わせることで、再構成可能なナノフォトニクスニューラルネットワークは、cifar-10データセットにおけるブラインドテスト分類精度が72.76\%に達し、初めて、光ニューラルネットワークが、57mパラメータを持つ最初のモダンなデジタルニューラルネットワーク -- alexnet (72.64\%) よりも優れており、光ニューラルネットワークが現代のディープラーニングの時代にもたらされている。

The explosive growth of computation and energy cost of artificial intelligence has spurred strong interests in new computing modalities as potential alternatives to conventional electronic processors. Photonic processors that execute operations using photons instead of electrons, have promised to enable optical neural networks with ultra-low latency and power consumption. However, existing optical neural networks, limited by the underlying network designs, have achieved image recognition accuracy far below that of state-of-the-art electronic neural networks. In this work, we close this gap by embedding massively parallelized optical computation into flat camera optics that perform neural network computation during the capture, before recording an image on the sensor. Specifically, we harness large kernels and propose a large-kernel spatially-varying convolutional neural network learned via low-dimensional reparameterization techniques. We experimentally instantiate the network with a flat meta-optical system that encompasses an array of nanophotonic structures designed to induce angle-dependent responses. Combined with an extremely lightweight electronic backend with approximately 2K parameters we demonstrate a reconfigurable nanophotonic neural network reaches 72.76\% blind test classification accuracy on CIFAR-10 dataset, and, as such, the first time, an optical neural network outperforms the first modern digital neural network -- AlexNet (72.64\%) with 57M parameters, bringing optical neural network into modern deep learning era.
翻訳日:2024-01-03 01:55:53 公開日:2023-12-30
# 確率的保証者による象徴的、統計的AI統合のための満足度モデュロの解決

Solving Satisfiability Modulo Counting for Symbolic and Statistical AI Integration With Provable Guarantees ( http://arxiv.org/abs/2309.08883v2 )

ライセンス: Link先を確認
Jinzhao Li, Nan Jiang, Yexiang Xue(参考訳) SMC(Satifiability Modulo Counting)は、象徴的な意思決定と統計的推論の両方を必要とする問題を含む。 その一般的な定式化は、象徴的および統計的人工知能の交差点で多くの現実世界の問題を捉えている。 SMCは確率的結果を制御するための政策介入を探索する。 SMCの解法は、非常に難解な性質($\text{NP}^{\text{PP}}$-complete)のために困難であり、統計的推論と記号的推論を取り入れている。 SMC解決に関するこれまでの研究は、特に組合せ制約が存在する場合、証明可能な保証が欠如し、また/または準最適経験的性能に悩まされている。 本稿では,NPオーラへのアクセスが可能な多項式アルゴリズムであるXOR-SMCを提案する。 XOR-SMCは、SMCで数えられるモデルを、ランダムなXOR制約を受けるSAT式に置き換えることで、非常に難解なSMCを満足できる問題に変換する。 社会的善のためのAIにおける重要なSMC問題の解決に関する実験は、XOR-SMCが真に最適に近い解を見つけることを示した。

Satisfiability Modulo Counting (SMC) encompasses problems that require both symbolic decision-making and statistical reasoning. Its general formulation captures many real-world problems at the intersection of symbolic and statistical Artificial Intelligence. SMC searches for policy interventions to control probabilistic outcomes. Solving SMC is challenging because of its highly intractable nature($\text{NP}^{\text{PP}}$-complete), incorporating statistical inference and symbolic reasoning. Previous research on SMC solving lacks provable guarantees and/or suffers from sub-optimal empirical performance, especially when combinatorial constraints are present. We propose XOR-SMC, a polynomial algorithm with access to NP-oracles, to solve highly intractable SMC problems with constant approximation guarantees. XOR-SMC transforms the highly intractable SMC into satisfiability problems, by replacing the model counting in SMC with SAT formulae subject to randomized XOR constraints. Experiments on solving important SMC problems in AI for social good demonstrate that XOR-SMC finds solutions close to the true optimum, outperforming several baselines which struggle to find good approximations for the intractable model counting in SMC.
翻訳日:2024-01-03 01:46:38 公開日:2023-12-30
# 潜在確率力学系による早期警告指標

Early warning indicators via latent stochastic dynamical systems ( http://arxiv.org/abs/2309.03842v2 )

ライセンス: Link先を確認
Lingyu Feng, Ting Gao, Wang Xiao and Jinqiao Duan(参考訳) 脳疾患、自然災害、金融危機、工学的信頼性など、多くの現実の応用において、複雑なシステムや高次元観測データにおける急激な動的遷移の早期警戒指標の検出が不可欠である。 この目的のために、低次元多様体の潜在進化力学を捉える有向異方性拡散写像という新しいアプローチを開発する。 次に、3つの効果的な警告信号(Onsager-Machlup Indicator、Sample Entropy Indicator、Transition Probability Indicator)を潜在座標と潜在確率力学系から導出する。 この枠組みを検証するために,本手法を正真正銘脳波(eeg)データに適用する。 我々の早期警戒指標は状態遷移中の先端を検出することができることがわかった。 このフレームワークは潜在力学を現実世界のデータに橋渡しするだけでなく、複雑な高次元時系列に自動ラベリングする可能性を示す。

Detecting early warning indicators for abrupt dynamical transitions in complex systems or high-dimensional observation data is essential in many real-world applications, such as brain diseases, natural disasters, financial crises, and engineering reliability. To this end, we develop a novel approach: the directed anisotropic diffusion map that captures the latent evolutionary dynamics in the low-dimensional manifold. Then three effective warning signals (Onsager-Machlup Indicator, Sample Entropy Indicator, and Transition Probability Indicator) are derived through the latent coordinates and the latent stochastic dynamical systems. To validate our framework, we apply this methodology to authentic electroencephalogram (EEG) data. We find that our early warning indicators are capable of detecting the tipping point during state transition. This framework not only bridges the latent dynamics with real-world data but also shows the potential ability for automatic labeling on complex high-dimensional time series.
翻訳日:2024-01-03 01:46:15 公開日:2023-12-30
# グラフ信号処理のための一般化ベニシングモーメントを用いたデータ適応グラフフレームレット

Data-Adaptive Graph Framelets with Generalized Vanishing Moments for Graph Signal Processing ( http://arxiv.org/abs/2309.03537v2 )

ライセンス: Link先を確認
Ruigang Zheng and Xiaosheng Zhuang(参考訳) 本稿では,階層分割に基づく局所化サポートを持つグラフ上のタイトなフレームレットシステムを構築するための,新しい汎用フレームワークを提案する。 この構成は分割木に基づく大きな一般化を持つパラメトリ化されたグラフフレームレットシステムを提供し、それによって信号群の低ランク構造に最も適する低次元部分空間のサイズを見つけることができる。 部分空間の直交分解はグラフフレームレットの「一般化された消滅モーメント」の定義に重要な要素を与える。 データ適応設定において、グラフフレームレットシステムは、パラメータ化に関してスティーフェル多様体上の最適化問題を解いて得られる。 さらに、そのようなグラフフレームレットシステムは、スティーフェル多様体上のその後の最適化問題を解決し、与えられたグラフ信号の族に対して最もスパーシティを提供することを目標として、さらに改善することができる。 実験結果から,学習したグラフフレームレットシステムは非線形近似および復調タスクにおいて優れた性能を示した。

In this paper, we propose a novel and general framework to construct tight framelet systems on graphs with localized supports based on hierarchical partitions. Our construction provides parametrized graph framelet systems with great generality based on partition trees, by which we are able to find the size of a low-dimensional subspace that best fits the low-rank structure of a family of signals. The orthogonal decomposition of subspaces provides a key ingredient for the definition of "generalized vanishing moments" for graph framelets. In a data-adaptive setting, the graph framelet systems can be learned by solving an optimization problem on Stiefel manifolds with respect to our parameterization. Moreover, such graph framelet systems can be further improved by solving a subsequent optimization problem on Stiefel manifolds, aiming at providing the utmost sparsity for a given family of graph signals. Experimental results show that our learned graph framelet systems perform superiorly in non-linear approximation and denoising tasks.
翻訳日:2024-01-03 01:45:59 公開日:2023-12-30
# 中枢神経系におけるニューロン集団による情報処理:データと操作の数学的構造

Information Processing by Neuron Populations in the Central Nervous System: Mathematical Structure of Data and Operations ( http://arxiv.org/abs/2309.02332v2 )

ライセンス: Link先を確認
Martin N. P. Nilsson(参考訳) 哺乳類の中枢神経系の複雑な構造では、神経細胞が集団を形成する。 軸索束はスパイクトレインを用いてこれらのクラスタ間で通信する。 しかし、これらのニューロン集団の正確なエンコーディングと操作はまだ発見されていない。 私たちの分析では、開始点は可塑性を持つジェネリックニューロンの最先端の機構モデルである。 情報の表現と操作は、凸錐の代数によって正確に特徴づけられる。 さらに、これらのニューロン集団は単なる受動送信機ではない。 それらはこの代数構造内の演算子として働き、低レベルプログラミング言語の機能を反映している。 これらの集団が相互に結合すると、簡潔だが強力な代数表現を具現化する。 これらのネットワークにより、特殊化、一般化、新規検出、次元減少、逆モデリング、予測、連想記憶といった多くの操作を実装できる。 広い意味で言えば、この研究は認知科学やaiといった分野の理解を深める上でマトリックス埋め込みの可能性を照らしている。 これらの埋め込みは、ベクトル上の概念処理と階層的記述の能力を高める。

In the intricate architecture of the mammalian central nervous system, neurons form populations. Axonal bundles communicate between these clusters using spike trains. However, these neuron populations' precise encoding and operations have yet to be discovered. In our analysis, the starting point is a state-of-the-art mechanistic model of a generic neuron endowed with plasticity. From this simple framework emerges a subtle mathematical construct: The representation and manipulation of information can be precisely characterized by an algebra of convex cones. Furthermore, these neuron populations are not merely passive transmitters. They act as operators within this algebraic structure, mirroring the functionality of a low-level programming language. When these populations interconnect, they embody succinct yet potent algebraic expressions. These networks allow them to implement many operations, such as specialization, generalization, novelty detection, dimensionality reduction, inverse modeling, prediction, and associative memory. In broader terms, this work illuminates the potential of matrix embeddings in advancing our understanding in fields like cognitive science and AI. These embeddings enhance the capacity for concept processing and hierarchical description over their vector counterparts.
翻訳日:2024-01-03 01:45:42 公開日:2023-12-30
# オンライン適応マハラノビス距離推定

Online Adaptive Mahalanobis Distance Estimation ( http://arxiv.org/abs/2309.01030v2 )

ライセンス: Link先を確認
Lianke Qin, Aravind Reddy, Zhao Song(参考訳) mahalanobisのメトリクスは、k$-nearestの隣人、$k$-meansクラスタリング、$k$-mediansクラスタリングといった手法とともに、機械学習で広く使われている。 その重要性にもかかわらず、Mahalanobisメトリクスのアルゴリズムを高速化するためにスケッチ技術を適用するという以前の作業はない。 本稿では,マハラノビス計量の次元減少の研究を開始する。 特に,マハラノビス距離の近似距離推定(ade)問題を解決するための効率的なデータ構造を提供する。 まずランダム化されたモンテカルロデータ構造を提供する。 次に,<textit{adaptive} クエリのシーケンスと,Mahalanobis メトリック行列とデータポイントのオンライン更新を処理可能な主要なデータ構造を提供するために,それを適用できることを示し,Mahalanobis メトリックのオンライン学習のための事前アルゴリズムと組み合わせて使用できるようにする。

Mahalanobis metrics are widely used in machine learning in conjunction with methods like $k$-nearest neighbors, $k$-means clustering, and $k$-medians clustering. Despite their importance, there has not been any prior work on applying sketching techniques to speed up algorithms for Mahalanobis metrics. In this paper, we initiate the study of dimension reduction for Mahalanobis metrics. In particular, we provide efficient data structures for solving the Approximate Distance Estimation (ADE) problem for Mahalanobis distances. We first provide a randomized Monte Carlo data structure. Then, we show how we can adapt it to provide our main data structure which can handle sequences of \textit{adaptive} queries and also online updates to both the Mahalanobis metric matrix and the data points, making it amenable to be used in conjunction with prior algorithms for online learning of Mahalanobis metrics.
翻訳日:2024-01-03 01:45:27 公開日:2023-12-30
# ReMAV: 自動車のリワードモデリングによる異常事象の発見

ReMAV: Reward Modeling of Autonomous Vehicles for Finding Likely Failure Events ( http://arxiv.org/abs/2308.14550v2 )

ライセンス: Link先を確認
Aizaz Sharif and Dusica Marijan(参考訳) 自動運転車は高度な運転システムであり、様々な敵の攻撃に弱いことで知られており、車両の安全性を損ね、他の道路利用者に危険を及ぼす。 環境との対話によって複雑な敵を積極的に訓練するのではなく、自律走行車が自信を欠く州のみに検索スペースをインテリジェントに見つけて削減する必要がある。 本稿では,まずオフライン軌道を用いたブラックボックステストフレームワークReMAVを提案し,既存の自動運転車の動作を分析し,故障発生の確率を求めるための適切なしきい値を決定する。 そこで,本稿では3段階の手法を紹介する。 一 試験中の自動運転車のオフライン状態動作ペアを使用する。 二 運転決定の不確実な状態を分析するために設計した報酬モデリング技術を用いて抽象行動表現を構築すること。 iii) 運転決定が自信に欠ける最小限の摂動攻撃に対して、外乱モデルを用いる。 私たちの報酬モデリング技術は、標準的な自動運転車がうまく機能している場合でも、おそらく不確かな行動の領域をハイライトできる行動表現の作成に役立ちます。 我々は,シングルエージェントとマルチエージェントインタラクションを含む3つの異なる運転シナリオを用いて,高忠実な都市走行環境で実験を行う。 本実験では, 自動運転車による車両衝突, 路面衝突, 歩行者衝突, オフロードステアリングの発生件数が35, 23, 48, 50%増加し, 事故発生件数が有意に増加した。 remavと2つのベースラインを比較して,すべての評価指標のベースラインと比較して,remavが障害イベント生成において有意に有効性を示すことを示した。

Autonomous vehicles are advanced driving systems that are well known to be vulnerable to various adversarial attacks, compromising vehicle safety and posing a risk to other road users. Rather than actively training complex adversaries by interacting with the environment, there is a need to first intelligently find and reduce the search space to only those states where autonomous vehicles are found to be less confident. In this paper, we propose a black-box testing framework ReMAV that uses offline trajectories first to analyze the existing behavior of autonomous vehicles and determine appropriate thresholds to find the probability of failure events. To this end, we introduce a three-step methodology which i) uses offline state action pairs of any autonomous vehicle under test, ii) builds an abstract behavior representation using our designed reward modeling technique to analyze states with uncertain driving decisions, and iii) uses a disturbance model for minimal perturbation attacks where the driving decisions are less confident. Our reward modeling technique helps in creating a behavior representation that allows us to highlight regions of likely uncertain behavior even when the standard autonomous vehicle performs well. We perform our experiments in a high-fidelity urban driving environment using three different driving scenarios containing single- and multi-agent interactions. Our experiment shows an increase in 35, 23, 48, and 50% in the occurrences of vehicle collision, road object collision, pedestrian collision, and offroad steering events, respectively by the autonomous vehicle under test, demonstrating a significant increase in failure events. We compare ReMAV with two baselines and show that ReMAV demonstrates significantly better effectiveness in generating failure events compared to the baselines in all evaluation metrics.
翻訳日:2024-01-03 01:44:04 公開日:2023-12-30
# split-and-denoise: ローカルディファレンシャルプライバシによる大規模言語モデル推論の保護

Split-and-Denoise: Protect large language model inference with local differential privacy ( http://arxiv.org/abs/2310.09130v2 )

ライセンス: Link先を確認
Peihua Mai, Ran Yan, Zhe Huang, Youjia Yang, Yan Pang(参考訳) 大規模言語モデル(LLM)は、ベクトル空間に隠されたセマンティクスをキャプチャすることで、自然言語理解において強力な能力を示す。 このプロセスは、さまざまな下流タスクに対するテキスト埋め込みの価値を強化し、Embing-as-a-Service(EaaS)ビジネスモデルを育む。 しかし、サーバーへのテキストの直接送信は、プライバシー漏洩の危険性がほとんどない。 この問題を緩和するために、最小計算コストでクライアント側でトークン埋め込み層を実行するためにモデルを分割する革新的なフレームワークであるSplit-N-Denoise(SnD)を紹介します。 これにより、クライアントは、サーバに埋め込みを送信する前にノイズを導入し、その後、下流タスクの摂動された出力埋め込みを受信および復号化することができる。 提案手法は, LLMの推論段階に設計されており, モデルパラメータの変更は不要である。 広範な実験により、SnDは様々なLLMアーキテクチャとさまざまな下流タスク間でのプライバシーとユーティリティのトレードオフを最適化する効果を示した。 結果は、クライアントにローカルプライバシー保護のためのプライバシ保護ソリューションを提供するベースラインと比較して、同じプライバシ予算の下での大幅なパフォーマンス向上を示している。

Large Language Models (LLMs) shows powerful capability in natural language understanding by capturing hidden semantics in vector space. This process enriches the value of the text embeddings for various downstream tasks, thereby fostering the Embedding-as-a-Service (EaaS) business model. However, the direct transmission of text to servers poses a largely unaddressed risk of privacy leakage. To mitigate this issue, we introduce Split-N-Denoise (SnD), an innovative framework that split the model to execute the token embedding layer on the client side at minimal computational cost. This allows the client to introduce noise prior to transmitting the embeddings to the server, and subsequently receive and denoise the perturbed output embeddings for downstream tasks. Our approach is designed for the inference stage of LLMs and requires no modifications to the model parameters. Extensive experiments demonstrate SnD's effectiveness in optimizing the privacy-utility tradeoff across various LLM architectures and diverse downstream tasks. The results reveal a significant performance improvement under the same privacy budget compared to the baseline, offering clients a privacy-preserving solution for local privacy protection.
翻訳日:2024-01-03 01:37:44 公開日:2023-12-30
# COPlanner: 保守的にロールアウトするが、モデルベースのRLを最適に探索する計画

COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL ( http://arxiv.org/abs/2310.07220v2 )

ライセンス: Link先を確認
Xiyao Wang, Ruijie Zheng, Yanchao Sun, Ruonan Jia, Wichayaporn Wongkamjan, Huazhe Xu, Furong Huang(参考訳) ダイナスタイルのモデルベース強化学習には、ポリシー学習のサンプルを生成するモデルロールアウトと、動的モデル学習の現在のポリシーを用いた実環境探索の2つのフェーズが含まれる。 しかし、複雑な実世界の環境のため、モデル予測誤差を伴う不完全な力学モデルを学ぶことは避けられない。 本稿では、保守的なモデルロールアウトと楽観的な環境探索を伴う不正確な学習力学モデル問題に対処するためのモデルベースメソッドの計画駆動フレームワークである$\texttt{COPlanner}$を提案する。 texttt{coplanner}$は、不確実性を認識したモデル予測制御(up-mpc)コンポーネントを利用して、多段階の不確実性推定を計画する。 この推定の不確実性は、モデルロールアウト時のペナルティや、実環境探索時のボーナスとして機能し、アクションを選択する。 その結果、$\texttt{coplanner}$は保守的なモデルロールアウトを通じて不確定な領域のモデルを避けることができ、モデルエラーの影響を緩和する。 同時に、楽観的な実環境探索を通じてモデル誤差を積極的に低減するために、高逆モデル不確実領域を探索する。 $\texttt{COPlanner}$は、任意のdynaスタイルのモデルベースのメソッドに適用可能な、プラグインとプレイのフレームワークである。 実験結果から,強いモデルベース手法のサンプル効率と漸近性の両方が,$\texttt{COPlanner}$と組み合わせて大幅に改善されていることが示された。

Dyna-style model-based reinforcement learning contains two phases: model rollouts to generate sample for policy learning and real environment exploration using current policy for dynamics model learning. However, due to the complex real-world environment, it is inevitable to learn an imperfect dynamics model with model prediction error, which can further mislead policy learning and result in sub-optimal solutions. In this paper, we propose $\texttt{COPlanner}$, a planning-driven framework for model-based methods to address the inaccurately learned dynamics model problem with conservative model rollouts and optimistic environment exploration. $\texttt{COPlanner}$ leverages an uncertainty-aware policy-guided model predictive control (UP-MPC) component to plan for multi-step uncertainty estimation. This estimated uncertainty then serves as a penalty during model rollouts and as a bonus during real environment exploration respectively, to choose actions. Consequently, $\texttt{COPlanner}$ can avoid model uncertain regions through conservative model rollouts, thereby alleviating the influence of model error. Simultaneously, it explores high-reward model uncertain regions to reduce model error actively through optimistic real environment exploration. $\texttt{COPlanner}$ is a plug-and-play framework that can be applied to any dyna-style model-based methods. Experimental results on a series of proprioceptive and visual continuous control tasks demonstrate that both sample efficiency and asymptotic performance of strong model-based methods are significantly improved combined with $\texttt{COPlanner}$.
翻訳日:2024-01-03 01:37:24 公開日:2023-12-30
# 視覚言語指導調整データセットの評価と改善について

On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets ( http://arxiv.org/abs/2310.06594v2 )

ライセンス: Link先を確認
Ning Liao, Shaofeng Zhang, Renqiu Xia, Min Cao, Yu Qiao, Junchi Yan(参考訳) 近年,マルチモーダル・インストラクション・チューニングの研究が進み,これらのモデルを評価するためのベンチマークが提案されている。 本稿では,モデルを直接評価する代わりに,VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。 また、全能VLITモデルを構築するためのデータセットを構築する方法を模索しており、VLITモデルをベンチマークするための基盤となるプロトコルを確立するのにも有用であると考えている。 未解決の課題であるVLITデータセットを効果的に評価するために,1つのデータセットをチューニングし,他のデータセットを順に評価するチューニング横断評価パラダイムを提案する。 各音質評価実験セットについて,メタ品質(MQ)をBLEU,METEOR,ROUGE-Lといったキャプション指標のセットの平均値として定義し,特定のデータセットやサンプルの品質を定量化する。 本研究では,データセットの包括性を評価するために,すべてのチューン評価セットをカバーするデータセット品質(dq)を開発する。 包括的データセットの構築と実用アプリケーションのための全能モデル開発の基礎を築くため、サンプル品質(SQ)を定義し、各サンプルの全側面品質を定量化する。 大規模実験は提案した評価パラダイムの合理性を検証する。 総合評価に基づいて,各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LION(Refining VisiOn-Language InstructiOn tuNing)を構築した。 注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。 さらに、REVO-LIONは強力なモデルの開発を促進するだけでなく、将来の研究に便利なベンチマークとして設計された評価セットも組み込んでいる。

There is an emerging line of research on multimodal instruction tuning, and a line of benchmarks has been proposed for evaluating these models recently. Instead of evaluating the models directly, in this paper, we try to evaluate the Vision-Language Instruction-Tuning (VLIT) datasets. Also, we seek the way of building a dataset for developing an all-powerful VLIT model, which we believe could also be of utility for establishing a grounded protocol for benchmarking VLIT models. For effective evaluation of VLIT datasets that remains an open question, we propose a tune-cross-evaluation paradigm: tuning on one dataset and evaluating on the others in turn. For each single tune-evaluation experiment set, we define the Meta Quality (MQ) as the mean score obtained by a set of caption metrics including BLEU, METEOR, and ROUGE-L to quantify the quality of a certain dataset or a sample. On this basis, to evaluate the comprehensiveness of a dataset, we develop the Dataset Quality (DQ) covering all tune-evaluation sets. To lay the foundation for building a comprehensive dataset and developing an all-powerful model for practical applications, we define the Sample Quality (SQ) to quantify the all-sided quality of each sample. Extensive experiments validate the rationality of the proposed evaluation paradigm. Based on the holistic evaluation, we build a new dataset, REVO-LION (REfining VisiOn-Language InstructiOn tuNing), by collecting samples with higher SQ from each dataset. Remarkably, even with only half of the complete data, the model trained on REVO-LION can achieve the performance comparable to simply adding all VLIT datasets up. Furthermore, REVO-LION not only facilitates the development of a powerful model but also incorporates an evaluation set, which is designed to serve as a convenient benchmark for future research in the field.
翻訳日:2024-01-03 01:36:41 公開日:2023-12-30
# プライバシー保護データからの条件密度推定

Conditional Density Estimations from Privacy-Protected Data ( http://arxiv.org/abs/2310.12781v3 )

ライセンス: Link先を確認
Yifei Xiong, Nianqiao P. Ju, Sanguo Zhang(参考訳) 現代の統計分析や機械学習アプリケーションの多くは、センシティブなユーザデータのトレーニングモデルを必要とする。 差分プライバシーは、個人レベルのユーザーの情報が漏洩しないという正式な保証を提供する。 このフレームワークでは、ランダム化されたアルゴリズムが機密データに校正されたノイズを注入し、プライバシー保護されたデータセットやクエリを生成する。 しかし、統計解析中に民営化されたデータのみへのアクセスを制限することは、機密データの基礎となるパラメータの正当な推論を計算的に困難にする。 本研究では,プライバシ保護データセットからのシミュレーションに基づく推論手法を提案する。 逐次モンテカルロ近似ベイズ計算に加えて、観測されたプライベートクエリ結果からモデルパラメータの後方分布を近似するために、ニューラル条件密度推定器をフレキシブルな分布の族として使用する。 伝染病モデルと通常の線形回帰モデルを用いて,離散時系列データを用いた手法を提案する。 プライバシ保護機構によって引き起こされるバイアスを正すための有効な統計的推論手順を設計する必要性と実現可能性を示す。

Many modern statistical analysis and machine learning applications require training models on sensitive user data. Differential privacy provides a formal guarantee that individual-level information about users does not leak. In this framework, randomized algorithms inject calibrated noise into the confidential data, resulting in privacy-protected datasets or queries. However, restricting access to only privatized data during statistical analysis makes it computationally challenging to make valid inferences on the parameters underlying the confidential data. In this work, we propose simulation-based inference methods from privacy-protected datasets. In addition to sequential Monte Carlo approximate Bayesian computation, we use neural conditional density estimators as a flexible family of distributions to approximate the posterior distribution of model parameters given the observed private query results. We illustrate our methods on discrete time-series data under an infectious disease model and with ordinary linear regression models. Illustrating the privacy-utility trade-off, our experiments and analysis demonstrate the necessity and feasibility of designing valid statistical inference procedures to correct for biases introduced by the privacy-protection mechanisms.
翻訳日:2024-01-03 01:24:03 公開日:2023-12-30
# 非シャープ計測によるしきい値量子画像への新しいアプローチ

A Novel Approach to Threshold Quantum Images by using Unsharp Measurements ( http://arxiv.org/abs/2310.10753v2 )

ライセンス: Link先を確認
Ayan Barui, Mayukha Pal and Prasanta K. Panigrahi(参考訳) 画像ヒストグラムに依存したアンシャープ計測(UM)により、グレースケール画像のしきい値とバイナライズのためのハイブリッド量子アプローチを提案する。 一般に、ヒストグラムは、オブジェクトに対応する多重重なり正規分布、または、小さいが著しい重なりを持つ画像特徴によって特徴づけられ、適切なしきい値を確立するのが困難である。 提案手法は、正規分布を局所化デルタ関数にマッピングするUMパラメータの選択に基づいて、重複するガウスのピークと隣接する局所最小値間の距離を分散として利用する。 その効果を示すために、qiskitのノイズの多い量子環境上でその後の実装が行われる。 このプロセスは、マルチモーダルヒストグラムに対して繰り返し繰り返され、より多くのしきい値を取得し、様々なライフライクな画像に適用して高コントラスト画像を取得し、ピーク信号対雑音比と構造類似度指標値に匹敵する結果となる。 得られた閾値は、閾値エンコーダと統合された新しい拡張量子画像表現と、バイナリ化された画像全体を表す効率的な量子コンパレータ(qc)を用いて、グレースケール画像の双対化に使用される。 このアプローチは、従来のモデルと比較して提案するqcとアルゴリズム全体の複雑さを大幅に削減する。

We propose a hybrid quantum approach to threshold and binarize a grayscale image through unsharp measurements (UM) relying on image histogram. Generally, the histograms are characterized by multiple overlapping normal distributions corresponding to objects, or image features with small but significant overlaps, making it challenging to establish suitable thresholds. The proposed methodology uses peaks of the overlapping Gaussians and the distance between neighboring local minima as the variance, based on which the UM parameters are chosen, that maps the normal distribution into a localized delta function. To demonstrate its efficacy, subsequent implementation is done on noisy quantum environments in Qiskit. This process is iteratively repeated for a multimodal histogram to obtain more thresholds, which are then applied to various life-like pictures to get high-contrast images, resulting in comparable peak signal-to-noise ratio and structural similarity index measure values. The obtained thresholds are used to binarize a grayscale image by using novel enhanced quantum image representation integrated with a threshold encoder and an efficient quantum comparator (QC) that depicts the whole binarized picture. This approach significantly reduces the complexity of the proposed QC and of the whole algorithm when compared to earlier models.
翻訳日:2024-01-03 01:22:07 公開日:2023-12-30
# 蓄積局所効果(ALE)に基づく機械学習と古典的手法を用いた統計的推測

Statistical inference using machine learning and classical techniques based on accumulated local effects (ALE) ( http://arxiv.org/abs/2310.09877v2 )

ライセンス: Link先を確認
Chitu Okoli(参考訳) Accumulated Local Effects (ALE)は、ブラックボックス機械学習(ML)アルゴリズムの結果のグローバルな説明のためのモデルに依存しないアプローチである。 ALEに基づく統計的推論を行う上で、少なくとも3つの課題がある。ALE分析の信頼性を保証すること、特に小さなデータセットのコンテキストにおいて、MLにおける変数の全体的な影響を直感的に特徴づけること、MLデータ分析から堅牢な推論を行うことである。 これに対し、ALEを用いた統計的推論のための革新的なツールや手法を導入し、データセットのサイズに合わせて自己申告された信頼区間を確立し、結果変数尺度と正規化尺度の両方に直感的に影響を示すALE効果尺度を導入する。 さらに,これらのツールを用いて信頼性の高い統計的推論を行う方法を示すとともに,r の 'ale' パッケージに実装されているフレキシブルなパターンを例示する。本研究は ale に関する議論と ml と統計解析におけるその適用可能性を促進し,この分野の課題を克服するための実用的なソリューションを提供する。

Accumulated Local Effects (ALE) is a model-agnostic approach for global explanations of the results of black-box machine learning (ML) algorithms. There are at least three challenges with conducting statistical inference based on ALE: ensuring the reliability of ALE analyses, especially in the context of small datasets; intuitively characterizing a variable's overall effect in ML; and making robust inferences from ML data analysis. In response, we introduce innovative tools and techniques for statistical inference using ALE, establishing bootstrapped confidence intervals tailored to dataset size and introducing ALE effect size measures that intuitively indicate effects on both the outcome variable scale and a normalized scale. Furthermore, we demonstrate how to use these tools to draw reliable statistical inferences, reflecting the flexible patterns ALE adeptly highlights, with implementations available in the 'ale' package in R. This work propels the discourse on ALE and its applicability in ML and statistical analysis forward, offering practical solutions to prevailing challenges in the field.
翻訳日:2024-01-03 01:20:55 公開日:2023-12-30
# 解答集合プログラミングにおける人間の条件推論

Human Conditional Reasoning in Answer Set Programming ( http://arxiv.org/abs/2311.04412v2 )

ライセンス: Link先を確認
Chiaki Sakama(参考訳) 条件文"P=>Q"(PならQ)と各事実が与えられた場合、人間の推論では4種類の推論が観察される。 先行 (AA) が P から Q へ、後続 (AC) が Q から、後続 (DA) が -Q から、後続 (DC) が -Q から、後続 (DC) が -P から -Q を否定する。 AA と DC は論理的に有効であるが、AC と DA は論理的に無効であり、しばしば論理的誤りと呼ばれる。 それでも、人間はしばしば日常生活において実用的推論としてacやdaを実行する。 本稿では,応答集合プログラミングにおけるAC,DA,DC推論を実現する。 8種類の異なる補完が導入され、それらの意味論は回答集合によって与えられる。 認知心理学において、形式的性質を調査し、人間の推論課題を特徴付ける。 これらの完了は、AIの常識推論にも適用される。

Given a conditional sentence "P=>Q" (if P then Q) and respective facts, four different types of inferences are observed in human reasoning. Affirming the antecedent (AA) (or modus ponens) reasons Q from P; affirming the consequent (AC) reasons P from Q; denying the antecedent (DA) reasons -Q from -P; and denying the consequent (DC) (or modus tollens) reasons -P from -Q. Among them, AA and DC are logically valid, while AC and DA are logically invalid and often called logical fallacies. Nevertheless, humans often perform AC or DA as pragmatic inference in daily life. In this paper, we realize AC, DA and DC inferences in answer set programming. Eight different types of completion are introduced and their semantics are given by answer sets. We investigate formal properties and characterize human reasoning tasks in cognitive psychology. Those completions are also applied to commonsense reasoning in AI.
翻訳日:2024-01-03 01:13:01 公開日:2023-12-30
# LCPR: 位置認識のためのマルチスケールアテンションベースLiDARカメラフュージョンネットワーク

LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition ( http://arxiv.org/abs/2311.03198v2 )

ライセンス: Link先を確認
Zijie Zhou, Jingyi Xu, Guangming Xiong, Junyi Ma(参考訳) 位置認識(place recognition)は、自動運転車が以前gpsで利用した場所を特定する上で最も重要なモジュールの1つである。 センサ融合は個々のセンサの弱点を克服する有効な方法と考えられている。 近年,複数のセンサから情報を取り出すマルチモーダル位置認識が注目されている。 しかし、既存のマルチモーダル位置認識手法のほとんどは、視野の狭いカメラ画像のみを使用するため、異なるモダリティの特徴間の不均衡が生じ、センサ融合の有効性が制限される。 本稿では,多視点RGB画像とLiDAR点群を融合させて,環境の識別的・ヨー回転不変表現を生成する,頑健なマルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。 環境の異なるモードからのパノラマビューとその相関をフル活用するために,マルチスケールの注意に基づく融合モジュールを提案する。 提案手法をnuScenesデータセット上で評価した結果,多視点カメラとLiDARデータを有効利用して,視点変化に対する強靭性を維持しつつ,位置認識性能を向上させることができることがわかった。 私たちのオープンソースコードと事前トレーニングされたモデルは、https://github.com/ZhouZijie77/LCPR で利用可能です。

Place recognition is one of the most crucial modules for autonomous vehicles to identify places that were previously visited in GPS-invalid environments. Sensor fusion is considered an effective method to overcome the weaknesses of individual sensors. In recent years, multimodal place recognition fusing information from multiple sensors has gathered increasing attention. However, most existing multimodal place recognition methods only use limited field-of-view camera images, which leads to an imbalance between features from different modalities and limits the effectiveness of sensor fusion. In this paper, we present a novel neural network named LCPR for robust multimodal place recognition, which fuses LiDAR point clouds with multi-view RGB images to generate discriminative and yaw-rotation invariant representations of the environment. A multi-scale attention-based fusion module is proposed to fully exploit the panoramic views from different modalities of the environment and their correlations. We evaluate our method on the nuScenes dataset, and the experimental results show that our method can effectively utilize multi-view camera and LiDAR data to improve the place recognition performance while maintaining strong robustness to viewpoint changes. Our open-source code and pre-trained models are available at https://github.com/ZhouZijie77/LCPR .
翻訳日:2024-01-03 01:11:41 公開日:2023-12-30
# 医用画像キャプションのための混合意味学習によるSam-Guided Enhanced Fine-Grained Encoding

Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning for Medical Image Captioning ( http://arxiv.org/abs/2311.01004v2 )

ライセンス: Link先を確認
Zhenyu Zhang, Benlu Wang, Weijie Liang, Yizhi Li, Xuechen Guo, Guanhong Wang, Shiyan Li, Gaoang Wang(参考訳) マルチモーダリティと大規模言語モデルの開発により、深層学習に基づく医用画像キャプション技術は、貴重な診断勧告を提供する可能性を秘めている。 しかし、現在の一般的なテキストと画像事前訓練モデルでは、医療画像内の複雑な詳細を記述することには満足できない。 本稿では,S segment Any Model (SAM) でガイドされた新しい医用画像キャプション手法を提案する。 さらに,医用画像における総合的情報と細部情報の両方を同時に捉えるために,意味学習を混合した独特の事前学習戦略を用いる。 医療画像の記述を生成するための各種評価指標において,事前学習したBLIP2モデルよりも優れていることを示す。

With the development of multimodality and large language models, the deep learning-based technique for medical image captioning holds the potential to offer valuable diagnostic recommendations. However, current generic text and image pre-trained models do not yield satisfactory results when it comes to describing intricate details within medical images. In this paper, we present a novel medical image captioning method guided by the segment anything model (SAM) to enable enhanced encoding with both general and detailed feature extraction. In addition, our approach employs a distinctive pre-training strategy with mixed semantic learning to simultaneously capture both the overall information and finer details within medical images. We demonstrate the effectiveness of this approach, as it outperforms the pre-trained BLIP2 model on various evaluation metrics for generating descriptions of medical images.
翻訳日:2024-01-03 01:10:59 公開日:2023-12-30
# 超広帯域における量子情報の多重処理

Multiplexed Processing of Quantum Information Across an Ultra-wide Optical Bandwidth ( http://arxiv.org/abs/2310.17819v3 )

ライセンス: Link先を確認
Alon Eldan, Ofek Gilon, Asher Lagemi, Elai Fishman Furman, Avi Pe'er(参考訳) 量子情報処理のプロトコルは量子技術の基盤であり、セキュアな通信(量子鍵分布)、量子状態のテレポート、量子計算の実装のための秘密の共有を可能にする。 様々なプロトコルがすでに実現され、商用化されているが、標準プロトコルのスループットと処理速度は一般的に低く、利用可能な量子光学光源(10-100 THz)の光帯域よりも低いMHzからGHzの範囲における測定装置の狭い電子帯域幅によって制限されている。 本稿では,全チャネルを同時に計測するためのパラメトリックホモダイン検出を用いて,多重周波数チャネル上で並列に量子情報を処理するための一般的な概念と方法を提案する。 本稿では, 多重連続可変量子鍵分布(CV-QKD)と多重連続可変量子テレポーテーションという2つの基本プロトコルを用いて概念を実証する。 CV-QKDプロトコルを実証・実証実験で実演し、23の非相関スペクトルチャネル上でQKDを正常に実行し、任意のチャネルにおける盗聴を検出する。 これらの多重化手法(および類似)は、数百のチャネル上で並列に量子処理を実行し、量子プロトコルのスループットを桁違いに増加させる可能性がある。

Protocols of quantum information processing are the foundation of quantum technology, allowing to share secrets at a distance for secure communication (quantum key distribution), to teleport quantum states, and to implement quantum computation. While various protocols have already been realized, and even commercialized, the throughput and processing speed of standard protocols is generally low, limited by the narrow electronic bandwidth of the measurement apparatus in the MHz-to-GHz range, which is orders-of-magnitude lower than the optical bandwidth of available quantum optical sources (10-100 THz). We present a general concept and methods to process quantum information in parallel over multiplexed frequency channels using parametric homodyne detection for measurement of all the channels simultaneously, thereby harnessing the optical bandwidth for quantum information in an efficient manner. We exemplify the concept through two basic protocols: Multiplexed Continuous-Variable Quantum Key Distribution (CV-QKD) and multiplexed continuous-variable quantum teleportation. We demonstrate the multiplexed CV-QKD protocol in a proof-of-principle experiment, where we successfully carry out QKD over 23 uncorrelated spectral channels, with capability to detect eavesdropping in any channel. These multiplexed methods (and similar) will enable to carry out quantum processing in parallel over hundreds of channels, potentially increasing the throughput of quantum protocols by orders of magnitude.
翻訳日:2024-01-03 01:09:30 公開日:2023-12-30
# インスタンス依存型ノイズラベルによるフェデレーション学習

Federated Learning with Instance-Dependent Noisy Labels ( http://arxiv.org/abs/2312.10324v2 )

ライセンス: Link先を確認
Lei Wang, Jieming Bian, Jie Xu(参考訳) ノイズの多いラベルを持つフェデレートラーニング(FL)は大きな課題となる。 集中学習でノイズの多いラベルを扱うために設計された既存の手法は、主に小さなデータセットサイズとクライアントデータの多様性のため、fl設定においてその効果を失う傾向がある。 FLをノイズラベルで扱う試みはいくつかあるが、主にクラス条件ノイズを含むシナリオに焦点を当てている。 本稿では,flにおけるインスタンス依存雑音(idn)のより困難かつ実用的な課題について検討する。 我々はFedBeat (Federated Learning with Bayesian Ensemble-Assisted transition Matrix Estimation)と呼ばれる新しいアルゴリズムを導入する。 FedBeatは,(1)弱いグローバルモデルを構築し,ベイズモデルアンサンブル法を用いて高信頼データを抽出するフェデレーションデータ抽出ステップを含む,IDN遷移行列(IDNTM)を用いて,グローバルな統計的に一貫した分類器を構築することを目的としている。 2) クライアントが抽出したデータに基づいてIDNTM推定ネットワークを協調的に訓練するフェデレーション遷移行列推定ステップ。 (3)IDNTMを利用して,雑音ラベルに適した損失関数を用いて,グローバルモデルの性能を向上させるフェデレーション分類器補正ステップ。 CIFAR-10 と SVHN で行った実験により,提案手法が最先端手法を著しく上回ることを確認した。

Federated learning (FL) with noisy labels poses a significant challenge. Existing methods designed for handling noisy labels in centralized learning tend to lose their effectiveness in the FL setting, mainly due to the small dataset size and the heterogeneity of client data. While some attempts have been made to tackle FL with noisy labels, they primarily focused on scenarios involving class-conditional noise. In this paper, we study the more challenging and practical issue of instance-dependent noise (IDN) in FL. We introduce a novel algorithm called FedBeat (Federated Learning with Bayesian Ensemble-Assisted Transition Matrix Estimation). FedBeat aims to build a global statistically consistent classifier using the IDN transition matrix (IDNTM), which encompasses three synergistic steps: (1) A federated data extraction step that constructs a weak global model and extracts high-confidence data using a Bayesian model ensemble method. (2) A federated transition matrix estimation step in which clients collaboratively train an IDNTM estimation network based on the extracted data. (3) A federated classifier correction step that enhances the global model's performance by training it using a loss function tailored for noisy labels, leveraging the IDNTM. Experiments conducted on CIFAR-10 and SVHN verify that the proposed method significantly outperforms state-of-the-art methods.
翻訳日:2024-01-03 00:53:00 公開日:2023-12-30
# 自殺行動の概念化:予測結果の説明を活用した縦断的ソーシャルメディア分析

Conceptualizing Suicidal Behavior: Utilizing Explanations of Predicted Outcomes to Analyze Longitudinal Social Media Data ( http://arxiv.org/abs/2312.08299v2 )

ライセンス: Link先を確認
Van Minh Nguyen, Nasheen Nur, William Stern, Thomas Mercer, Chiradeep Sen, Siddhartha Bhattacharyya, Victor Tumbiolo, Seng Jhing Goh(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中のメンタルヘルスの危機をエスカレートし、社会的孤立と経済的不安定が自殺行動の増大に寄与している。 自殺は、恥、虐待、放棄、うつ病、外傷後ストレス障害(PTSD)、注意欠陥/多動性障害(ADHD)、不安障害、双極性障害などの社会的要因によって引き起こされる。 これらの状況が発展するにつれて、自殺の兆候がソーシャルメディアの相互作用に現れる可能性がある。 人工知能(AI)技術を用いてソーシャルメディアデータを分析することは自殺行為のパターンを識別し、自殺予防機関、専門家、およびより広いコミュニティ意識のイニシアチブに貴重な洞察を与えるのに役立つ。 この目的の機械学習アルゴリズムは、大量の正確なラベル付きデータを必要とする。 これまでの研究では、縦断的なソーシャルメディアデータの解析とラベル付けに説明を取り込む可能性を十分に検討していない。 本研究は,redditユーザの投稿から各トークンを分類し,自殺イデオロギーを予測するための帰属スコアを付与する手法として,最先端言語モデルの上に,モデル記述法である層統合勾配を用いた。 データからトークンの属性を抽出し分析することにより、推論中に大きな言語モデルを用いることなく、自殺思考のためのソーシャルメディア投稿の事前スクリーニングを行う手法を提案する。

The COVID-19 pandemic has escalated mental health crises worldwide, with social isolation and economic instability contributing to a rise in suicidal behavior. Suicide can result from social factors such as shame, abuse, abandonment, and mental health conditions like depression, Post-Traumatic Stress Disorder (PTSD), Attention-Deficit/Hyperactivity Disorder (ADHD), anxiety disorders, and bipolar disorders. As these conditions develop, signs of suicidal ideation may manifest in social media interactions. Analyzing social media data using artificial intelligence (AI) techniques can help identify patterns of suicidal behavior, providing invaluable insights for suicide prevention agencies, professionals, and broader community awareness initiatives. Machine learning algorithms for this purpose require large volumes of accurately labeled data. Previous research has not fully explored the potential of incorporating explanations in analyzing and labeling longitudinal social media data. In this study, we employed a model explanation method, Layer Integrated Gradients, on top of a fine-tuned state-of-the-art language model, to assign each token from Reddit users' posts an attribution score for predicting suicidal ideation. By extracting and analyzing attributions of tokens from the data, we propose a methodology for preliminary screening of social media posts for suicidal ideation without using large language models during inference.
翻訳日:2024-01-03 00:50:36 公開日:2023-12-30
# 高等教育評価におけるコントラジェネレーティブAI検出

Contra generative AI detection in higher education assessments ( http://arxiv.org/abs/2312.05241v2 )

ライセンス: Link先を確認
Cesare G. Ardito(参考訳) 本稿では,高等教育評価における生成人工知能(AI)検出ツールの批判的分析について述べる。 特に教育における生成aiの急速な発展と普及は、伝統的な学術的整合性メカニズムの再評価を必要としている。 学術的整合性を維持するという文脈で,ai検出ツールの有効性,脆弱性,倫理的意義について検討する。 本研究は,AI検出に関わる実践的,哲学的な課題を精査するために,様々な事例研究,新聞記事,学生証言から洞察を合成する。 我々は、検出メカニズムへの依存は、AIがますます幅広い役割を果たす教育現場と不一致であると主張している。 本稿では,AI活用を取り入れたロバストな評価手法と教育方針への戦略的転換を提唱し,学術的完全性と評価の信頼性を確保した。

This paper presents a critical analysis of generative Artificial Intelligence (AI) detection tools in higher education assessments. The rapid advancement and widespread adoption of generative AI, particularly in education, necessitates a reevaluation of traditional academic integrity mechanisms. We explore the effectiveness, vulnerabilities, and ethical implications of AI detection tools in the context of preserving academic integrity. Our study synthesises insights from various case studies, newspaper articles, and student testimonies to scrutinise the practical and philosophical challenges associated with AI detection. We argue that the reliance on detection mechanisms is misaligned with the educational landscape, where AI plays an increasingly widespread role. This paper advocates for a strategic shift towards robust assessment methods and educational policies that embrace generative AI usage while ensuring academic integrity and authenticity in assessments.
翻訳日:2024-01-03 00:48:39 公開日:2023-12-30
# 微調整言語モデルの重みに時間がエンコードされる

Time is Encoded in the Weights of Finetuned Language Models ( http://arxiv.org/abs/2312.13401v2 )

ライセンス: Link先を確認
Kai Nylund, Suchin Gururangan, Noah A. Smith(参考訳) 新しい期間に言語モデルをカスタマイズするためのシンプルなツールであるtime vectorsを提案する。 時間ベクトルは、単一の時間(例えば、1年または月)からデータに基づいて言語モデルを微調整し、元の事前学習されたモデルの重みを減じて作成される。 このベクトルは、我々の実験が示すように、その期間からテキストの性能を向上させる重量空間の方向を特定する。 隣接した時間周期に特化した時間ベクトルは、多様体内でより近い位置にあるように見える。 この構造を用いて、時間ベクトル間の補間を行い、追加のトレーニングをすることなく、インターベンションと将来の時間により良いパフォーマンスを示す新しいモデルを誘導する。 我々は、異なるタスク、ドメイン、モデルサイズ、時間スケールにわたる発見の一貫性を実証する。 以上の結果から,時間は微調整モデルの重み空間に符号化されることが示唆された。

We present time vectors, a simple tool to customize language models to new time periods. Time vectors are created by finetuning a language model on data from a single time (e.g., a year or month), and then subtracting the weights of the original pretrained model. This vector specifies a direction in weight space that, as our experiments show, improves performance on text from that time period. Time vectors specialized to adjacent time periods appear to be positioned closer together in a manifold. Using this structure, we interpolate between time vectors to induce new models that perform better on intervening and future time periods, without any additional training. We demonstrate the consistency of our findings across different tasks, domains, model sizes, and time scales. Our results suggest that time is encoded in the weight space of finetuned models.
翻訳日:2024-01-02 21:05:15 公開日:2023-12-30
# Machine Mindset: MBTIによる大規模言語モデルの探索

Machine Mindset: An MBTI Exploration of Large Language Models ( http://arxiv.org/abs/2312.12999v3 )

ライセンス: Link先を確認
Jiaxi Cui, Liuzhenghao Lv, Jing Wen, Rongsheng Wang, Jing Tang, YongHong Tian, Li Yuan(参考訳) 本稿では,パーソナライズaiにおけるパーソナリティ一貫性の課題に対処するために,mbti(myers-briggs type indicator)パーソナリティ特性を大規模言語モデル(llm)に統合する新しいアプローチを提案する。 提案手法は,MBTI特性をLLMに埋め込むための2相微調整と直接選好最適化(DPO)を含む。 このアプローチにより、モデルはこれらの特性を内部化し、安定的で一貫したパーソナリティプロファイルを提供する。 我々は,様々な領域におけるモデルの有効性を実証し,モデル性能とそれぞれのmbti特性の整合を示す。 本稿では、パーソナリティデータセットの開発における重要な貢献と、llmにおけるパーソナリティ統合のための新しいトレーニング方法論を強調し、パーソナライズされたaiアプリケーションの可能性を高める。 また、当社のモデルとデータの一部を、 \url{https://github.com/PKU-YuanGroup/Machine-Mindset}でオープンソース化しました。

We present a novel approach for integrating Myers-Briggs Type Indicator (MBTI) personality traits into large language models (LLMs), addressing the challenges of personality consistency in personalized AI. Our method, "Machine Mindset," involves a two-phase fine-tuning and Direct Preference Optimization (DPO) to embed MBTI traits into LLMs. This approach ensures that models internalize these traits, offering a stable and consistent personality profile. We demonstrate the effectiveness of our models across various domains, showing alignment between model performance and their respective MBTI traits. The paper highlights significant contributions in the development of personality datasets and a new training methodology for personality integration in LLMs, enhancing the potential for personalized AI applications. We also open-sourced our model and part of the data at \url{https://github.com/PKU-YuanGroup/Machine-Mindset}.
翻訳日:2024-01-02 21:03:54 公開日:2023-12-30
# 空間符号化を用いた3次元形状解析のためのグループマルチビュートランス

Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding ( http://arxiv.org/abs/2312.16477v2 )

ライセンス: Link先を確認
Lixiang Xu, Qingzhe Cui, Richang Hong, Wei Xu, Enhong Chen, Xin Yuan, Chenglong Li, Yuanyan Tang(参考訳) 近年,ビューベース3次元形状認識手法の結果は飽和しており,パラメータが大きすぎるため,メモリ制限デバイスに優れた性能を持つモデルは展開できない。 この問題に対処するために,本分野の知識蒸留に基づく圧縮法を紹介し,モデル性能をできるだけ保ちながらパラメータ数を大幅に削減する。 具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。 GMViTでは、ビューレベルのViTが最初にビューレベルの機能間の関係を確立する。 さらに、より深い機能を捉えるために、グループ化モジュールを使用して、ビューレベルの機能をグループレベルの機能に拡張します。 最後に、グループレベルのViTは、グループレベルの特徴を完全な3D形状記述子に集約する。 特に,両vitsにおいて,カメラ座標の空間符号化を革新的な位置埋め込みとして導入する。 さらに,GMViT-simpleとGMViT-miniの2つの圧縮版を提案する。 そこで本研究では,gmvitプロセス全体において,各gmvit成分のキー出力を蒸留対象とする知識蒸留法を提案する。 大規模実験により提案手法の有効性が示された。 大規模モデルgmvitは、ベンチマークデータセットmodelnet、shapenetcore55、mcbにおいて優れた3d分類および検索結果を達成する。 GMViT-simpleとGMViT-miniは、それぞれパラメータサイズを8倍と17.6倍に削減し、分類と検索性能の少なくとも90%を維持しながら、平均1.5倍の形状認識速度を向上させる。

In recent years, the results of view-based 3D shape recognition methods have saturated, and models with excellent performance cannot be deployed on memory-limited devices due to their huge size of parameters. To address this problem, we introduce a compression method based on knowledge distillation for this field, which largely reduces the number of parameters while preserving model performance as much as possible. Specifically, to enhance the capabilities of smaller models, we design a high-performing large model called Group Multi-view Vision Transformer (GMViT). In GMViT, the view-level ViT first establishes relationships between view-level features. Additionally, to capture deeper features, we employ the grouping module to enhance view-level features into group-level features. Finally, the group-level ViT aggregates group-level features into complete, well-formed 3D shape descriptors. Notably, in both ViTs, we introduce spatial encoding of camera coordinates as innovative position embeddings. Furthermore, we propose two compressed versions based on GMViT, namely GMViT-simple and GMViT-mini. To enhance the training effectiveness of the small models, we introduce a knowledge distillation method throughout the GMViT process, where the key outputs of each GMViT component serve as distillation targets. Extensive experiments demonstrate the efficacy of the proposed method. The large model GMViT achieves excellent 3D classification and retrieval results on the benchmark datasets ModelNet, ShapeNetCore55, and MCB. The smaller models, GMViT-simple and GMViT-mini, reduce the parameter size by 8 and 17.6 times, respectively, and improve shape recognition speed by 1.5 times on average, while preserving at least 90% of the classification and retrieval performance.
翻訳日:2024-01-02 19:53:08 公開日:2023-12-30
# GANを用いた映像強調のための超解像の検討

A Survey on Super Resolution for video Enhancement Using GAN ( http://arxiv.org/abs/2312.16471v2 )

ライセンス: Link先を確認
Ankush Maity, Roshan Pious, Sourabh Kumar Lenka, Vishal Choudhary and Prof. Sharayu Lokhande(参考訳) 様々な研究論文のハイライトをまとめて、ジェネレーティブ・アドバイサル・ネットワークのようなディープラーニングアルゴリズムを用いた超高解像度画像とビデオの最近の展開を概観する。 これらの要約で取り上げられた研究は、ビデオ超解像における再帰学習、新規損失関数、フレームレート向上、アテンションモデル統合といった、画像と映像品質を改善するための新しい手法を提供する。 これらの手法はPSNR、SSIM、知覚指標などの基準を用いて頻繁に評価される。 これらの進歩は、低解像度ビデオの視覚的明快さと品質を高めることを目的としており、監視技術から医用画像まで様々な分野で大きな可能性を秘めている。 さらに、このコレクションは、生成的敵ネットワークの幅広い分野に展開し、その原則、トレーニングアプローチ、および幅広いドメインにわたる応用を探求するとともに、この急速に進化し変化する人工知能分野における今後の研究の課題と機会を強調している。

This compilation of various research paper highlights provides a comprehensive overview of recent developments in super-resolution image and video using deep learning algorithms such as Generative Adversarial Networks. The studies covered in these summaries provide fresh techniques to addressing the issues of improving image and video quality, such as recursive learning for video super-resolution, novel loss functions, frame-rate enhancement, and attention model integration. These approaches are frequently evaluated using criteria such as PSNR, SSIM, and perceptual indices. These advancements, which aim to increase the visual clarity and quality of low-resolution video, have tremendous potential in a variety of sectors ranging from surveillance technology to medical imaging. In addition, this collection delves into the wider field of Generative Adversarial Networks, exploring their principles, training approaches, and applications across a broad range of domains, while also emphasizing the challenges and opportunities for future research in this rapidly advancing and changing field of artificial intelligence.
翻訳日:2024-01-02 19:52:43 公開日:2023-12-30
# EFHQ: 多目的ExtremePose-Face-HQデータセット

EFHQ: Multi-purpose ExtremePose-Face-HQ dataset ( http://arxiv.org/abs/2312.17205v2 )

ライセンス: Link先を確認
Trung Tuan Dao, Duc Hong Vu, Cuong Pham, Anh Tran(参考訳) 既存の顔データセットは、正面近のビューで豊富な画像を持っているが、極端な頭部ポーズのイメージが欠けているため、プロファイルやピッチされた顔を扱う際に、ディープラーニングモデルの性能が低下する。 この研究は、Extreme Pose Face High-Quality Dataset (EFHQ)と呼ばれる新しいデータセットを導入することで、このギャップに対処することを目的としている。 このような膨大なデータセットを生成するために、我々は、新しく精巧なデータセット処理パイプラインを使用して、さまざまな設定でキャプチャされた高解像度の顔ビデオを含む2つの公開データセット、VFHQとCelebV-HQをキュレートする。 我々のデータセットは、顔合成と2D/3D認識GAN、拡散ベースの顔生成、顔の再現など、さまざまな顔関連タスクに関する既存のデータセットを補完することができる。 具体的には、EFHQを使用したトレーニングは、モデルがさまざまなポーズにまたがって適切に一般化し、極端なビューを含むシナリオのパフォーマンスを大幅に向上するのに役立つ。 さらに,efhqを用いて,soma顔認証モデルの性能が前頭対頭シナリオと比較して5~37%低下し,野生の重度のポーズ条件下での顔認識研究を刺激する,難易度の高いクロスビュー顔検証ベンチマークを定義する。

The existing facial datasets, while having plentiful images at near frontal views, lack images with extreme head poses, leading to the downgraded performance of deep learning models when dealing with profile or pitched faces. This work aims to address this gap by introducing a novel dataset named Extreme Pose Face High-Quality Dataset (EFHQ), which includes a maximum of 450k high-quality images of faces at extreme poses. To produce such a massive dataset, we utilize a novel and meticulous dataset processing pipeline to curate two publicly available datasets, VFHQ and CelebV-HQ, which contain many high-resolution face videos captured in various settings. Our dataset can complement existing datasets on various facial-related tasks, such as facial synthesis with 2D/3D-aware GAN, diffusion-based text-to-image face generation, and face reenactment. Specifically, training with EFHQ helps models generalize well across diverse poses, significantly improving performance in scenarios involving extreme views, confirmed by extensive experiments. Additionally, we utilize EFHQ to define a challenging cross-view face verification benchmark, in which the performance of SOTA face recognition models drops 5-37% compared to frontal-to-frontal scenarios, aiming to stimulate studies on face recognition under severe pose conditions in the wild.
翻訳日:2024-01-02 19:08:54 公開日:2023-12-30
# MobileVLM : モバイルデバイスのための高速で強力でオープンな視覚言語アシスタント

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices ( http://arxiv.org/abs/2312.16886v2 )

ライセンス: Link先を確認
Xiangxiang Chu and Limeng Qiao and Xinyang Lin and Shuang Xu and Yang Yang and Yiming Hu and Fei Wei and Xinyu Zhang and Bo Zhang and Xiaolin Wei and Chunhua Shen(参考訳) モバイル端末で動作する多モード視覚言語モデル(MMVLM)であるMobileVLMを提案する。 これは、CLIP方式で事前訓練されたマルチモーダル視覚モデル、効率的なプロジェクタによる相互モダリティ相互作用を含む、1.4Bと2.7Bのスケールの言語モデルからなる、モバイル指向の無数のアーキテクチャ設計と技法の融合である。 いくつかの典型的なVLMベンチマークでMobileVLMを評価する。 私たちのモデルは、より大規模なモデルと比較して、同等のパフォーマンスを示します。 さらに、Qualcomm Snapdragon 888 CPUとNVIDIA Jeston Orin GPUの両方で推論速度を測定し、それぞれ21.5トークンと65.3トークンの最先端のパフォーマンスを得る。 私たちのコードは、https://github.com/Meituan-AutoML/MobileVLMで利用可能になります。

We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.
翻訳日:2024-01-02 19:05:03 公開日:2023-12-30