このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240112となっている論文です。

PDF登録状況(公開日: 20240112)

TitleAuthorsAbstract論文公表日・翻訳日
# エッジコンピューティングを実現するブロックチェーンを用いたIoTのセキュアなターゲットメッセージ拡散

Secure Targeted Message Dissemination in IoT Using Blockchain Enabled Edge Computing ( http://arxiv.org/abs/2401.06384v1 )

ライセンス: Link先を確認
Muhammad Baqer Mollah, Md Abul Kalam Azad, Yinghui Zhang, (参考訳) スマートデバイスはIoT(Internet of Things)の不可欠な部分と見なされており、情報交換、データ収集、分析、自律的な方法で最適な決定を行い、より効率的で自動的で経済的なサービスを実現するための動的ネットワークの実現を目的としている。 これらのスマートデバイス間のメッセージの拡散により、新しい機能の追加、更新された命令、アラートまたは安全メッセージの送信、価格情報または請求金額の通知、インセンティブ、セキュリティパッチのインストールが可能になる。 一方、このようなメッセージの拡散は、IoTシステムに関わるすべての関係者にとって直接的に有利である。 一方、リモートプロシージャのため、スマートデバイス、ベンダー、その他の関係機関は、ターゲットデバイス間でメッセージを発信しながら、セキュリティ、プライバシ、パフォーマンスに関する多くの懸念を満たす必要があるかもしれない。 そこで本論文では,IoTにおけるセキュリティとプライバシを意識したターゲットメッセージの普及を目的としたSTarEdgeChainを設計し,ブロックチェーンと高度な暗号化技術が,このような問題に対処するためにどのように取り組まれているかを示す。 実際、STarEdgeChainは、ターゲットとするデバイスグループ間でシングルサイン暗号化されたメッセージの拡散を迅速化すると同時に、複数のユニカッティングアプローチを使用する依存関係を回避するために、認可されたブロックチェーン支援エッジコンピューティングを使用している。 最後に,STarEdgeChainのプロトタイプを開発し,スマートデバイスの実用性を示す。 コードはhttps://github.com/mbaqer/Blockchain-IoTで公開されている。

Smart devices are considered as an integral part of Internet of Things (IoT), have an aim to make a dynamic network to exchange information, collect data, analysis, and make optimal decisions in an autonomous way to achieve more efficient, automatic, and economical services. Message dissemination among these smart devices allows adding new features, sending updated instructions, alerts or safety messages, informing the pricing information or billing amount, incentives, and installing security patches. On one hand, such message disseminations are directly beneficial to the all parties involved in the IoT system. On the other hand, due to remote procedure, smart devices, vendors, and other involved authorities might have to meet a number of security, privacy, and performance related concerns while disseminating messages among targeted devices. To this end, in this paper, we design STarEdgeChain, a security and privacy aware targeted message dissemination in IoT to show how blockchain along with advanced cryptographic techniques are devoted to address such concerns. In fact, the STarEdgeChain employs a permissioned blockchain assisted edge computing in order to expedite a single signcrypted message dissemination among targeted groups of devices, at the same time avoiding the dependency of utilizing multiple unicasting approaches. Finally, we develop a software prototype of STarEdgeChain and show it's practicability for smart devices. The codes are publicly available at https://github.com/mbaqer/Blockchain-IoT
翻訳日:2024-03-25 12:47:21 公開日:2024-01-12
# アナログ論理ロックにおけるレイアウト効果の利用

Utilizing Layout Effects for Analog Logic Locking ( http://arxiv.org/abs/2401.06508v1 )

ライセンス: Link先を確認
Muayad J. Aljafar, Florence Azais, Marie-Lise Flottes, Samuel Pagliarini, (参考訳) デジタルドメインのデジタル資産を保護するために、多くの難読化技術が利用可能であるが、アナログドメインの知的財産権(IP)を保護することに注目が集まっていない。 これは主に、IC(Integrated Circuit)内のアナログコンポーネントのフットプリントが比較的小さく、表面の大半がデジタル要素専用のものであるためである。 しかし、その小さな性質にもかかわらず、アナログコンポーネントは非常に価値の高いIPであり、効果的な保護を保証している。 本稿では、IC設計では望ましくないと思われるレイアウトに基づく効果を利用して、アナログIPを保護するための画期的な手法を提案する。 具体的には,超伝導(gm)やしきい値電圧(Vth)などの微調整臨界パラメータに対する酸化物拡散長とウェル近接効果のトランジスタへの影響を利用する。 これらのパラメータは、デジタルICで使用される論理ロックのアプローチと同様に、キー入力の背後に隠されているままである。 本研究では,28nmノードと65nmノードという2つの商用CMOS技術におけるレイアウトに基づく効果の応用について検討する。 提案手法の有効性を示すため,オペレーショナルトランスコンダクタンス増幅器をロックする手法を実装した。 大規模なシミュレーションを行い、多数のキーセット(5万から30万以上)を適用して難読化強度を評価する。 その結果、オープンループゲイン(最大130dB)、位相マージン(最大50度)、3dB帯域幅(約2.5MHz)、誤鍵使用時の消費電力(約1mW)などのパフォーマンス指標が著しく低下した。 以上の結果から,アプローチのメリットと,それに伴うオーバーヘッドが浮き彫りになった。

While numerous obfuscation techniques are available for securing digital assets in the digital domain, there has been a notable lack of focus on protecting Intellectual Property (IP) in the analog domain. This is primarily due to the relatively smaller footprint of analog components within an Integrated Circuit (IC), with the majority of the surface dedicated to digital elements. However, despite their smaller nature, analog components are highly valuable IP and warrant effective protection. In this paper, we present a groundbreaking method for safeguarding analog IP by harnessing layout-based effects that are typically considered undesirable in IC design. Specifically, we exploit the impact of Length of Oxide Diffusion and Well Proximity Effect on transistors to fine-tune critical parameters such as transconductance (gm) and threshold voltage (Vth). These parameters remain concealed behind key inputs, akin to the logic locking approach employed in digital ICs. Our research explores the application of layout-based effects in two commercial CMOS technologies, namely a 28nm and a 65nm node. To demonstrate the efficacy of our proposed technique, we implement it for locking an Operational Transconductance Amplifier. Extensive simulations are performed, evaluating the obfuscation strength by applying a large number of key sets (over 50,000 and 300,000). The results exhibit a significant degradation in performance metrics, such as open-loop gain (up to 130dB), phase margin (up to 50 degrees), 3dB bandwidth (approximately 2.5MHz), and power consumption (around 1mW) when incorrect keys are employed. Our findings highlight the advantages of our approach as well as the associated overhead.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-12
# データ利用予測に基づくグローバルディファレンシャルプライバシデータの実用性向上の提案

A proposal to increase data utility on Global Differential Privacy data based on data use predictions ( http://arxiv.org/abs/2401.06601v1 )

ライセンス: Link先を確認
Henry C. Nunes, Marlon P. da Silva, Charles V. Neu, Avelino F. Zorzo, (参考訳) 本稿では,グローバルディファレンシャルプライバシ(DP)が保護するデータの有用性を概説する。 当社のアプローチは,DP保護下で公表された統計をアナリストがどのように利用するかの予測に基づいて,プライバシ予算割り当てにおけるデータのさらなる利用にデータユーティリティを最適化することができる。 この新しいアプローチは、プライバシー制約を妥協することなく、データの有用性を改善することができる。 また,予算配分プロセスの最適化に開発者が利用できる指標を提案する。

This paper presents ongoing research focused on improving the utility of data protected by Global Differential Privacy(DP) in the scenario of summary statistics. Our approach is based on predictions on how an analyst will use statistics released under DP protection, so that a developer can optimise data utility on further usage of the data in the privacy budget allocation. This novel approach can potentially improve the utility of data without compromising privacy constraints. We also propose a metric that can be used by the developer to optimise the budget allocation process.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-12
# Wi-Fiを用いた環境2要素認証のための機械学習の活用

Leveraging Machine Learning for Wi-Fi-based Environmental Continuous Two-Factor Authentication ( http://arxiv.org/abs/2401.06612v1 )

ライセンス: Link先を確認
Ali Abdullah S. AlQahtani, Thamraa Alshayeb, Mahmoud Nabil, Ahmad Patooghy, (参考訳) 従来の2要素認証(2FA)メソッドは主に、認証プロセス中に手動でコードやトークンを入力するユーザに依存します。 これは、特に頻繁に認証されなければならないユーザにとって、負担と時間を要する可能性がある。 この課題に対処するために,ユーザの入力を機械学習(ML)による決定に置き換える,新たな2FAアプローチを提案する。 本システムは,Wi-Fiアクセスポイント(AP)からのビーコンフレーム特性や受信信号強度指標(RSSI)値などの,ユーザに関連するユニークな環境特性を利用する。 これらの特徴は,ユーザの身元を確認するために,MLアルゴリズムによってリアルタイムで収集,解析される。 セキュリティを強化するため,ユーザの2つのデバイス(ログインデバイスとモバイルデバイス)を,アクセスを許可する前に所定の近くに配置するよう,システムに指示する。 この予防策により、不正なユーザが機密情報やシステムにアクセスできないことが保証される。 実験を通じて,ビーコンフレーム特性とRSSI値に基づいてユーザのデバイスの位置を判定し,92.4%の精度を実現するシステムの有効性を実証した。 さらに,様々なサイバー攻撃に対する2FAシステムのレジリエンスを評価するため,包括的セキュリティ分析実験を行った。 以上の結果から,これらの脅威に直面して,システムの堅牢性と信頼性が示唆された。 システムのスケーラビリティ、柔軟性、適応性は、セキュアで便利な認証システムを求める組織やユーザにとって有望な選択肢です。

The traditional two-factor authentication (2FA) methods primarily rely on the user manually entering a code or token during the authentication process. This can be burdensome and time-consuming, particularly for users who must be authenticated frequently. To tackle this challenge, we present a novel 2FA approach replacing the user's input with decisions made by Machine Learning (ML) that continuously verifies the user's identity with zero effort. Our system exploits unique environmental features associated with the user, such as beacon frame characteristics and Received Signal Strength Indicator (RSSI) values from Wi-Fi Access Points (APs). These features are gathered and analyzed in real-time by our ML algorithm to ascertain the user's identity. For enhanced security, our system mandates that the user's two devices (i.e., a login device and a mobile device) be situated within a predetermined proximity before granting access. This precaution ensures that unauthorized users cannot access sensitive information or systems, even with the correct login credentials. Through experimentation, we have demonstrated our system's effectiveness in determining the location of the user's devices based on beacon frame characteristics and RSSI values, achieving an accuracy of 92.4%. Additionally, we conducted comprehensive security analysis experiments to evaluate the proposed 2FA system's resilience against various cyberattacks. Our findings indicate that the system exhibits robustness and reliability in the face of these threats. The scalability, flexibility, and adaptability of our system render it a promising option for organizations and users seeking a secure and convenient authentication system.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-12
# 分離要求を緩和したソフトウェアベースのメモリ消去:拡張バージョン

Software-Based Memory Erasure with relaxed isolation requirements: Extended Version ( http://arxiv.org/abs/2401.06626v1 )

ライセンス: Link先を確認
Sergiu Bursuc, Reynaldo Gil-Pons, Sjouke Mauw, Rolando Trujillo-Rasua, (参考訳) Proof of Secure Erasure (PoSE) は、証明者がプロトコル実行の時間枠内でメモリを消去した証拠を求める通信プロトコルである。 PoSEプロトコルの設計者は、証明者がメモリ消去証明の計算を他のデバイスにアウトソースできるなら、それらのプロトコルは自明に破壊される、と長年認識してきた。 結果として、多くのソフトウェアベースのPoSEプロトコルは、プロトコルの実行中にプローバーが孤立している、すなわち、プローバーがネットワークの敵から助けを受けられないと想定している。 私たちの主な貢献は、この仮定が必要ないことを示すことです。 本稿では,PSEプロトコルの形式モデルを導入し,この文脈でセキュアであることを示す3つのPoSEプロトコルを開発した。 我々は,分離要件を,外部共振器との通信が比較的遅いというより現実的な要求に還元する。 このような緩やかな分離仮定を持つソフトウェアベースのプロトコルは、特にローエンドデバイスでは重要であり、高度な保護方法をデプロイするにはコストがかかりすぎる。

A Proof of Secure Erasure (PoSE) is a communication protocol where a verifier seeks evidence that a prover has erased its memory within the time frame of the protocol execution. Designers of PoSE protocols have long been aware that, if a prover can outsource the computation of the memory erasure proof to another device, then their protocols are trivially defeated. As a result, most software-based PoSE protocols in the literature assume that provers are isolated during the protocol execution, that is, provers cannot receive help from a network adversary. Our main contribution is to show that this assumption is not necessary. We introduce formal models for PoSE protocols playing against provers aided by external conspirators and develop three PoSE protocols that we prove secure in this context. We reduce the requirement of isolation to the more realistic requirement that the communication with the external conspirator is relatively slow. Software-based protocols with such relaxed isolation assumptions are especially pertinent for low-end devices, where it is too costly to deploy sophisticated protection methods.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-12
# XBee と LoRa ネットワークにおける空間性学習の可能性に関する試作

A Prototype on the Feasibility of Learning Spatial Provenance in XBee and LoRa Networks ( http://arxiv.org/abs/2401.06638v1 )

ライセンス: Link先を確認
Manish Bansal, Pramsu Shrivastava, J. Harshan, (参考訳) マルチホップ通信を含むV2Xネットワークでは、ロードサイドユニット(RSU)は通常、参加車両の位置情報を収集して、セキュリティとネットワーク診断機能を提供したいと考えている。 グローバル・ポジショニング・システム(GPS)に基づくローカライゼーションは、車両のナビゲーションに広く用いられているが、プライバシの問題により、正確なGPS座標をRSUに転送することはできない。 したがって、RSUの高位置化要件と車両のプライバシのバランスをとるために、車両はプライバシーをある程度妥協し、RSUの要求に応じてその座標の低精度な変種を共有することに同意する新しい空間改善フレームワークを実証する。 最新の無線規格におけるフレームワークの展開可能性を検討するため,ZigBee と LoRa デバイスのテストベッドを提案し,Bloom フィルタと Rake 圧縮アルゴリズムを用いて基盤プロトコルをスタック上に実装した。 実演では,ロー・ツー・モデレートの高精度なローカライゼーションをパケット数が少ない場合に実現できることが示され,次世代車載ネットワークにおいて,リアルタイムセキュリティやネットワーク診断機能の提供方法が注目されている。

In Vehicle-to-Everything (V2X) networks that involve multi-hop communication, the Road Side Units (RSUs) typically desire to gather the location information of the participating vehicles to provide security and network-diagnostics features. Although Global Positioning System (GPS) based localization is widely used by vehicles for navigation; they may not forward their exact GPS coordinates to the RSUs due to privacy issues. Therefore, to balance the high-localization requirements of RSU and the privacy of the vehicles, we demonstrate a new spatial-provenance framework wherein the vehicles agree to compromise their privacy to a certain extent and share a low-precision variant of its coordinates in agreement with the demands of the RSU. To study the deployment feasibility of the proposed framework in state-of-the-art wireless standards, we propose a testbed of ZigBee and LoRa devices and implement the underlying protocols on their stack using correlated Bloom filters and Rake compression algorithms. Our demonstrations reveal that low-to-moderate precision localization can be achieved in fewer packets, thus making an appealing case for next-generation vehicular networks to include our methods for providing real-time security and network-diagnostics features.
翻訳日:2024-03-25 12:37:33 公開日:2024-01-12
# ハニーポットを生産ネットワークに最適に曲げる:硬さとアルゴリズム

Optimally Blending Honeypots into Production Networks: Hardness and Algorithms ( http://arxiv.org/abs/2401.06763v1 )

ライセンス: Link先を確認
Md Mahabub Uz Zaman, Liangde Tao, Mark Maldonado, Chang Liu, Ahmed Sunny, Shouhuai Xu, Lin Chen, (参考訳) ハニーポットは攻撃者の新たな攻撃を暴露する重要なサイバー防御技術である。 しかし、ハニポットの有効性は、親指の規則を超えて、どのように展開されるかによって、体系的に研究されていない。 本稿では,ハニーポットコンピュータ(またはIPアドレス)を生産用コンピュータに混在させるという,ハニーポットの新たな展開パラダイムのサイバーセキュリティ効果を特徴付けるための系統的研究を開始する。 ハニーポット展開(HD)問題に繋がる: ミツバチがハニーポットコンピュータを本番コンピュータに混入して、攻撃者に新たな攻撃を強制し、妥協された生産コンピュータに格納されているデジタル資産の損失を最小限に抑えながら、その有用性を最大化するにはどうすればよいか? 組合せ最適化問題としてHDを形式化し、NP硬さを証明し、近似アルゴリズム(多項式時間近似スキーム)を提供する。 また、攻撃能力への影響を示すシミュレーションも実施する。

Honeypot is an important cyber defense technique that can expose attackers new attacks. However, the effectiveness of honeypots has not been systematically investigated, beyond the rule of thumb that their effectiveness depends on how they are deployed. In this paper, we initiate a systematic study on characterizing the cybersecurity effectiveness of a new paradigm of deploying honeypots: blending honeypot computers (or IP addresses) into production computers. This leads to the following Honeypot Deployment (HD) problem, How should the defender blend honeypot computers into production computers to maximize the utility in forcing attackers to expose their new attacks while minimizing the loss to the defender in terms of the digital assets stored in the compromised production computers? We formalize HD as a combinatorial optimization problem, prove its NP hardness, provide a near optimal algorithm (i.e., polynomial time approximation scheme). We also conduct simulations to show the impact of attacker capabilities.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-12
# LLM支援危機管理 : 効果的な緊急対応と公共協力のための高度LLMプラットフォームの構築

LLM-Assisted Crisis Management: Building Advanced LLM Platforms for Effective Emergency Response and Public Collaboration ( http://arxiv.org/abs/2402.10908v1 )

ライセンス: Link先を確認
Hakan T. Otal, M. Abdullah Canbaz, (参考訳) 緊急性や重大な出来事はしばしば急速に展開し、迅速かつ効果的な対応を必要とします。 本研究では,オープンソースの大規模言語モデル LLAMA2 を用いて,ソーシャルメディア投稿や直接緊急メッセージから緊急事態を識別・分類する手法を提案する。 目標は、自然言語処理と機械学習の力を活用して、全国の緊急時に公共の安全通信事業者や大群衆を支援することだ。 本研究は,911コールでユーザの状況を理解できる言語モデルの開発に焦点をあて,LLAMA2がコンテンツを分析し,通信事業者に関連する指示を提供すると同時に,必要に応じて政府機関に発信者の情報を通知するワークフローを作成する。 この言語モデルが提供するもうひとつのメリットは、簡単な指示でユーザを支援し、位置情報と緊急情報を当局に通知することで、911システムが圧倒された場合の重大な緊急時に、人々を支援する能力である。

Emergencies and critical incidents often unfold rapidly, necessitating a swift and effective response. In this research, we introduce a novel approach to identify and classify emergency situations from social media posts and direct emergency messages using an open source Large Language Model, LLAMA2. The goal is to harness the power of natural language processing and machine learning to assist public safety telecommunicators and huge crowds during countrywide emergencies. Our research focuses on developing a language model that can understand users describe their situation in the 911 call, enabling LLAMA2 to analyze the content and offer relevant instructions to the telecommunicator, while also creating workflows to notify government agencies with the caller's information when necessary. Another benefit this language model provides is its ability to assist people during a significant emergency incident when the 911 system is overwhelmed, by assisting the users with simple instructions and informing authorities with their location and emergency information.
翻訳日:2024-03-25 09:06:20 公開日:2024-01-12
# Seg-metrics: セグメンテーションメトリクスを計算するPythonパッケージ

Seg-metrics: a Python package to compute segmentation metrics ( http://arxiv.org/abs/2403.07884v1 )

ライセンス: Link先を確認
Jingnan Jia, Marius Staring, Berend C. Stoel, (参考訳) 医用画像セグメンテーション(MIS)研究において,メトリクスを選択的に強調する傾向に対して,標準化MISモデル評価のためのオープンソースPythonパッケージである \texttt{seg-metrics} を導入する。 既存のパッケージとは異なり、 \texttt{seg-metrics} は様々なオーバーラップベースおよび距離ベースのメトリクスに対してユーザフレンドリーなインターフェイスを提供し、包括的なソリューションを提供する。 \texttt{seg-metrics} は複数のファイルフォーマットをサポートし、Python Package Index (PyPI) を通じて簡単にインストールできる。 速度と利便性に焦点をあてて、 texttt{seg-metrics} は効率的なMISモデル評価のための貴重なツールである。

In response to a concerning trend of selectively emphasizing metrics in medical image segmentation (MIS) studies, we introduce \texttt{seg-metrics}, an open-source Python package for standardized MIS model evaluation. Unlike existing packages, \texttt{seg-metrics} offers user-friendly interfaces for various overlap-based and distance-based metrics, providing a comprehensive solution. \texttt{seg-metrics} supports multiple file formats and is easily installable through the Python Package Index (PyPI). With a focus on speed and convenience, \texttt{seg-metrics} stands as a valuable tool for efficient MIS model assessment.
翻訳日:2024-03-25 08:27:08 公開日:2024-01-12
# IoT入門

Introduction to IoT ( http://arxiv.org/abs/2312.06689v2 )

ライセンス: Link先を確認
Tajkia Nuri Ananna, Munshi Saifuzzaman, (参考訳) モノのインターネットは21世紀を急速に変化させ、意思決定プロセスを強化し、従量制モデルのような革新的な消費者サービスを導入してきた。 スマートデバイスと自動化技術の統合は、健康サービスから製造業、農業部門から鉱業まで、私たちの生活のあらゆる側面に革命をもたらした。 肯定的な側面に加えて、この技術的景観における重要な安全、安全、信頼の懸念を認識することも不可欠である。 この章は、IoTドメインに関心を持つ新参者のための包括的なガイドとして機能し、将来的なコントリビューションのための基盤を提供する。 具体的には、主要なIoTドメインにおける概要、歴史的進化、重要な特徴、アドバンテージ、アーキテクチャ、テクノロジの分類、既存のアプリケーションについて論じている。 IoTアプリケーションを設計しデプロイする際の一般的な問題や課題に対処するため、この章では、アーキテクチャレイヤ、倫理的考慮、ユーザのプライバシに関する懸念、信頼に関連する問題など、セキュリティ上の脅威について検討している。 この議論は、研究者に多様なIoTの側面をしっかりと理解させ、IoTテクノロジの包括的な理解と、この変革的分野の広範なポテンシャルと影響に関する洞察を提供する。

The Internet of Things has rapidly transformed the 21st century, enhancing decision-making processes and introducing innovative consumer services such as pay-as-you-use models. The integration of smart devices and automation technologies has revolutionized every aspect of our lives, from health services to the manufacturing industry, and from the agriculture sector to mining. Alongside the positive aspects, it is also essential to recognize the significant safety, security, and trust concerns in this technological landscape. This chapter serves as a comprehensive guide for newcomers interested in the IoT domain, providing a foundation for making future contributions. Specifically, it discusses the overview, historical evolution, key characteristics, advantages, architectures, taxonomy of technologies, and existing applications in major IoT domains. In addressing prevalent issues and challenges in designing and deploying IoT applications, the chapter examines security threats across architectural layers, ethical considerations, user privacy concerns, and trust-related issues. This discussion equips researchers with a solid understanding of diverse IoT aspects, providing a comprehensive understanding of IoT technology along with insights into the extensive potential and impact of this transformative field.
翻訳日:2024-03-18 12:36:38 公開日:2024-01-12
# コード分散シフトによる大規模言語モデルの不確実性認識:ベンチマークによる検討

Uncertainty Awareness of Large Language Models Under Code Distribution Shifts: A Benchmark Study ( http://arxiv.org/abs/2402.05939v1 )

ライセンス: Link先を確認
Yufei Li, Simin Chen, Yanghong Guo, Wei Yang, Yue Dong, Cong Liu(参考訳) 大規模言語モデル(llm)は、人間の生産性を高めるためにプログラミング言語分析に広く使われている。 しかし、その信頼性は様々なコード分散シフトによって損なわれ、一貫性のない出力につながる。 不確実性校正と推定によってそのような影響を軽減できる確率的手法が知られているが、画像ベースのタスクでの適用と比較して、言語領域の有効性は未検討のままである。 本研究では,まず大規模ベンチマークデータセットを導入し,様々な強度でコード分散シフトの現実的なパターンを3つ取り入れた。 次に,これらのシフトコードスニペットを用いて,codellamaに適用する最先端の確率的手法を徹底的に検討する。 これらの手法は, キャリブレーション品質の向上と高い不確実性推定(ue)精度により, 一般にコーデュラマの不確実性認識を改善する。 しかし,本研究ではさらに,様々な基準(キャリブレーションエラーと誤分類検出)と有効性と効率のトレードオフにより,特定の文脈に合わせた方法論選択の必要性を浮き彫りにした。

Large Language Models (LLMs) have been widely employed in programming language analysis to enhance human productivity. Yet, their reliability can be compromised by various code distribution shifts, leading to inconsistent outputs. While probabilistic methods are known to mitigate such impact through uncertainty calibration and estimation, their efficacy in the language domain remains underexplored compared to their application in image-based tasks. In this work, we first introduce a large-scale benchmark dataset, incorporating three realistic patterns of code distribution shifts at varying intensities. Then we thoroughly investigate state-of-the-art probabilistic methods applied to CodeLlama using these shifted code snippets. We observe that these methods generally improve the uncertainty awareness of CodeLlama, with increased calibration quality and higher uncertainty estimation~(UE) precision. However, our study further reveals varied performance dynamics across different criteria (e.g., calibration error vs misclassification detection) and trade-off between efficacy and efficiency, highlighting necessary methodological selection tailored to specific contexts.
翻訳日:2024-02-18 14:32:43 公開日:2024-01-12
# タンパク質表現学習のための深いマニフォールド変換

Deep Manifold Transformation for Protein Representation Learning ( http://arxiv.org/abs/2402.09416v1 )

ライセンス: Link先を確認
Bozhen Hu, Zelin Zang, Cheng Tan, Stan Z. Li(参考訳) タンパク質表現学習は、主にタンパク質言語モデルやグラフニューラルネットワークの恩恵を受ける薬物設計やタンパク質構造、機能予測など、生物学における様々なタスクにおいて重要である。 これらのモデルは、マスキングとタスク関連の損失を通じて、タンパク質の配列や構造から内在的なパターンを捉えることができる。 しかし、学習したタンパク質表現は、通常、十分に最適化されていないため、限られたデータによるパフォーマンス劣化、新しいタスクへの適応の困難などを引き起こす。 これに対処するために,universal \underline{p}rotein \underline{r}epresentation \underline{l}earning (dmtprl) に対する新しい\underline{d}eep \underline{m}anifold \underline{t}ransformationアプローチを提案する。 多様体学習戦略を採用し、学習された埋め込みの品質と適応性を向上させる。 具体的には,グラフのノード間類似性に基づく学習中の新しい多様体学習損失を適用する。 DMTPRL法は、一般的なデータセットの様々な下流タスクにおける最先端のベースラインよりも優れている。 これは、普遍的かつロバストなタンパク質表現を学ぶための我々のアプローチを検証する。 受け入れ後、コードのリリースを約束します。

Protein representation learning is critical in various tasks in biology, such as drug design and protein structure or function prediction, which has primarily benefited from protein language models and graph neural networks. These models can capture intrinsic patterns from protein sequences and structures through masking and task-related losses. However, the learned protein representations are usually not well optimized, leading to performance degradation due to limited data, difficulty adapting to new tasks, etc. To address this, we propose a new \underline{d}eep \underline{m}anifold \underline{t}ransformation approach for universal \underline{p}rotein \underline{r}epresentation \underline{l}earning (DMTPRL). It employs manifold learning strategies to improve the quality and adaptability of the learned embeddings. Specifically, we apply a novel manifold learning loss during training based on the graph inter-node similarity. Our proposed DMTPRL method outperforms state-of-the-art baselines on diverse downstream tasks across popular datasets. This validates our approach for learning universal and robust protein representations. We promise to release the code after acceptance.
翻訳日:2024-02-18 13:30:19 公開日:2024-01-12
# 無線地図推定-指向型送信アンテナを用いたオープンデータセットと初期実験

Radio Map Estimation -- An Open Dataset with Directive Transmitter Antennas and Initial Experiments ( http://arxiv.org/abs/2402.00878v1 )

ライセンス: Link先を確認
Fabian Jaensch, Giuseppe Caire, Beg\"um Demir(参考訳) 近年、都市部通信網における送信機と受信機間の大規模信号フェージング(「パス損失」とも呼ばれる)を決定するためのディープラーニングアルゴリズムの適用について研究が進められている。 中心となる考え方は、高価な測定キャンペーン、不正確な統計モデル、あるいは計算に高価なレイトレーシングシミュレーションを機械学習モデルによって置き換えることである。 この話題は多くの研究者から注目を集めているが、誰もが開発した手法やアルゴリズムをテストし比較できるオープンベンチマークデータセットやコードベースは少ない。 このギャップを埋めるために、シミュレーションされた経路損失無線マップのデータセットを公開し、現実の場所からの現実的な都市地図や、オープンなデータソースからの航空画像を公開しています。 モデルアーキテクチャ、入力特徴設計、航空画像からの無線マップの推定に関する実験を行い、コードを利用できるようにした。

Over the last years, several works have explored the application of deep learning algorithms to determine the large-scale signal fading (also referred to as ``path loss'') between transmitter and receiver pairs in urban communication networks. The central idea is to replace costly measurement campaigns, inaccurate statistical models or computationally expensive ray-tracing simulations by machine learning models which, once trained, produce accurate predictions almost instantly. Although the topic has attracted attention from many researchers, there are few open benchmark datasets and codebases that would allow everyone to test and compare the developed methods and algorithms. We take a step towards filling this gap by releasing a publicly available dataset of simulated path loss radio maps together with realistic city maps from real-world locations and aerial images from open datasources. Initial experiments regarding model architectures, input feature design and estimation of radio maps from aerial images are presented and the code is made available.
翻訳日:2024-02-11 17:28:27 公開日:2024-01-12
# 高等教育における創造的人工知能--制度政策とガイドラインの分析から

Generative Artificial Intelligence in Higher Education: Evidence from an Analysis of Institutional Policies and Guidelines ( http://arxiv.org/abs/2402.01659v1 )

ライセンス: Link先を確認
Nora McDonald, Aditya Johri, Areej Ali, Aayushi Hingle(参考訳) 2022年11月にChatGPTがリリースされたことで、高等教育機関(HEIs)全体で、生成人工知能(GenAI)が大幅に普及した。 HEIは、特に学生が利用に反応し、まずそれを規制し、その後、教育と学習における生産的な統合を主張した。 リリース以来、HEIはGenAIを指揮するポリシーやガイドラインをますます提供してきた。 本稿では,研究活動やR1機関に分類された米国116の大学が作成した文書について,GenAI関連のアドバイスや指導を総合的に理解するために検討した。 広範に分析した結果,多くの大学(N=73,63%)がGenAIの使用を奨励し,教室での使用に関する詳細なガイダンス(N=48,41%)を提供していることがわかった。 全機関の半数以上がサンプルシラビ(N=65, 56%)と半数(N=58, 50%)を、教員が教室でGenAIを統合し活用するためのサンプルGenAIカリキュラムと活動を提供した。 特に、ほとんどの活動指導は書くことに焦点を当てたが、コードとstem関連の活動は半分の時間と曖昧に言及されていた(n=58,50%)。 最後に、半分以上の機関が、多様性、平等、包摂性(DEI)(N=60, 52%)を含む幅広い話題で、GenAIの倫理について語った。 本研究の結果から,教育的アプローチの広範な改訂が推奨されるにつれて,教員の指導が重荷になる可能性があることを注意する。

The release of ChatGPT in November 2022 prompted a massive uptake of generative artificial intelligence (GenAI) across higher education institutions (HEIs). HEIs scrambled to respond to its use, especially by students, looking first to regulate it and then arguing for its productive integration within teaching and learning. In the year since the release, HEIs have increasingly provided policies and guidelines to direct GenAI. In this paper we examined documents produced by 116 US universities categorized as high research activity or R1 institutions to comprehensively understand GenAI related advice and guidance given to institutional stakeholders. Through an extensive analysis, we found the majority of universities (N=73, 63%) encourage the use of GenAI and many provide detailed guidance for its use in the classroom (N=48, 41%). More than half of all institutions provided sample syllabi (N=65, 56%) and half (N=58, 50%) provided sample GenAI curriculum and activities that would help instructors integrate and leverage GenAI in their classroom. Notably, most guidance for activities focused on writing, whereas code and STEM-related activities were mentioned half the time and vaguely even when they were (N=58, 50%). Finally, more than one half of institutions talked about the ethics of GenAI on a range of topics broadly, including Diversity, Equity and Inclusion (DEI) (N=60, 52%). Overall, based on our findings we caution that guidance for faculty can become burdensome as extensive revision of pedagogical approaches is often recommended in the policies.
翻訳日:2024-02-11 17:02:20 公開日:2024-01-12
# auf das datenverstaendnis von dashboard-nutzernにおけるデータストーリーテリングに関する研究

Untersuchung der Wirkung von Data Storytelling auf das Datenverstaendnis von Dashboard-Nutzern ( http://arxiv.org/abs/2402.01658v1 )

ライセンス: Link先を確認
Valeria Zitz and Patrick Baier(参考訳) ビッグデータとビジネス分析の利用の増加に伴い、データストーリテリングは、意思決定とビジネスパフォーマンスの向上を支援するために、分析的な洞察を聴衆に伝える効果的な手段として人気を集めている。 しかし、データ理解に対するデータストーリーテリングの影響に関する実証的な証拠はほとんどない。 本研究では,データ・ストーリーテリングの概念を,ユーザのデータ理解に与える影響の観点から検証する。 実験データ分析の結果から,データストーリーテリング能力は組織のパフォーマンスに肯定的に関連していることが明らかとなった。 これらの結果は、データストーリーテリングの潜在的な先行と結果のさらなる研究の理論的基盤を提供する。

With the increasing use of big data and business analytics, data storytelling has gained popularity as an effective means of communicating analytical insights to audiences to support decision making and improve business performance. However, there is little empirical evidence on the impact of data storytelling on data understanding. This study validates the concept of data storytelling as a construct in terms of its impact on users' data understanding. Based on empirical data analysis, the results of this study show that data storytelling competence is positively associated with organizational performance, which is partly due to the quality of the decision is conveyed. These results provide a theoretical basis for further investigation of potential antecedents and consequences of data storytelling.
翻訳日:2024-02-11 17:01:49 公開日:2024-01-12
# プログラミング学習における人工言語を用いた自然言語システムの構築

Tapping into the Natural Language System with Artificial Languages when Learning Programming ( http://arxiv.org/abs/2402.01657v1 )

ライセンス: Link先を確認
Elisa Madeleine Hartmann, Annabelle Bergum, Dominik Gorgosch, Norman Peitek, Sven Apel, Janet Siegmund(参考訳) 背景: プログラミング能力がますます重要になってきている状況では、学生に成功したプログラマになるように教えることはまだ難しい。 これは、プログラミングを学ぶ際に初心者プログラマの言語能力が一貫した役割を担っていることを示唆している。 したがって、プログラミングを効果的に教えるためには、特に外国語の習得から言語研究を引き出すことが有益かもしれない。 目的:本研究の目的は,言語学習機構の活性化による学習プログラムの強化を図り,その実現可能性を検討することである。 方法: この目的のために,我々は実験的な研究を行い,あるグループに人工言語を教え,別のグループに制御条件としてGitを導入した上で,両グループにプログラミングコースの基本的なプログラミング知識を教えた。 結果: 人工言語の学習をカリキュラムに簡単に組み込むことができることがわかった。 さらに, 言語学習戦略が活性化され, 参加者は人工言語とプログラミング言語の類似性を認識できた。 しかし,本研究の文脈では,学習者がまず人工言語を学んだとき,プログラミング能力に有意なメリットは認められなかった。 結論: 本研究は, 自然言語獲得研究の利用を探求し, この分野を段階的に拡大する方法論の基礎を定めている。 本報告では,言語研究の分野からプログラム獲得の改善に向けて,研究を指導し,可能性を広げるための経験を報告する。

Background: In times when the ability to program is becoming increasingly important, it is still difficult to teach students to become successful programmers. One remarkable aspect are recent findings from neuro-imaging studies, which suggest a consistent role of language competency of novice programmers when they learn programming. Thus, for effectively teaching programming, it might be beneficial to draw from linguistic research, especially from foreign language acquisition. Objective: The goal of this study is to investigate the feasibility of this idea, such that we can enhance learning programming by activating language learning mechanisms. Method: To this end, we conducted an empirical study, in which we taught one group of students an artificial language, while another group received an introduction into Git as control condition, before we taught both groups basic programming knowledge in a programming course. Result: We observed that the training of the artificial language can be easily integrated into our curriculum. Furthermore, we observed that language learning strategies were activated and that participants perceived similarities between learning the artificial language and the programming language. However, within the context of our study, we did not find a significant benefit for programming competency when students learned an artificial language first. Conclusion: Our study lays the methodological foundation to explore the use of natural language acquisition research and expand this field step by step. We report our experience here to guide research and to open up the possibilities from the field of linguistic research to improve programming acquisition.
翻訳日:2024-02-11 17:01:38 公開日:2024-01-12
# biodiffusion:生体情報合成のための汎用拡散モデル

BioDiffusion: A Versatile Diffusion Model for Biomedical Signal Synthesis ( http://arxiv.org/abs/2401.10282v1 )

ライセンス: Link先を確認
Xiaomin Li, Mykhailo Sakevych, Gentry Atkinson, Vangelis Metsis(参考訳) バイオメディカルシグナルを含む機械学習タスクは、データ可用性の制限、不均衡データセット、ラベルの複雑さ、測定ノイズの干渉といった問題にしばしば対処している。 これらの課題は、しばしば機械学習アルゴリズムの最適なトレーニングを妨げる。 そこで本研究では,多変量バイオメディカル信号の合成に最適化された拡散に基づく確率モデルであるbiodiffusionを提案する。 biodiffusionは、非条件、ラベル条件、および信号条件生成を含む様々なタスクのための高忠実性、非定常、多変量信号の生成の卓越性を示している。 これらの合成信号を活用することは、上記の課題に対する顕著な解決策を提供する。 本研究は, 合成データ品質の質的, 定量的評価を両立させ, 生体情報に関連付けられた機械学習タスクの精度を高める能力について検討する。 さらに、現在の時系列生成モデルでjuxtaposを行った場合、バイオディフフュージョンがバイオメディカル信号生成品質よりも優れていることを示す実証的な証拠がある。

Machine learning tasks involving biomedical signals frequently grapple with issues such as limited data availability, imbalanced datasets, labeling complexities, and the interference of measurement noise. These challenges often hinder the optimal training of machine learning algorithms. Addressing these concerns, we introduce BioDiffusion, a diffusion-based probabilistic model optimized for the synthesis of multivariate biomedical signals. BioDiffusion demonstrates excellence in producing high-fidelity, non-stationary, multivariate signals for a range of tasks including unconditional, label-conditional, and signal-conditional generation. Leveraging these synthesized signals offers a notable solution to the aforementioned challenges. Our research encompasses both qualitative and quantitative assessments of the synthesized data quality, underscoring its capacity to bolster accuracy in machine learning tasks tied to biomedical signals. Furthermore, when juxtaposed with current leading time-series generative models, empirical evidence suggests that BioDiffusion outperforms them in biomedical signal generation quality.
翻訳日:2024-01-28 16:21:58 公開日:2024-01-12
# リアルタイム超信頼性通信におけるEVTモデルパラメータ推定のためのGAN

GANs for EVT Based Model Parameter Estimation in Real-time Ultra-Reliable Communication ( http://arxiv.org/abs/2401.10280v1 )

ライセンス: Link先を確認
Parmida Valiahdi and Sinem Coleri(参考訳) 6世代(6G)システムにおけるウルトラ信頼性低レイテンシ通信(URLLC)パラダイムは、特に無線通信チャネル内の稀で極端なイベントを扱う場合、正確なチャネルモデリングに大きく依存している。 本稿では,EVT(Extreme Value Theory)とGAN(Generative Adversarial Networks)を統合し,リアルタイムに正確なチャネルモデリングを実現する手法を提案する。 提案手法は,極端事象の分布をモデル化するためにGPD(Generalized Pareto Distribution)を用いてEVTを利用する。 その後、GPDのパラメータを推定するためにGAN(Generative Adversarial Networks)が使用される。 全体の分布を推定することに焦点を当てた従来のGAN構成とは対照的に,提案手法では,GAN構造内に追加ブロックを組み込む。 この具体的拡張は一般化パレート分布(gpd)のパラメータを直接推定することを目的として設計されている。 異なるサンプルサイズにわたる広範囲なシミュレーションを通じて、提案されたGANベースのアプローチは、特にサンプルサイズが限定されたシナリオにおいて、最大類似度推定(MLE)を上回る、優れた適応性を示す。

The Ultra-Reliable Low-Latency Communications (URLLC) paradigm in sixth-generation (6G) systems heavily relies on precise channel modeling, especially when dealing with rare and extreme events within wireless communication channels. This paper explores a novel methodology integrating Extreme Value Theory (EVT) and Generative Adversarial Networks (GANs) to achieve the precise channel modeling in real-time. The proposed approach harnesses EVT by employing the Generalized Pareto Distribution (GPD) to model the distribution of extreme events. Subsequently, Generative Adversarial Networks (GANs) are employed to estimate the parameters of the GPD. In contrast to conventional GAN configurations that focus on estimating the overall distribution, the proposed approach involves the incorporation of an additional block within the GAN structure. This specific augmentation is designed with the explicit purpose of directly estimating the parameters of the Generalized Pareto Distribution (GPD). Through extensive simulations across different sample sizes, the proposed GAN based approach consistently demonstrates superior adaptability, surpassing Maximum Likelihood Estimation (MLE), particularly in scenarios with limited sample sizes.
翻訳日:2024-01-28 16:21:40 公開日:2024-01-12
# 大規模言語モデルにおける地理空間的位置埋め込み手法の体系的レビュー:空間AIシステムへの道

A systematic review of geospatial location embedding approaches in large language models: A path to spatial AI systems ( http://arxiv.org/abs/2401.10279v1 )

ライセンス: Link先を確認
Sean Tucker(参考訳) geospatial location embedded (gle) は、大言語モデル (llm) が空間データを同一化し、分析するのに役立つ。 ジオ空間人工知能(GeoAI)におけるGLEの出現は、我々の複雑な現代空間におけるより深い地理空間認識の必要性と、ジェネレーティブAIにおける深い意味の抽出におけるLLMの成功に起因している。 google scholar, science direct, arxivで地理空間的位置埋め込みとllmに関する論文を検索し,llmを通じてより深い空間的"知識"を得ることに焦点を当てた記事をレビューした。 私たちは304タイトル、30の要約、および18のフルテキストの論文をスクリーニングし、GLEのテーマであるEntity Location Embedding(ELE)、Document Location Embedding(DLE)、Sequence Location Embedding(SLE)、Token Location Embedding(TLE)の4つを明らかにしました。 合成は「空間」と「llm」の対話的な会話を含む表と物語である。 GLEは空間データを重畳することで空間的理解を支援するが、空間的モダリティの複雑化と一般化推論の進歩の必要性を強調している。 GLEは、空間的知識をモデルアーキテクチャに組み込む空間的基礎/言語モデル(SLM)の必要性を示唆している。 SLMフレームワークは空間人工知能システム(SPAIS)を推進し、物理空間にマップする空間ベクトル空間(SVS)を確立する。 結果として生じる空間的流行言語モデルは一意である。 実際の空間とAI対応空間を同時に表現し、空間人工知能システム(SPAIS)の基礎として、AIネイティブなジオストレージ、分析、マルチモダリティの道を開く。

Geospatial Location Embedding (GLE) helps a Large Language Model (LLM) assimilate and analyze spatial data. GLE emergence in Geospatial Artificial Intelligence (GeoAI) is precipitated by the need for deeper geospatial awareness in our complex contemporary spaces and the success of LLMs in extracting deep meaning in Generative AI. We searched Google Scholar, Science Direct, and arXiv for papers on geospatial location embedding and LLM and reviewed articles focused on gaining deeper spatial "knowing" through LLMs. We screened 304 titles, 30 abstracts, and 18 full-text papers that reveal four GLE themes - Entity Location Embedding (ELE), Document Location Embedding (DLE), Sequence Location Embedding (SLE), and Token Location Embedding (TLE). Synthesis is tabular and narrative, including a dialogic conversation between "Space" and "LLM." Though GLEs aid spatial understanding by superimposing spatial data, they emphasize the need to advance in the intricacies of spatial modalities and generalized reasoning. GLEs signal the need for a Spatial Foundation/Language Model (SLM) that embeds spatial knowing within the model architecture. The SLM framework advances Spatial Artificial Intelligence Systems (SPAIS), establishing a Spatial Vector Space (SVS) that maps to physical space. The resulting spatially imbued Language Model is unique. It simultaneously represents actual space and an AI-capable space, paving the way for AI native geo storage, analysis, and multi-modality as the basis for Spatial Artificial Intelligence Systems (SPAIS).
翻訳日:2024-01-28 16:21:20 公開日:2024-01-12
# 高度なIoTシステムのための量子ニューラルネットワークソフトウェアテスト、分析、コードの最適化:設計、実装、可視化

Quantum Neural Network Software Testing, Analysis, and Code Optimization for Advanced IoT Systems: Design, Implementation, and Visualization ( http://arxiv.org/abs/2401.10914v1 )

ライセンス: Link先を確認
Soohyun Park and Joongheon Kim(参考訳) 本稿では,高度なIoT(Internet-of-Things)システムにおける量子ニューラルネットワーク(QNN)ソフトウェアのための,新しい実行時テスト,解析,コード最適化(TACO)手法を提案する。 QNNのトレーニングパフォーマンスを容易に認識できるため、バレン高原状況のリアルタイムなビジュアル表示は、リアルタイム量子ベースの高度なIoTソフトウェアテストに役立ちます。 さらに、このツールは、たとえ量子力学や量子コンピューティングに精通していないとしても、高精度なQNNベースの高度なIoTソフトウェアの設計と実装を直感的にガイドできるため、ソフトウェアエンジニアにとって明らかに有用である。 最後に、提案したTACOは、ソフトウェアエンジニアがテンソルボードを用いて不毛の高原の状況を視覚的に識別するため、視覚フィードバックも可能である。 また、情報に基づいてQNN構造を変更することもできる。

This paper introduces a novel run-time testing, analysis, and code optimization (TACO) method for quantum neural network (QNN) software in advanced Internet-of-Things (IoT) systems, which visually presents the learning performance that is called a barren plateau. The run-time visual presentation of barren plateau situations is helpful for real-time quantum-based advanced IoT software testing because the software engineers can easily be aware of the training performances of QNN. Moreover, this tool is obviously useful for software engineers because it can intuitively guide them in designing and implementing high-accurate QNN-based advanced IoT software even if they are not familiar with quantum mechanics and quantum computing. Lastly, the proposed TACO is also capable of visual feedback because software engineers visually identify the barren plateau situations using tensorboard. In turn, they are also able to modify QNN structures based on the information.
翻訳日:2024-01-28 16:09:31 公開日:2024-01-12
# 5G NR PRACH受信の強化: AI/MLアプローチ

Enhancements for 5G NR PRACH Reception: An AI/ML Approach ( http://arxiv.org/abs/2401.12803v1 )

ライセンス: Link先を確認
Rohit Singh, Anil Kumar Yerrapragada, Jeeva Keshav S, Radha Krishna Ganti(参考訳) ランダムアクセスは、ユーザ機器(UE)をベースステーション(gNB)に初期接続できるようにするための重要なステップである。 UEは、既知の塩基配列の位相回転にプリアンブルインデックス(RAPID)を埋め込み、物理ランダムアクセスチャンネル(PRACH)に送信することで、自身を識別する。 PRACH上の信号はまた、UEの位置によって誘導される伝播遅延(Timing Advance, TA)の推定を可能にする。 従来の受信機は相関に基づく手法を用いてRAPIDとTAを推定する。 本稿では、AI/MLモデルを用いて、RAPIDとTAの2つのニューラルネットワークを提案する。 他の作品とは異なり、これらの2つのモデルは逐次ではなく並列に実行できる。 シミュレーションデータとオーバー・ザ・エアのハードウェアキャプチャによる実験は、従来の相関手法と比較して、提案したAI/MLベースの技術の性能改善を強調している。

Random Access is an important step in enabling the initial attachment of a User Equipment (UE) to a Base Station (gNB). The UE identifies itself by embedding a Preamble Index (RAPID) in the phase rotation of a known base sequence, which it transmits on the Physical Random Access Channel (PRACH). The signal on the PRACH also enables the estimation of propagation delay, often known as Timing Advance (TA), which is induced by virtue of the UE's position. Traditional receivers estimate the RAPID and TA using correlation-based techniques. This paper presents an alternative receiver approach that uses AI/ML models, wherein two neural networks are proposed, one for the RAPID and one for the TA. Different from other works, these two models can run in parallel as opposed to sequentially. Experiments with both simulated data and over-the-air hardware captures highlight the improved performance of the proposed AI/ML-based techniques compared to conventional correlation methods.
翻訳日:2024-01-28 15:43:39 公開日:2024-01-12
# 量子力学トンネルは古典保存量を破壊する

Quantum Dynamical Tunneling Breaks Classical Conserved Quantities ( http://arxiv.org/abs/2401.06474v1 )

ライセンス: Link先を確認
Lingchii Kong, Zongping Gong and Biao Wu(参考訳) 古典的に禁止された方法で位相空間領域間で発生する量子力学トンネルは、擬積分系における保存量を破壊することができる。 典型的な擬可積分系のクラスにおける保存量は、量子力学的に破壊可能であることを厳密に証明する。 そして、この破れた保存量の不確かさを数値的に計算し、最大10^5$の固有状態に対してゼロに保たれ、エネルギー準位統計に類似した普遍分布を示す。 さらに、大きな不確実性を持つすべての固有状態は保存量の異なる正則軌道の重畳を示し、動的トンネルの明確な現れを示す。 疑似可積分系におけるレベル統計を再現するためにランダム行列モデルを構築した。

We discover that quantum dynamical tunneling, occurring between phase space regions in a classically forbidden way, can break conserved quantities in pseudointegrable systems. We rigorously prove that a conserved quantity in a class of typical pseudointegrable systems can be broken quantum mechanically. We then numerically compute the uncertainties of this broken conserved quantity, which remain non-zero for up to $10^5$ eigenstates and exhibit universal distributions similar to energy level statistics. Furthermore, all the eigenstates with large uncertainties show the superpositions of regular orbits with different values of the conserved quantity, showing definitive manifestation of dynamical tunneling. A random matrix model is constructed to successfully reproduce the level statistics in pseudointegrable systems.
翻訳日:2024-01-22 12:38:25 公開日:2024-01-12
# ASRRobust NLUモデルの実世界への適用性を評価する超越制御環境

Transcending Controlled Environments Assessing the Transferability of ASRRobust NLU Models to Real-World Applications ( http://arxiv.org/abs/2401.09354v1 )

ライセンス: Link先を確認
Hania Khan, Aleena Fatima Khalid, Zaryab Hassan(参考訳) 本研究では,ASR-robust Natural Language Understanding (NLU)モデルの制御された実験条件から実世界への伝達可能性について検討する。 Urduのスマートホームオートメーションコマンドに着目し、さまざまなノイズプロファイル、言語的バリエーション、ASRエラーシナリオの下でモデルパフォーマンスを評価する。 この研究はUrduBERTモデルを活用し、現実世界のデータ収集、クロスバリデーション、トランスファーラーニング、ノイズ変動研究、ドメイン適応を含む体系的な方法論を用いている。 評価指標には、タスク固有の精度、レイテンシ、ユーザの満足度、ASRエラーに対する堅牢性が含まれる。 この結果は、超越制御環境におけるASR-robust NLUモデルの課題と適応性に関する洞察に寄与する。

This research investigates the transferability of Automatic Speech Recognition (ASR)-robust Natural Language Understanding (NLU) models from controlled experimental conditions to practical, real-world applications. Focused on smart home automation commands in Urdu, the study assesses model performance under diverse noise profiles, linguistic variations, and ASR error scenarios. Leveraging the UrduBERT model, the research employs a systematic methodology involving real-world data collection, cross-validation, transfer learning, noise variation studies, and domain adaptation. Evaluation metrics encompass task-specific accuracy, latency, user satisfaction, and robustness to ASR errors. The findings contribute insights into the challenges and adaptability of ASR-robust NLU models in transcending controlled environments.
翻訳日:2024-01-22 09:41:18 公開日:2024-01-12
# 時間依存波浪予測のための物理インフォームド機械学習モデル

A Physics-informed machine learning model for time-dependent wave runup prediction ( http://arxiv.org/abs/2401.08684v1 )

ライセンス: Link先を確認
Saeed Saviz Naeini, Reda Snaiki(参考訳) 波浪は海岸の洪水、海岸線の変化、海岸構造物の損傷に重要な要因である。 気候変動はまた、海岸地域に対する波の流出の影響を増幅すると予想されている。 したがって, 沿岸域の効率的な設計・管理には, 高速かつ正確な波浪予測が不可欠である。 しかし,本質的非線形性と非定常性のため,最も高度な機械学習手法を用いた場合においても,時間依存の波浪の予測は困難である。 本研究では,物理インフォームド機械学習に基づく手法を提案し,時系列波の効率的なシミュレートを行った。 本手法は,surfbeat(xbsb)モードの計算効率と,xbeachモデルの非静水(xbnh)モードの精度を組み合わせたものである。 具体的には、XBSBからのウェーブランアップのイメージ表現をXBNHからの対応する画像にマッピングするために、条件生成逆ネットワーク(cGAN)を用いる。 これらの画像は、まず波巻き上げ信号を時間周波数のスカルグラムに変換し、それから画像表現に変換することで生成される。 cGANモデルは、XBSBからの物理知識を取り入れることで、画像と画像のマッピングタスクの性能を向上させる。 モデルをトレーニングした後、高忠実度xbnhベースのスカルグラムを予測し、逆ウェーブレット変換を用いて時系列波のラアップを再構築する。 シミュレーションの結果,波浪率予測におけるモデルの有効性とロバスト性を評価し,リスク評価・管理への応用の可能性を示した。

Wave runup is a critical factor affecting coastal flooding, shoreline changes, and damage to coastal structures. Climate change is also expected to amplify wave runup's impact on coastal areas. Therefore, fast and accurate wave runup estimation is essential for effective coastal engineering design and management. However, predicting the time-dependent wave runup is challenging due to the intrinsic nonlinearities and non-stationarity of the process, even with the use of the most advanced machine learning techniques. In this study, a physics-informed machine learning-based approach is proposed to efficiently and accurately simulate time-series wave runup. The methodology combines the computational efficiency of the Surfbeat (XBSB) mode with the accuracy of the nonhydrostatic (XBNH) mode of the XBeach model. Specifically, a conditional generative adversarial network (cGAN) is used to map the image representation of wave runup from XBSB to the corresponding image from XBNH. These images are generated by first converting wave runup signals into time-frequency scalograms and then transforming them into image representations. The cGAN model achieves improved performance in image-to-image mapping tasks by incorporating physics-based knowledge from XBSB. After training the model, the high-fidelity XBNH-based scalograms can be predicted, which are then employed to reconstruct the time-series wave runup using the inverse wavelet transform. The simulation results underscore the efficiency and robustness of the proposed model in predicting wave runup, suggesting its potential value for applications in risk assessment and management.
翻訳日:2024-01-22 09:41:07 公開日:2024-01-12
# 注意シンク拡張大言語モデルを用いたゼロショットRTLコード生成

Zero-Shot RTL Code Generation with Attention Sink Augmented Large Language Models ( http://arxiv.org/abs/2401.08683v1 )

ライセンス: Link先を確認
Selim Sandal, Ismail Akturk(参考訳) ハードウェアの設計と最適化は伝統的に資源集約的であり、確立された設計自動化ツールにかなりの専門知識と依存を必要とする。 本稿では,大規模言語モデルを利用したハードウェア設計におけるコード生成プロセスの合理化の可能性について論じる。 従来の研究とは対照的に,1つのプロンプトを通じて高レベル設計仕様を受け入れる大規模言語モデルを用いて,対応するレジスタ・トランスファーレベル(RTL)コードを生成する。 RTLコード生成で大きな言語モデルを使用する能力は、設計反復サイクルを高速化するだけでなく、従来の手法の計算上の課題を持つ設計空間の探索も促進する。 本稿では,既存の注意機構の欠点を実証し,新しい注意機構を使用する際に,機能的,最適化された,業界標準に準拠したrtlコードを生成する言語モデルの能力を示す。 これらの知見は、ハードウェア設計におけるアーキテクチャ探索と自動化の将来の展望を形成する上で、大きな言語モデルが果たす役割を浮き彫りにしている。

The design and optimization of hardware have traditionally been resource-intensive, demanding considerable expertise and dependence on established design automation tools. This paper discusses the possibility of exploiting large language models to streamline the code generation process in hardware design. In contrast to earlier studies, this paper aims to use large language models that accepts high-level design specifications through a single prompt to generate corresponding Register-Transfer Level (RTL) code. The ability to use large language models on RTL code generation not only expedites design iteration cycles but also facilitates the exploration of design spaces that have computational challenges for conventional techniques. Through our evaluation, we demonstrate the shortcoming of existing attention mechanisms, and present the abilities of language models to produce functional, optimized, and industry-standard compliant RTL code when a novel attention mechanism is used. These findings underscore the expanding role of large language models in shaping the future landscape of architectural exploration and automation in hardware design.
翻訳日:2024-01-22 09:40:43 公開日:2024-01-12
# 弱いメモリはモデルベースのコンパイラテストを要求する

Weak Memory Demands Model-based Compiler Testing ( http://arxiv.org/abs/2401.09474v1 )

ライセンス: Link先を確認
Luke Geeson(参考訳) コンパイラのバグは、コンパイルされたコンカレントプログラムの動作が、アーキテクチャメモリモデルによって許容されるように、ソースモデルの下でソースプログラムによって許容される振る舞いでない場合に発生する。 C/C++メモリモデルが導入されてから10年が経ち、ほとんどのコンパイラのバグが見つかりました。 プロセッサの実装は、緩やかなアーキテクチャモデルの振る舞いをますます活用している。 そのため、コンパイルプログラムは古いハードウェアでは見られないバグを示すことがある。 そのためにはモデルベースのコンパイラテストが必要です。 この観察は驚くべきものではないが、その意味は広い。 コンパイラとそのテストツールはハードウェアのリラクゼーションに従うために更新され、並行テストジェネレータは改善され、以前の作業の仮定は再検討する必要がある。 LLVMで報告したコンパイラツールチェーンバグを使って、これらのアイデアを調査します。

A compiler bug arises if the behaviour of a compiled concurrent program, as allowed by its architecture memory model, is not a behaviour permitted by the source program under its source model. One might reasonably think that most compiler bugs have been found in the decade since the introduction of the C/C++ memory model. We observe that processor implementations are increasingly exploiting the behaviour of relaxed architecture models. As such, compiled programs may exhibit bugs not seen on older hardware. To account for this we require model-based compiler testing. While this observation is not surprising, its implications are broad. Compilers and their testing tools will need to be updated to follow hardware relaxations, concurrent test generators will need to be improved, and assumptions of prior work will need revisiting. We explore these ideas using a compiler toolchain bug we reported in LLVM.
翻訳日:2024-01-22 09:15:51 公開日:2024-01-12
# 家庭内会話型AIを活用したマルチロボットシステムにおけるビジネスと倫理的懸念

Business and ethical concerns in domestic Conversational Generative AI-empowered multi-robot systems ( http://arxiv.org/abs/2401.09473v1 )

ライセンス: Link先を確認
Rebekah Rousi, Hooman Samani, Niko M\"akitalo, Ville Vakkuri, Simo Linkola, Kai-Kristian Kemell, Paulius Daubaris, Ilenia Fronza, Tommi Mikkonen, Pekka Abrahamsson(参考訳) ビジネスと技術は論理と設計を通じて複雑に結びついています。 彼らは同様に社会的変化に敏感であり、スキャンダルによって破壊される可能性がある。 協調型マルチロボットシステム(MRS)は、さまざまなタイプやブランドのロボットが多様な状況で協力できるようになっている。 最近の人工知能(ai)の議論では、自然言語の使用とディープフェイクを含むメディアの生成を通じて人間を模倣する能力があるため、生成型人工知能(generative artificial intelligence)が主要な話題となっている。 本稿では、生成AIの会話的側面に特化して、会話生成人工知能(Conversational Generative AI, CGI)という用語を用いる。 MRSと同様に、CGIは、セクター全体にわたるプロセスを変革し、人間がビジネスを行う方法を変革する大きな可能性を秘めている。 ビジネスの観点からは、利益相反やプライバシーの慣行、安全上の懸念のある共同のmrsだけでは、倫理的な検査が必要である。 CGIによって強化されたMSSは、差し迫った倫理的落とし穴を明らかにするために多次元かつ洗練された方法を要求する。 本研究は,MORULモデルの開発段階を報告しながら,CGIを活用したMSSの倫理に焦点を当てた。

Business and technology are intricately connected through logic and design. They are equally sensitive to societal changes and may be devastated by scandal. Cooperative multi-robot systems (MRSs) are on the rise, allowing robots of different types and brands to work together in diverse contexts. Generative artificial intelligence has been a dominant topic in recent artificial intelligence (AI) discussions due to its capacity to mimic humans through the use of natural language and the production of media, including deep fakes. In this article, we focus specifically on the conversational aspects of generative AI, and hence use the term Conversational Generative artificial intelligence (CGI). Like MRSs, CGIs have enormous potential for revolutionizing processes across sectors and transforming the way humans conduct business. From a business perspective, cooperative MRSs alone, with potential conflicts of interest, privacy practices, and safety concerns, require ethical examination. MRSs empowered by CGIs demand multi-dimensional and sophisticated methods to uncover imminent ethical pitfalls. This study focuses on ethics in CGI-empowered MRSs while reporting the stages of developing the MORUL model.
翻訳日:2024-01-22 09:15:39 公開日:2024-01-12
# Minimally Invasive Surgeriesのビデオから3Dツールの追跡を可視化するプラグイン

Plug-in for visualizing 3D tool tracking from videos of Minimally Invasive Surgeries ( http://arxiv.org/abs/2401.09472v1 )

ライセンス: Link先を確認
Shubhangi Nema, Abhishek Mathur and Leena Vachhani(参考訳) 本稿では,最小侵襲手術(MIS)における機器追跡と3次元可視化の課題に取り組む。 2dカメラのプロジェクションと最小限のハードウェア統合による、従来およびロボット支援のミスマッチ問題。 目的は、シャフトや金属クラスパーを含む手術器具全体を追跡して可視化することであり、手術環境内の安全なナビゲーションを可能にすることである。 提案手法は,セグメンテーションマップに基づく2次元追跡を伴い,広範囲の地底知識を伴わないラベル付きデータセットの作成を容易にする。 2次元間隔の幾何学的変化は動きを表現し、キネマティックスに基づくアルゴリズムは3dトラッキング情報を生成する。 2次元および3次元の運動推定における合成および実験結果は無視可能な誤りを示し、MISビデオにおける楽器のラベル付けとモーショントラッキングの方法を検証する。 この結論は、2次元セグメンテーション手法の単純さと計算効率を強調し、3次元可視化のための直接プラグインとしての可能性を強調している。

This paper tackles instrument tracking and 3D visualization challenges in minimally invasive surgery (MIS), crucial for computer-assisted interventions. Conventional and robot-assisted MIS encounter issues with limited 2D camera projections and minimal hardware integration. The objective is to track and visualize the entire surgical instrument, including shaft and metallic clasper, enabling safe navigation within the surgical environment. The proposed method involves 2D tracking based on segmentation maps, facilitating creation of labeled dataset without extensive ground-truth knowledge. Geometric changes in 2D intervals express motion, and kinematics based algorithms process results into 3D tracking information. Synthesized and experimental results in 2D and 3D motion estimates demonstrate negligible errors, validating the method for labeling and motion tracking of instruments in MIS videos. The conclusion underscores the proposed 2D segmentation technique's simplicity and computational efficiency, emphasizing its potential as direct plug-in for 3D visualization in instrument tracking and MIS practices.
翻訳日:2024-01-22 09:15:21 公開日:2024-01-12
# シンメトリーとアニーリングを併用した繰り返しニューラルネットワーク波動関数の精度向上

Supplementing Recurrent Neural Network Wave Functions with Symmetry and Annealing to Improve Accuracy ( http://arxiv.org/abs/2207.14314v2 )

ライセンス: Link先を確認
Mohamed Hibat-Allah, Roger G. Melko, Juan Carrasquilla(参考訳) リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、人工知能のパラダイムから生まれたニューラルネットワークの一種で、自然言語処理の分野で多くの興味深い進歩を実現している。 興味深いことに、これらのアーキテクチャは量子システムの基底状態の近似に強力なアンサツであることが示されている。 本稿では,[Phys. Rev. Research 2, 023358 (2020)]の結果の上に構築し, より強力なRNN波動関数アンサッツを2次元で構築する。 2次元(2次元)ハイゼンベルク模型の平方格子上および三角格子上における基底状態エネルギーの正確な推定には対称性とアニーリングを用いる。 本手法は, 三角格子上のシステムサイズが14 \times 14$よりも大きい場合, 密度行列再正規化群(DMRG)よりも優れていることを示す。

Recurrent neural networks (RNNs) are a class of neural networks that have emerged from the paradigm of artificial intelligence and has enabled lots of interesting advances in the field of natural language processing. Interestingly, these architectures were shown to be powerful ansatze to approximate the ground state of quantum systems. Here, we build over the results of [Phys. Rev. Research 2, 023358 (2020)] and construct a more powerful RNN wave function ansatz in two dimensions. We use symmetry and annealing to obtain accurate estimates of ground state energies of the two-dimensional (2D) Heisenberg model, on the square lattice and on the triangular lattice. We show that our method is superior to Density Matrix Renormalisation Group (DMRG) for system sizes larger than or equal to $14 \times 14$ on the triangular lattice.
翻訳日:2024-01-18 03:59:48 公開日:2024-01-12
# nlpにおける忠実なモデル説明に向けて:調査

Towards Faithful Model Explanation in NLP: A Survey ( http://arxiv.org/abs/2209.11326v4 )

ライセンス: Link先を確認
Qing Lyu, Marianna Apidianaki, Chris Callison-Burch(参考訳) エンドツーエンドのニューラル自然言語処理(nlp)モデルは理解が難しいことで悪名高い。 これは近年、モデル説明可能性への多くの取り組みを引き起こしている。 モデル説明のデシドラタムの一つは忠実性であり、つまりモデル予測の背後にある推論過程を正確に表現すべきである。 本研究では,NLPにおける110以上のモデル説明手法を忠実度レンズを用いて検討した。 まず,忠実性の定義と評価,説明可能性の意義について論じる。 次に, 既存手法を類似性に基づく手法, モデル内部構造の解析, バックプロパゲーションに基づく手法, 反ファクト介入, 自己探索モデルという5つのカテゴリに分類する。 各カテゴリについて、代表的研究、強度、弱点を合成する。 最後に,それらの共通美徳と課題を要約し,nlpの忠実な説明可能性に向けた今後の作業の方向性を考察する。

End-to-end neural Natural Language Processing (NLP) models are notoriously difficult to understand. This has given rise to numerous efforts towards model explainability in recent years. One desideratum of model explanation is faithfulness, i.e. an explanation should accurately represent the reasoning process behind the model's prediction. In this survey, we review over 110 model explanation methods in NLP through the lens of faithfulness. We first discuss the definition and evaluation of faithfulness, as well as its significance for explainability. We then introduce recent advances in faithful explanation, grouping existing approaches into five categories: similarity-based methods, analysis of model-internal structures, backpropagation-based methods, counterfactual intervention, and self-explanatory models. For each category, we synthesize its representative studies, strengths, and weaknesses. Finally, we summarize their common virtues and remaining challenges, and reflect on future work directions towards faithful explainability in NLP.
翻訳日:2024-01-18 03:46:49 公開日:2024-01-12
# RGB-DカメラによるUAVナビゲーションと衝突回避のためのリアルタイム動的障害物追跡・マッピングシステム

A real-time dynamic obstacle tracking and mapping system for UAV navigation and collision avoidance with an RGB-D camera ( http://arxiv.org/abs/2209.08258v4 )

ライセンス: Link先を確認
Zhefan Xu, Xiaoyang Zhan, Baihan Chen, Yumeng Xiu, Chenhao Yang, and Kenji Shimada(参考訳) 混雑した空間における自律ロボットにとって、リアルタイムな動的環境認識は不可欠である。 一般的なボクセルマッピング法は, 任意に複雑な形状の3次元障害物を効率的に表現できるが, 静的障害物と動的障害物の区別は困難であり, 障害物回避性能が制限される。 自動運転には、高度な学習に基づく動的障害物検出アルゴリズムが数多く存在するが、クワッドコプターの限られた計算リソースでは、これらのアプローチでリアルタイムのパフォーマンスを達成できない。 そこで本研究では,rgb-dカメラを用いたクワッドコプター障害物回避のためのリアルタイム動的障害物追跡マッピングシステムを提案する。 提案システムではまず, 占有ボクセルマップを用いた深度画像を用いて動的障害物領域を生成する。 障害物領域の提案では, カルマンフィルタと連続フィルタを用いて動的障害物の追跡を行う。 最後に、追跡された動的障害物の状態を用いたマルコフ連鎖に基づく環境対応軌道予測手法を提案する。 我々は独自のクワッドコプターとナビゲーションプランナーを用いて提案システムを実装した。 シミュレーションおよび物理実験により,本手法は動的環境における障害物をリアルタイムに追跡・表現し,障害物を安全に回避できることを示した。 当社のソフトウェアはオープンソースROSパッケージとしてGitHubで入手可能です。

The real-time dynamic environment perception has become vital for autonomous robots in crowded spaces. Although the popular voxel-based mapping methods can efficiently represent 3D obstacles with arbitrarily complex shapes, they can hardly distinguish between static and dynamic obstacles, leading to the limited performance of obstacle avoidance. While plenty of sophisticated learning-based dynamic obstacle detection algorithms exist in autonomous driving, the quadcopter's limited computation resources cannot achieve real-time performance using those approaches. To address these issues, we propose a real-time dynamic obstacle tracking and mapping system for quadcopter obstacle avoidance using an RGB-D camera. The proposed system first utilizes a depth image with an occupancy voxel map to generate potential dynamic obstacle regions as proposals. With the obstacle region proposals, the Kalman filter and our continuity filter are applied to track each dynamic obstacle. Finally, the environment-aware trajectory prediction method is proposed based on the Markov chain using the states of tracked dynamic obstacles. We implemented the proposed system with our custom quadcopter and navigation planner. The simulation and physical experiments show that our methods can successfully track and represent obstacles in dynamic environments in real-time and safely avoid obstacles. Our software is available on GitHub as an open-source ROS package.
翻訳日:2024-01-18 03:46:35 公開日:2024-01-12
# 勾配に基づくbスプライン軌道最適化を用いた視覚支援型uavナビゲーションと動的障害物回避

Vision-aided UAV navigation and dynamic obstacle avoidance using gradient-based B-spline trajectory optimization ( http://arxiv.org/abs/2209.07003v3 )

ライセンス: Link先を確認
Zhefan Xu, Yumeng Xiu, Xiaoyang Zhan, Baihan Chen, Kenji Shimada(参考訳) 動的環境をナビゲートするには、ロボットが衝突のない軌道を生成し、移動する障害物を積極的に回避する必要がある。 これまでのほとんどの研究は、幾何学、占有、ESDFマップのような単一の地図表現に基づく経路計画アルゴリズムを設計した。 静的な環境では成功したが、マップ表現の制限のため、これらの手法は静的および動的障害を同時に扱うことはできない。 そこで本研究では,ロボットのオンボードビジョンを用いた勾配に基づくbスプライン軌道最適化アルゴリズムを提案する。 深度ビジョンにより、ロボットはボクセルマップに基づいて幾何学的に動的オブジェクトを追跡し、表現することができる。 提案手法は,まず円状ガイドポイントアルゴリズムを適用し,静的障害を回避するためのコストと勾配を近似する。 そして、視覚検出された移動物体により、後退水平距離場が動的衝突を防止するために同時に使用される。 最後に、繰り返しリガイド戦略を適用して、無衝突軌道を生成する。 シミュレーションと物理実験により,提案手法が動的環境を安全にナビゲートするためにリアルタイムに動作できることが証明された。 当社のソフトウェアはオープンソースパッケージとしてGitHubで入手可能です。

Navigating dynamic environments requires the robot to generate collision-free trajectories and actively avoid moving obstacles. Most previous works designed path planning algorithms based on one single map representation, such as the geometric, occupancy, or ESDF map. Although they have shown success in static environments, due to the limitation of map representation, those methods cannot reliably handle static and dynamic obstacles simultaneously. To address the problem, this paper proposes a gradient-based B-spline trajectory optimization algorithm utilizing the robot's onboard vision. The depth vision enables the robot to track and represent dynamic objects geometrically based on the voxel map. The proposed optimization first adopts the circle-based guide-point algorithm to approximate the costs and gradients for avoiding static obstacles. Then, with the vision-detected moving objects, our receding-horizon distance field is simultaneously used to prevent dynamic collisions. Finally, the iterative re-guide strategy is applied to generate the collision-free trajectory. The simulation and physical experiments prove that our method can run in real-time to navigate dynamic environments safely. Our software is available on GitHub as an open-source package.
翻訳日:2024-01-18 03:45:41 公開日:2024-01-12
# 一般化確率論における多体系計測と情報処理における役割

Multi-system measurements in generalized probabilistic theories and their role in information processing ( http://arxiv.org/abs/2209.04474v3 )

ライセンス: Link先を確認
Giorgos Eftaxias, Mirjam Weilenmann, Roger Colbeck(参考訳) 一般化確率論(英語版)(gpts)は、古典理論、量子論、その他を含む様々な可能な理論を検証できる枠組みを提供する。 一般に、GPTの状態空間を拡大すると、追加の状態が効果の集合、すなわち測定の構成に強い制約を与えるため、測定の可能性が低下する。 これは情報処理に影響を及ぼす可能性がある。 箱の世界では、例えば、任意の非シグナリング分布が実現可能な GPT では、ベル基底における測定の類似は存在しないので、絡み合いの類似は不可能である。 ボックスワールドにおける複数のシステムに関する総合的な研究は欠落している。 ここでは、個々のシステム(終端配線)と逐次的に相互作用して実行できるものと、より興味深いセットを区別して、そのような測定を詳細に検討する。 少ない入力数、出力数、パーティ数で可能なボックスワールド効果をすべて計算し、配線であるものを特定します。 ボックスワールドの広い状態空間は小さな効果空間をもたらすため、ボックスワールドの効果はGPTに広く適用される。 また, 情報処理における非ワイリングの利用例として, 状態識別, 非局所蒸留, ボックスワールドによる非局所性類似性について検討した。 最後に、論理的に一貫した古典的プロセスの研究と文脈性シナリオの構成に結果を結びつける。 ボックスワールドにおける測定値の理解を深めることにより、量子理論を基礎とする可能性のある原理の研究に有用である。

Generalized probabilistic theories (GPTs) provide a framework in which a range of possible theories can be examined, including classical theory, quantum theory and those beyond. In general, enlarging the state space of a GPT leads to fewer possible measurements because the additional states give stronger constraints on the set of effects, the constituents of measurements. This can have implications for information processing. In boxworld, for example, a GPT in which any no-signalling distribution can be realised, there is no analogue of a measurement in the Bell basis and hence the analogue of entanglement swapping is impossible. A comprehensive study of measurements on multiple systems in boxworld has been lacking. Here we consider such measurements in detail, distinguishing those that can be performed by interacting with individual systems sequentially (termed wirings), and the more interesting set of those that cannot. We compute all the possible boxworld effects for cases with small numbers of inputs, outputs and parties, identifying those that are wirings. The large state space of boxworld leads to a small effect space and hence the effects of boxworld are widely applicable in GPTs. We also show some possible uses of non-wirings for information processing by studying state discrimination, nonlocality distillation and the boxworld analogue of nonlocality without entanglement. Finally, we connect our results to the study of logically consistent classical processes and to the composition of contextuality scenarios. By enhancing understanding of measurements in boxworld, our results could be useful in studies of possible underlying principles on which quantum theory can be based.
翻訳日:2024-01-18 03:45:23 公開日:2024-01-12
# Swarm-SLAM : マルチロボットシステムのためのスパース分散協調型ローカライゼーションとマッピングフレームワーク

Swarm-SLAM : Sparse Decentralized Collaborative Simultaneous Localization and Mapping Framework for Multi-Robot Systems ( http://arxiv.org/abs/2301.06230v3 )

ライセンス: Link先を確認
Pierre-Yves Lajoie, Giovanni Beltrame(参考訳) C-SLAM(Collaborative Simultaneous Localization And Mapping)は、屋内、地下、水中などの外部位置決めシステムを持たない環境でのマルチロボット運用の成功に欠かせないコンポーネントである。 本稿では,オープンソースのc-slamシステムであるswarm-slamについて紹介する。swarm roboticsの重要な特性である,スケーラブルでフレキシブル,分散,スパースを備えた,オープンソースのc-slamシステムである。 本システムは慣性,ライダー,ステレオ,RGB-Dセンシングをサポートし,通信の低減と収束の促進を目的とした,ロボット間ループクロージャ優先技術を含む。 我々は,5つの異なるデータセット上でのROS-2の実装を評価し,アドホックネットワークを介して通信する3つのロボットを用いた実世界の実験を行った。 私たちのコードは公開されています。 https://github.com/MISTLab/Swarm-SLAM

Collaborative Simultaneous Localization And Mapping (C-SLAM) is a vital component for successful multi-robot operations in environments without an external positioning system, such as indoors, underground or underwater. In this paper, we introduce Swarm-SLAM, an open-source C-SLAM system that is designed to be scalable, flexible, decentralized, and sparse, which are all key properties in swarm robotics. Our system supports inertial, lidar, stereo, and RGB-D sensing, and it includes a novel inter-robot loop closure prioritization technique that reduces communication and accelerates convergence. We evaluated our ROS-2 implementation on five different datasets, and in a real-world experiment with three robots communicating through an ad-hoc network. Our code is publicly available: https://github.com/MISTLab/Swarm-SLAM
翻訳日:2024-01-18 03:36:29 公開日:2024-01-12
# アベリア対称性を持つ量子回路の理論

Theory of Quantum Circuits with Abelian Symmetries ( http://arxiv.org/abs/2302.12466v2 )

ライセンス: Link先を確認
Iman Marvian(参考訳) グローバル対称性を尊重するゲート(局所ユニタリ)を持つ量子回路は、凝縮物質理論や熱力学のような量子情報科学や関連する分野に広く応用されている。 しかし、その普及にもかかわらず、そのような回路の基本特性はよく理解されていない。 近年、大域的対称性を尊重する一般ユニタリは、概ね同じ対称性を尊重するゲートを用いても実現できないことが判明した。 この観察は重要なオープンな疑問を提起する: 大域対称性を尊重するk-局所ゲートでユニタリ変換を実現できるか? 言い換えれば、大域的な対称性が存在する場合、相互作用の局所性はコンポジットシステムの可能な時間発展にどのように影響するのか? 本研究では,Abelian(commutative)対称性の場合のこれらの問題に対処し,そのような対称性を持つ回路を合成するための構築的手法を開発する。 顕著なことに、座標系として、相互作用の局所性は依然として実現可能なユニタリにさらなる制約を課すが、非アベリア対称性の場合のある種の制限はアベリア対称性を持つ回路には適用されない。 例えば、su($d$)のような一般的な非可換対称性を持つ回路において、対称性の1つの既約表現(チャージ)を持つ部分空間で実現されるユニタリは、その対称性の非同値表現を持つ他の複数のセクタで実現されたユニタリを決定する。 さらに、あるセクタにおいて、対称性を尊重するすべてのユニタリよりも、実現可能なユニタリは、この群のシンプレクティック部分群または直交部分群である。 これらの制限がアーベル対称性の場合には現れないことを証明する。 この結果は、アベリア対称性の下では不可能な方法で量子系の熱化に影響を与える可能性があることを示唆している。

Quantum circuits with gates (local unitaries) respecting a global symmetry have broad applications in quantum information science and related fields, such as condensed matter theory and thermodynamics. However, despite their widespread use, fundamental properties of such circuits are not well-understood. Recently, it was found that generic unitaries respecting a global symmetry cannot be realized, even approximately, using gates that respect the same symmetry. This observation raises important open questions: What unitary transformations can be realized with k-local gates that respect a global symmetry? In other words, in the presence of a global symmetry, how does the locality of interactions constrain the possible time evolution of a composite system? In this work, we address these questions for the case of Abelian (commutative) symmetries and develop constructive methods for synthesizing circuits with such symmetries. Remarkably, as a corollary, we find that, while the locality of interactions still imposes additional constraints on realizable unitaries, certain restrictions observed in the case of non-Abelian symmetries do not apply to circuits with Abelian symmetries. For instance, in circuits with a general non-Abelian symmetry such as SU($d$), the unitary realized in a subspace with one irreducible representation (charge) of the symmetry dictates the realized unitaries in multiple other sectors with inequivalent representations of the symmetry. Furthermore, in certain sectors, rather than all unitaries respecting the symmetry, the realizable unitaries are the symplectic or orthogonal subgroups of this group. We prove that none of these restrictions appears in the case of Abelian symmetries. This result suggests that global non-Abelian symmetries may affect the thermalization of quantum systems in ways not possible under Abelian symmetries.
翻訳日:2024-01-18 03:23:59 公開日:2024-01-12
# 動的障害物を有する未知トンネル建設現場における視覚に基づく自律型UAV検査フレームワーク

A vision-based autonomous UAV inspection framework for unknown tunnel construction sites with dynamic obstacles ( http://arxiv.org/abs/2301.08422v3 )

ライセンス: Link先を確認
Zhefan Xu, Baihan Chen, Xiaoyang Zhan, Yumeng Xiu, Christopher Suzuki, Kenji Shimada(参考訳) ドリル・アンド・ブラスト工法によるトンネル建設には,地下破壊箇所を3次元的に計測する必要がある。 検査・測定作業の安全性・コスト・効率を考えると、無人航空機(UAV)のような軽量自律ロボットの配備はより必要で普及している。 以前の作品の多くは、検査視点の決定に事前の地図を使用し、動的な障害を考慮しない。 自律性の最大化を図るため,従来の地図を使わずに動的トンネル環境に対する視覚に基づくUAV検査フレームワークを提案する。 本手法は階層的計画手法を用いて,検査問題を異なるレベルに分解する。 高レベル意思決定者はまず、ロボットのタスクを決定し、目標点を生成する。 そして、中間レベルパスプランナーがウェイポイントパスを見つけ、衝突のない静的軌道を最適化する。 最後に、静的な軌道は、動的障害を避け、ターゲットポイントにナビゲートするために、低レベルのローカルプランナーに送られる。 さらに,我々のフレームワークには,動的障害物を同時に追跡し,RGB-Dカメラに基づく静的障害物を表現できる新しい動的マップモジュールが含まれている。 検査後、ターゲットの3次元形状を生成するためにStructure-from-Motion (SfM)パイプラインを適用する。 私たちの知る限り、未知の動的トンネル環境で自律的な検査が実現されたのはこれが初めてです。 実際のトンネルでの飛行実験は, トンネル掘削面を自律的に検査できることを示すものである。 当社のソフトウェアはオープンソースROSパッケージとしてGitHubで入手可能です。

Tunnel construction using the drill-and-blast method requires the 3D measurement of the excavation front to evaluate underbreak locations. Considering the inspection and measurement task's safety, cost, and efficiency, deploying lightweight autonomous robots, such as unmanned aerial vehicles (UAV), becomes more necessary and popular. Most of the previous works use a prior map for inspection viewpoint determination and do not consider dynamic obstacles. To maximally increase the level of autonomy, this paper proposes a vision-based UAV inspection framework for dynamic tunnel environments without using a prior map. Our approach utilizes a hierarchical planning scheme, decomposing the inspection problem into different levels. The high-level decision maker first determines the task for the robot and generates the target point. Then, the mid-level path planner finds the waypoint path and optimizes the collision-free static trajectory. Finally, the static trajectory will be fed into the low-level local planner to avoid dynamic obstacles and navigate to the target point. Besides, our framework contains a novel dynamic map module that can simultaneously track dynamic obstacles and represent static obstacles based on an RGB-D camera. After inspection, the Structure-from-Motion (SfM) pipeline is applied to generate the 3D shape of the target. To our best knowledge, this is the first time autonomous inspection has been realized in unknown and dynamic tunnel environments. Our flight experiments in a real tunnel prove that our method can autonomously inspect the tunnel excavation front surface. Our software is available on GitHub as an open-source ROS package.
翻訳日:2024-01-18 03:20:17 公開日:2024-01-12
# 深部ニューラルネットワークにおける局所Lojasiewicz条件下での確率勾配降下の収束

Convergence of stochastic gradient descent under a local Lojasiewicz condition for deep neural networks ( http://arxiv.org/abs/2304.09221v2 )

ライセンス: Link先を確認
Jing An and Jianfeng Lu(参考訳) 非凸目的関数に対する確率勾配降下(SGD)の収束について検討した。 我々は,chatterjee が \cite{chatterjee2022convergence} に導入した局所的 \l{}ojasiewicz 条件の下で正の確率で局所収束し,損失関数のランドスケープの局所的構造的仮定を付加する。 我々の証明の重要な構成要素は、SGDの全軌道が正の確率で局所領域内にあることを保証することである。 また、仮定が成り立つような有限幅のニューラルネットワークの例も提供している。

We study the convergence of stochastic gradient descent (SGD) for non-convex objective functions. We establish the local convergence with positive probability under the local \L{}ojasiewicz condition introduced by Chatterjee in \cite{chatterjee2022convergence} and an additional local structural assumption of the loss function landscape. A key component of our proof is to ensure that the whole trajectories of SGD stay inside the local region with a positive probability. We also provide examples of neural networks with finite widths such that our assumptions hold.
翻訳日:2024-01-18 03:12:48 公開日:2024-01-12
# 赤外線センサの測光補正

Photometric Correction for Infrared Sensors ( http://arxiv.org/abs/2304.03930v2 )

ライセンス: Link先を確認
Jincheng Zhang, Kevin Brink, Andrew R Willis(参考訳) 赤外線サーモグラフィーは、表面や物体の温度分布を捉え測定するために、いくつかの領域で広く用いられている。 この手法は、温度分布の空間分布が利用可能であれば、さらに3Dアプリケーションに拡張することができる。 Structure from Motion (SfM)は、2D画像の雲から3Dレンダリングを得ることのできる測光レンジイメージング技術である。 赤外線画像からsfmによる3次元再構成の可能性を探るために, 温度定数に基づく赤外線センサの測光補正モデルを提案する。 光度補正は、未知の係数と初期条件を持つマイクロボロメータ画素励起の微分方程式の解からの値としてシーンの照度を推定することによって達成される。 このモデルはsfmの枠組みに統合され、カメラの動きとシーン構造の両方の見積もりを改善するための測光補正の寄与を実験的に評価した。 さらに,補正した赤外線画像の再現性は,RGBセンサを用いた最先端の再現性に匹敵する性能を示した。

Infrared thermography has been widely used in several domains to capture and measure temperature distributions across surfaces and objects. This methodology can be further expanded to 3D applications if the spatial distribution of the temperature distribution is available. Structure from Motion (SfM) is a photometric range imaging technique that makes it possible to obtain 3D renderings from a cloud of 2D images. To explore the possibility of 3D reconstruction via SfM from infrared images, this article proposes a photometric correction model for infrared sensors based on temperature constancy. Photometric correction is accomplished by estimating the scene irradiance as the values from the solution to a differential equation for microbolometer pixel excitation with unknown coefficients and initial conditions. The model was integrated into an SfM framework and experimental evaluations demonstrate the contribution of the photometric correction for improving the estimates of both the camera motion and the scene structure. Further, experiments show that the reconstruction quality from the corrected infrared imagery achieves performance on par with state-of-the-art reconstruction using RGB sensors.
翻訳日:2024-01-18 03:10:35 公開日:2024-01-12
# 複数単位オークションにおける学習と結束

Learning and Collusion in Multi-unit Auctions ( http://arxiv.org/abs/2305.17402v2 )

ライセンス: Link先を確認
Simina Br\^anzei and Mahsa Derakhshan and Negin Golrezaei and Yanjun Han(参考訳) 我々は,炭素ライセンスなどの商品の割当に広く用いられている,均一価格の複数単位のオークションを繰り返すことを検討する。 各ラウンドにおいて、$k$の同一のユニットは、限界リターンを減少させるバリュエーションを持つバリュエーションを持つグループに販売される。 購入者は各ユニットの入札を提出し、各ユニットごとに$p$が設定され、すべてのユニットが販売される。 我々は、オークションの2つのバリエーションを検討し、価格がそれぞれk$-th highest bidと$(k+1)$-st highest bidに設定される。 我々は、このオークションのプロパティをオフラインとオンラインの両方の設定で分析する。 オフライン環境では、1人のプレイヤーが対面している問題を考える:過去のオークションで競合が提示した入札を含むデータセットへのアクセスを与えられた場合、データセット上のプレイヤー$i$の累積ユーティリティを最大化する入札ベクターを見つける。 この問題に対して多項式時間アルゴリズムを設計し、慎重に構築された有向非巡回グラフ上で最大重み付き経路を求めることに等価であることを示す。 オンライン環境では、プレイヤーは学習アルゴリズムを実行し、オークションに参加するときに入札を更新する。 オフラインアルゴリズムに基づいて、入札のための効率的なオンライン学習アルゴリズムを設計する。 アルゴリズムは、完全な情報とバンディットフィードバック構造の両方の下で、サブリニアな後悔を持っている。 私たちはオンライン学習アルゴリズムを後悔の少ない限界で補完します。 最後に、入札者間のゲームにおけるコアソリューション概念のレンズを通して、最悪の場合における平衡の質を分析する。 我々は、$(K+1)$-stの価格フォーマットが入札者間の共謀の影響を受けやすいことを示し、一方で、$K$-thの価格フォーマットにはこの問題がない。

We consider repeated multi-unit auctions with uniform pricing, which are widely used in practice for allocating goods such as carbon licenses. In each round, $K$ identical units of a good are sold to a group of buyers that have valuations with diminishing marginal returns. The buyers submit bids for the units, and then a price $p$ is set per unit so that all the units are sold. We consider two variants of the auction, where the price is set to the $K$-th highest bid and $(K+1)$-st highest bid, respectively. We analyze the properties of this auction in both the offline and online settings. In the offline setting, we consider the problem that one player $i$ is facing: given access to a data set that contains the bids submitted by competitors in past auctions, find a bid vector that maximizes player $i$'s cumulative utility on the data set. We design a polynomial time algorithm for this problem, by showing it is equivalent to finding a maximum-weight path on a carefully constructed directed acyclic graph. In the online setting, the players run learning algorithms to update their bids as they participate in the auction over time. Based on our offline algorithm, we design efficient online learning algorithms for bidding. The algorithms have sublinear regret, under both full information and bandit feedback structures. We complement our online learning algorithms with regret lower bounds. Finally, we analyze the quality of the equilibria in the worst case through the lens of the core solution concept in the game among the bidders. We show that the $(K+1)$-st price format is susceptible to collusion among the bidders; meanwhile, the $K$-th price format does not have this issue.
翻訳日:2024-01-18 02:45:02 公開日:2024-01-12
# 準安定マルコフボソニック系の位相的ゼロモードとエッジ対称性

Topological zero modes and edge symmetries of metastable Markovian bosonic systems ( http://arxiv.org/abs/2306.13711v2 )

ライセンス: Link先を確認
Vincent P. Flynn, Emilio Cobanera, Lorenza Viola(参考訳) 自由フェルミオン対称性で保護された位相相とそれに伴うエッジ局在励起のタイトボソニックなアナログは、凝縮物質とAMO物理学の把握を長い間避けてきた。 本研究は, 初期探査(prl 127, 245701 (2021))に基づいて, 位相超伝導体と絶縁体に特徴的なマヨアナとディラックエッジモードのタイトなボソニックアナログを実現するマルコフ散逸の対象となる幅広い二次ボソニック系を同定するものである。 この目的のために,疑似スペクトル理論をリンドブラジアン生成器の非正規性を捉えるための適切な数学的ツールとして活用し,これらのシステムの位相的メタスタビリティに関する一般的な枠組みを確立する。 過渡的・漸近的力学と非自明なトポロジカル不変量の間の急激な分離を特徴とする結果の力学パラダイムは、マヨラナとディラックボソンをダブしたエッジ局在モードをホストしていることが示される。 総じて、これらは1つの保存モードと、力学の近似対称性の正準共役生成器から構成される。 一般理論は、位相的に準安定な系が関与できる様々なエキゾチック境界物理学を示すいくつかのモデルを通して例示される。 特に、ネーターの定理がこの散逸な設定で破られる程度と、対称性とこれらのエッジモードの間の相互作用について検討する。 また, トポロジカルメタスタブルシステムで調製したボソニック猫状態に対する異常パリティダイナミクスの可能性を示した。 異常に長寿命な量子相関と発散するゼロ周波数パワースペクトルの形で観測可能なマルチタイムシグネチャを提案し、詳細に議論した。 我々の結果は、自由ボソンにおける真の対称性を保護したトポロジカル物理学の新しいパラダイムを指し、メタスタブル力学の長寿命な過渡的状態に深く埋め込まれた。

Tight bosonic analogs of free-fermionic symmetry-protected topological phases, and their associated edge-localized excitations, have long evaded the grasp of condensed-matter and AMO physics. In this work, building on our initial exploration [PRL 127, 245701 (2021)], we identify a broad class of quadratic bosonic systems subject to Markovian dissipation that realize tight bosonic analogs of the Majorana and Dirac edge modes characteristic of topological superconductors and insulators, respectively. To this end, we establish a general framework for topological metastability for these systems, by leveraging pseudospectral theory as the appropriate mathematical tool for capturing the non-normality of the Lindbladian generator. The resulting dynamical paradigm, which is characterized by both a sharp separation between transient and asymptotic dynamics and a nontrivial topological invariant, is shown to host edge-localized modes, which we dub Majorana and Dirac bosons. Generically, these consist of one conserved mode and a canonically conjugate generator of an approximate symmetry of the dynamics. The general theory is exemplified through several models exhibiting a range of exotic boundary physics that topologically metastable systems can engender. In particular, we explore the extent to which Noether's theorem is violated in this dissipative setting and the interplay between symmetries and these edge modes. We also demonstrate the possibility of anomalous parity dynamics for a bosonic cat state prepared in a topologically metastable system. Observable multitime signatures in the form of anomalously long-lived quantum correlations and divergent zero-frequency power spectral peaks are proposed and discussed in detail. Our results point to a new paradigm of genuine symmetry-protected topological physics in free bosons, embedded deeply in the long-lived transient regimes of metastable dynamics.
翻訳日:2024-01-18 02:21:04 公開日:2024-01-12
# 緩和近位点Langevinサンプリングによるベイズ画像の高速化

Accelerated Bayesian imaging by relaxed proximal-point Langevin sampling ( http://arxiv.org/abs/2308.09460v2 )

ライセンス: Link先を確認
Teresa Klatzer and Paul Dobson and Yoann Altmann and Marcelo Pereyra and Jes\'us Mar\'ia Sanz-Serna and Konstantinos C. Zygalakis(参考訳) 本稿では,基底凸幾何学を用いた逆問題の画像化におけるベイズ推定を行うために,マルコフ連鎖モンテカルロ法を提案する。 提案手法は2つの相補的解釈を持つ確率的緩和近位点反復の形式をとる。 モロー・ヨシダの平滑化によって滑らかあるいは正則化されたモデルの場合、アルゴリズムは利害の後方分布を標的とした過減衰ランジュバン拡散の暗黙の中間点離散化と等価である。 この離散化は、ガウス的対象に対して漸近的に偏りがなく、(例えば、加速された最適化スキームと同様に、収束するために$\sqrt{\kappa}$の順番を必要とする)強固なログコンケーブである任意の対象に対して加速的に収束することが示され、[m. pereyra, l. vargas mieles, k.c. zygalakis, siam j. imaging sciences, 13,2 (2020), pp. 905-935] はガウス的対象に対してのみ有効に加速され、バイアスを持つ。 滑らかでないモデルでは、アルゴリズムは、興味の後方分布のモロー・ヨシダ近似を標的としたランジュバン拡散のレイムクーラー・マチューズ離散化と等価であり、オイラー・マルヤマ離散化に基づく従来の未調整ランジュバン戦略よりもかなり低いバイアスが得られる。 $\kappa$-strongly log-concave のターゲットに対して、提供された非漸近収束解析は、収束速度を最大化する最適な時間ステップも特定する。 提案手法は,ガウス雑音およびポアソン雑音に対する画像デコンボリューションと,仮定駆動およびデータ駆動凸前駆による画像デコンボリューションに関する実験により実証された。 本論文の数値実験のソースコードはhttps://github.com/MI2G/accelerated-langevin-imlaから入手できる。

This paper presents a new accelerated proximal Markov chain Monte Carlo methodology to perform Bayesian inference in imaging inverse problems with an underlying convex geometry. The proposed strategy takes the form of a stochastic relaxed proximal-point iteration that admits two complementary interpretations. For models that are smooth or regularised by Moreau-Yosida smoothing, the algorithm is equivalent to an implicit midpoint discretisation of an overdamped Langevin diffusion targeting the posterior distribution of interest. This discretisation is asymptotically unbiased for Gaussian targets and shown to converge in an accelerated manner for any target that is $\kappa$-strongly log-concave (i.e., requiring in the order of $\sqrt{\kappa}$ iterations to converge, similarly to accelerated optimisation schemes), comparing favorably to [M. Pereyra, L. Vargas Mieles, K.C. Zygalakis, SIAM J. Imaging Sciences, 13,2 (2020), pp. 905-935] which is only provably accelerated for Gaussian targets and has bias. For models that are not smooth, the algorithm is equivalent to a Leimkuhler-Matthews discretisation of a Langevin diffusion targeting a Moreau-Yosida approximation of the posterior distribution of interest, and hence achieves a significantly lower bias than conventional unadjusted Langevin strategies based on the Euler-Maruyama discretisation. For targets that are $\kappa$-strongly log-concave, the provided non-asymptotic convergence analysis also identifies the optimal time step which maximizes the convergence speed. The proposed methodology is demonstrated through a range of experiments related to image deconvolution with Gaussian and Poisson noise, with assumption-driven and data-driven convex priors. Source codes for the numerical experiments of this paper are available from https://github.com/MI2G/accelerated-langevin-imla.
翻訳日:2024-01-18 02:00:08 公開日:2024-01-12
# 手書き文書の非破壊検査のための革新的方法

Innovative Methods for Non-Destructive Inspection of Handwritten Documents ( http://arxiv.org/abs/2310.11217v2 )

ライセンス: Link先を確認
Eleonora Breci (1), Luca Guarnera (1), Sebastiano Battiato (1) ((1) University of Catania)(参考訳) 手書き文書分析は法医学の一分野であり、本質的特徴の検証を通じて文書の著者シップを確立することを目的としている。 法執行機関は手書き文書のマニュアル処理に基づく標準プロトコルを使用する。 この方法は時間がかかり、しばしばその評価に主観的であり、複製可能ではない。 この制約を克服するために,本稿では,テキスト行の高さ,単語間空間,文字サイズに関する本質的尺度を画像処理と深層学習手法を用いて抽出・分析できる枠組みを提案する。 各文書の最終的な特徴ベクトルは、収集された各種類の測度の平均偏差と標準偏差からなる。 比較対象文書の特徴ベクトル間のユークリッド距離を定量化することにより、著者シップを識別することができる。 本研究は,従来の手書き文書とデジタルツール(タブレットなど)を用いた文書との比較を開拓した。 実験により, 異なる筆記媒体において著者を客観的に決定する手法が, 芸術の状態を上回っていることを示す。

Handwritten document analysis is an area of forensic science, with the goal of establishing authorship of documents through examination of inherent characteristics. Law enforcement agencies use standard protocols based on manual processing of handwritten documents. This method is time-consuming, is often subjective in its evaluation, and is not replicable. To overcome these limitations, in this paper we present a framework capable of extracting and analyzing intrinsic measures of manuscript documents related to text line heights, space between words, and character sizes using image processing and deep learning techniques. The final feature vector for each document involved consists of the mean and standard deviation for every type of measure collected. By quantifying the Euclidean distance between the feature vectors of the documents to be compared, authorship can be discerned. Our study pioneered the comparison between traditionally handwritten documents and those produced with digital tools (e.g., tablets). Experimental results demonstrate the ability of our method to objectively determine authorship in different writing media, outperforming the state of the art.
翻訳日:2024-01-18 01:10:39 公開日:2024-01-12
# 変圧器を用いたカウントとアルゴリズム一般化

Counting and Algorithmic Generalization with Transformers ( http://arxiv.org/abs/2310.08661v2 )

ライセンス: Link先を確認
Simon Ouellette, Rolf Pfister, Hansueli Jud(参考訳) 機械学習におけるアルゴリズムの一般化は、アウト・オブ・ディストリビューションを一般化する方法でデータを生成する基礎となるアルゴリズムを学習する能力を指す。 これは一般的に、ほとんどの機械学習アルゴリズムにとって難しいタスクであると考えられている。 ここでは,暗黙的あるいは明示的にカウントが必要な場合のアルゴリズム一般化を分析する。 標準トランスフォーマーは、そのようなタスクの分散性能を妨げるアーキテクチャ上の決定に基づいている。 特に,層正規化とsoftmaxによる注意重みの正規化の結果について考察する。 問題となる演算のアブレーションにより、非常に軽量なアーキテクチャを用いて、修正トランスフォーマーがカウントに優れたアルゴリズム一般化性能を示すことを示す。

Algorithmic generalization in machine learning refers to the ability to learn the underlying algorithm that generates data in a way that generalizes out-of-distribution. This is generally considered a difficult task for most machine learning algorithms. Here, we analyze algorithmic generalization when counting is required, either implicitly or explicitly. We show that standard Transformers are based on architectural decisions that hinder out-of-distribution performance for such tasks. In particular, we discuss the consequences of using layer normalization and of normalizing the attention weights via softmax. With ablation of the problematic operations, we demonstrate that a modified transformer can exhibit a good algorithmic generalization performance on counting while using a very lightweight architecture.
翻訳日:2024-01-18 01:09:26 公開日:2024-01-12
# mirrorcalib: 仮想カメラのキャリブレーションに人間のポーズ情報を利用する

MirrorCalib: Utilizing Human Pose Information for Mirror-based Virtual Camera Calibration ( http://arxiv.org/abs/2311.02791v2 )

ライセンス: Link先を確認
Longyun Liao, Andrew Mitchell, Rong Zheng(参考訳) 本稿では,鏡を用いたエクササイズビデオにおいて,実際のカメラと比較して仮想カメラの外部パラメータを推定する新しいタスクを提案する。 このタスクは、リアルカメラとミラーリングカメラからのビューが重複したり、機能を共有したりしないシナリオにおいて、大きな課題となる。 この問題に対処するために、人物が鏡の前にいるとき、人体と2次元関節位置の事前知識を利用して、カメラの外部パラメータを推定する。 2次元ジョイント位置から初期推定を得るために修正8点アルゴリズムを考案する。 2dジョイントの位置は、人体の制約により洗練される。 最後に、そのエピポーラ距離を所定のしきい値と比較することにより、外れ値を除去するためにransacアルゴリズムを用いる。 MirrorCalib は合成データセットと実データセットの両方で評価され、回転誤差は 0.62{\deg}/1.82{\deg} 、翻訳誤差は 37.33/69.51 mm である。

In this paper, we present the novel task of estimating the extrinsic parameters of a virtual camera relative to a real camera in exercise videos with a mirror. This task poses a significant challenge in scenarios where the views from the real and mirrored cameras have no overlap or share salient features. To address this issue, prior knowledge of a human body and 2D joint locations are utilized to estimate the camera extrinsic parameters when a person is in front of a mirror. We devise a modified eight-point algorithm to obtain an initial estimation from 2D joint locations. The 2D joint locations are then refined subject to human body constraints. Finally, a RANSAC algorithm is employed to remove outliers by comparing their epipolar distances to a predetermined threshold. MirrorCalib is evaluated on both synthetic and real datasets and achieves a rotation error of 0.62{\deg}/1.82{\deg} and a translation error of 37.33/69.51 mm on the synthetic/real dataset, which outperforms the state-of-art method.
翻訳日:2024-01-18 00:59:11 公開日:2024-01-12
# 画像ベースおよび臨床バイオメディシンにおけるマルチモーダル機械学習:調査と展望

Multimodal Machine Learning in Image-Based and Clinical Biomedicine: Survey and Prospects ( http://arxiv.org/abs/2311.02332v4 )

ライセンス: Link先を確認
Elisa Warner, Joonsang Lee, William Hsu, Tanveer Syeda-Mahmood, Charles Kahn, Olivier Gevaert and Arvind Rao(参考訳) 医療人工知能(AI)システムにおける機械学習(ML)の応用は、伝統的な統計手法からディープラーニングモデルの適用の増加へと移行している。 本研究は,マルチモーダルmlの現状を概観し,医療画像解析と臨床意思決定支援システムへの深い影響に注目した。 マルチモーダル表現,融合,翻訳,アライメント,コラーニングの課題とイノベーションを強調し,臨床予測のためのマルチモーダルモデルの変換可能性について検討した。 また、このようなモデルの実用的な実装に疑問を呈し、意思決定支援システムと医療提供者のダイナミクスに注意を向けている。 進歩にもかかわらず、多くの生物医学領域におけるデータバイアスや「ビッグデータ」の不足といった課題が続いている。 我々は、失敗をさらに進めるために効果的なイノベーションと協力的努力に関する議論を締めくくった。

Machine learning (ML) applications in medical artificial intelligence (AI) systems have shifted from traditional and statistical methods to increasing application of deep learning models. This survey navigates the current landscape of multimodal ML, focusing on its profound impact on medical image analysis and clinical decision support systems. Emphasizing challenges and innovations in addressing multimodal representation, fusion, translation, alignment, and co-learning, the paper explores the transformative potential of multimodal models for clinical predictions. It also questions practical implementation of such models, bringing attention to the dynamics between decision support systems and healthcare providers. Despite advancements, challenges such as data biases and the scarcity of "big data" in many biomedical domains persist. We conclude with a discussion on effective innovation and collaborative efforts to further the miss
翻訳日:2024-01-18 00:58:35 公開日:2024-01-12
# コミュニケーションエラーに対するフェデレーション学習はいかにロバストか? アップリンクチャンネルとダウンリンクチャンネルの比較検討

How Robust is Federated Learning to Communication Error? A Comparison Study Between Uplink and Downlink Channels ( http://arxiv.org/abs/2310.16652v2 )

ライセンス: Link先を確認
Linping Qu, Shenghui Song, Chi-Ying Tsui, and Yuyi Mao(参考訳) プライバシー保護機能のため、フェデレーション学習(fl)は学界と産業界の両方から注目を集めている。 しかし,無線ネットワーク上で実装されている場合,FLによる通信エラーの許容範囲は明らかになっていない。 本稿では,FLのアップリンクおよびダウンリンク通信誤りに対する堅牢性について検討する。 理論解析の結果,ロバスト性はクライアント数とモデルパラメータの数値範囲という2つの重要なパラメータに依存することが明らかとなった。 また、FLにおけるアップリンク通信は、ダウンリンク通信よりも高いビット誤り率(BER)を許容できることを示し、この差を提案式で定量化する。 この発見と理論的解析は広範な実験によってさらに検証される。

Because of its privacy-preserving capability, federated learning (FL) has attracted significant attention from both academia and industry. However, when being implemented over wireless networks, it is not clear how much communication error can be tolerated by FL. This paper investigates the robustness of FL to the uplink and downlink communication error. Our theoretical analysis reveals that the robustness depends on two critical parameters, namely the number of clients and the numerical range of model parameters. It is also shown that the uplink communication in FL can tolerate a higher bit error rate (BER) than downlink communication, and this difference is quantified by a proposed formula. The findings and theoretical analyses are further validated by extensive experiments.
翻訳日:2024-01-18 00:56:07 公開日:2024-01-12
# 勾配ベースおよび微分自由最適化法を用いた連続空間時間モデルの演算子学習

Operator Learning for Continuous Spatial-Temporal Model with Gradient-Based and Derivative-Free Optimization Methods ( http://arxiv.org/abs/2311.11798v2 )

ライセンス: Link先を確認
Chuanqi Chen, Jin-Long Wu(参考訳) 偏微分方程式は、多くの工学的応用において複素力学系の空間-時間モデリングによく用いられる。 本研究では,演算子学習の最近の進歩に基づいて,空間と時間の両方で連続的なデータ駆動モデリングフレームワークを提案する。 提案モデルの主な特徴は,時間差と時間差の両面での分解能不変性であり,時間差の異なる訓練データを必要としない。 キャリブレーションモデルの長期性能を改善するため,勾配法と微分自由度最適化の両手法を併用し,短期的時系列と長期的統計の双方を効率的に学習するハイブリッド最適化手法を提案する。 本研究では,空間時間連続学習フレームワークの性能について,粘性バーガーズ方程式,ナビエ・ストークス方程式,倉本・シヴァシンスキー方程式の3つの数値例を用いて検討した。 その結果,提案フレームワークの分解能不変性を確認し,短期時系列データのみを用いた安定な長期シミュレーションを実証した。 また,提案モデルでは,短期データと長期データを組み合わせたハイブリッド最適化手法により,長期統計量を予測することができることを示した。

Partial differential equations are often used in the spatial-temporal modeling of complex dynamical systems in many engineering applications. In this work, we build on the recent progress of operator learning and present a data-driven modeling framework that is continuous in both space and time. A key feature of the proposed model is the resolution-invariance with respect to both spatial and temporal discretizations, without demanding abundant training data in different temporal resolutions. To improve the long-term performance of the calibrated model, we further propose a hybrid optimization scheme that leverages both gradient-based and derivative-free optimization methods and efficiently trains on both short-term time series and long-term statistics. We investigate the performance of the spatial-temporal continuous learning framework with three numerical examples, including the viscous Burgers' equation, the Navier-Stokes equations, and the Kuramoto-Sivashinsky equation. The results confirm the resolution-invariance of the proposed modeling framework and also demonstrate stable long-term simulations with only short-term time series data. In addition, we show that the proposed model can better predict long-term statistics via the hybrid optimization scheme with a combined use of short-term and long-term data.
翻訳日:2024-01-18 00:49:56 公開日:2024-01-12
# プロパゲータのFeynman-Dyson図形摂動膨張の非収束性

Nonconvergence of the Feynman-Dyson diagrammatic perturbation expansion of propagators ( http://arxiv.org/abs/2312.03157v4 )

ライセンス: Link先を確認
So Hirata, Ireneusz Grabowski, J. V. Ortiz, Rodney J. Bartlett(参考訳) 分子の一般多体グリーン関数法を用いて、1粒子多体グリーン関数の電子フェインマンプロパゲータとしてのFeynman-Dyson図形摂動膨張のいくつかの病理学的挙動を数値的に記述する。 (i)周波数依存性の自己エネルギーの摂動膨張は多くの周波数領域において正確な自己エネルギーに収束しない。 2) 奇摂動次自己エネルギーは定性的に間違った形状であり、結果として、ダイソン方程式の多くの衛星根は、極が複素あるいは残基がユニティを超える非物理的である。 3) 等階自己エネルギーを持つダイソン方程式は、摂動順序が上昇するにつれて電子相関が減少し、ゼロ階平均場理論の軌道エネルギー差が生じる傾向にある衛星根を持つ。 (iv)頂点または辺修正による図形の無限部分和は、これらの問題を悪化させる。 これらの非収束は、多くの衛星のルーツにとって役に立たない高階のファインマン・ダイソン図形摂動理論をもたらすだけでなく、全ての極と残基の知識を必要とする ans\"{a}tze と組み合わせた使用の妥当性にも疑問を呈する。 このような ans\"{a}tze には、ガリツキー・ミグダル恒等式、自己整合グリーン関数法、代数図形構成のモデルなどがある。

Using a general-order many-body Green's-function method for molecules, we numerically illustrate several pathological behaviors of the Feynman-Dyson diagrammatic perturbation expansion of one-particle many-body Green's functions as electron Feynman propagators, which are separate from the infrared/ultraviolet divergences or the Kohn-Luttinger nonconvergence. (i) The perturbation expansion of the frequency-dependent self-energy is not convergent at the exact self-energy in many frequency domains. (ii) An odd-perturbation-order self-energy has a qualitatively wrong shape and, as a result, many satellite roots of the Dyson equation using it are nonphysical in that the poles are complex or the residues exceed unity. (iii) The Dyson equation with an even-order self-energy has satellite roots whose energies tend to orbital energy differences of the zeroth-order mean-field theory, accounting for less and less electron correlation as the perturbation order is raised. (iv) Infinite partial summation of diagrams by vertex or edge modification exacerbates these problems. Not only do these nonconvergences render higher-order Feynman-Dyson diagrammatic perturbation theory useless for most satellite roots, but they also call into question the validity of its combined use with the ans\"{a}tze requiring the knowledge of all poles and residues. Such ans\"{a}tze include the Galitskii-Migdal identity, self-consistent Green's-function methods, and some models of the algebraic diagrammatic construction.
翻訳日:2024-01-18 00:24:24 公開日:2024-01-12
# WordArt Designer API: ModelScope上の大規模言語モデルを用いたユーザ駆動型アートタイポグラフィ合成

WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope ( http://arxiv.org/abs/2401.01699v2 )

ライセンス: Link先を確認
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Yusen Hu, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Bin Luo, Yifeng Geng, Xuansong Xie, Jingren Zhou(参考訳) 本稿では,Large Language Models (LLM) を用いたユーザ主導型タイポグラフィ合成のための新しいフレームワークである WordArt Designer API を紹介する。 従来の定型テンプレートに代わる動的,適応的,計算効率のよい代替手段を提供することで,非プロのタイポグラフィに対する芸術的タイポグラフィの簡易化に挑戦する。 我々のアプローチはLLMの力を利用してユーザ入力を理解し解釈し、より直感的な設計プロセスを容易にする。 ユーザは様々なケーススタディを通して、美的好みと機能的要求を明確化し、システムがユニークで創造的なタイポグラフィーデザインへと変換する方法を実証する。 評価の結果,既存システムに対するユーザ満足度,設計の柔軟性,創造性の向上が示唆された。 wordart designer apiはタイポグラフィの技術を民主化するだけでなく、パーソナライズされたデジタルコミュニケーションとデザインの新たな可能性を開く。

This paper introduces the WordArt Designer API, a novel framework for user-driven artistic typography synthesis utilizing Large Language Models (LLMs) on ModelScope. We address the challenge of simplifying artistic typography for non-professionals by offering a dynamic, adaptive, and computationally efficient alternative to traditional rigid templates. Our approach leverages the power of LLMs to understand and interpret user input, facilitating a more intuitive design process. We demonstrate through various case studies how users can articulate their aesthetic preferences and functional requirements, which the system then translates into unique and creative typographic designs. Our evaluations indicate significant improvements in user satisfaction, design flexibility, and creative expression over existing systems. The WordArt Designer API not only democratizes the art of typography but also opens up new possibilities for personalized digital communication and design.
翻訳日:2024-01-17 23:49:11 公開日:2024-01-12
# 不安定周期軌道からの量子多体傷

Quantum many-body scars from unstable periodic orbits ( http://arxiv.org/abs/2401.06848v1 )

ライセンス: Link先を確認
Bertrand Evrard, Andrea Pizzi, Simeon I. Mistakidis, Ceren B. Dag(参考訳) 不安定周期軌道(UPOs)はカオスの理論において重要な役割を担い、古典的なカオス系の「骨格」を構成し、対応する量子系の固有状態を「スキャリング」する。 近年、熱スペクトルに埋め込まれた非熱多体固有状態は、量子スカーの多体一般化と見なされている。 しかし、後者はカオス位相空間と明確に関連付けられておらず、従って、単一体と多体の量子スカーの概念の間の接続は不完全である。 ここでは、カオス位相空間の UPO に由来する最初の量子多体傷が見つかる。 注目すべきことに、これらの状態は固有状態の熱化仮説を検証し、熱量子多体傷とみなす。 それらは熱化を妨げないが、そのスペクトル構造は、UPO上で初期化されたウェーブパペットの熱化に先立って異常な振動ダイナミクスをもたらす。 特筆すべきは、我々のモデルは熱と非熱の2種類の傷痕をホストし、両者の交叉の研究を可能にすることである。 本研究は,多体系における古典量子対応の基本原理とその制限について述べる。

Unstable periodic orbits (UPOs) play a key role in the theory of chaos, constituting the "skeleton" of classical chaotic systems and "scarring" the eigenstates of the corresponding quantum system. Recently, nonthermal many-body eigenstates embedded in an otherwise thermal spectrum have been identified as a many-body generalization of quantum scars. The latter, however, are not clearly associated to a chaotic phase space, and the connection between the single- and many-body notions of quantum scars remains therefore incomplete. Here, we find the first quantum many-body scars originating from UPOs of a chaotic phase space. Remarkably, these states verify the eigenstate thermalization hypothesis, and we thus refer to them as thermal quantum many-body scars. While they do not preclude thermalization, their spectral structure featuring approximately equispaced towers of states yields an anomalous oscillatory dynamics preceding thermalization for wavepackets initialized on an UPO. Remarkably, our model hosts both types of scars, thermal and nonthermal, and allows to study the crossover between the two. Our work illustrates the fundamental principle of classical-quantum correspondence in a many-body system, and its limitations.
翻訳日:2024-01-17 21:21:25 公開日:2024-01-12
# 異なるドメイン間の直接蒸留

Direct Distillation between Different Domains ( http://arxiv.org/abs/2401.06826v1 )

ライセンス: Link先を確認
Jialiang Tang, Shuo Chen, Gang Niu, Hongyuan Zhu, Joey Tianyi Zhou, Chen Gong, Masashi Sugiyama(参考訳) KD(Knowledge Distillation)は、教師ネットワークから知識を用いて、学生ネットワークを学習することを目的としており、両方のネットワークが同じ分布からデータに基づいて訓練されている。 しかし、実際のアプリケーションでは、生徒ネットワークは新しいシナリオ(すなわちターゲットドメイン)で実行する必要がある場合があり、これは通常、教師ネットワーク(すなわちソースドメイン)の既知のシナリオと大きく異なる。 従来のドメイン適応手法は、ドメインギャップを埋めるために2段階のプロセスでkdと統合できるが、2段階のアプローチの究極の信頼性は、高い計算消費と両方の段階から蓄積された追加のエラーのために制限される傾向がある。 この問題を解決するために,「異なる領域間直接蒸留」(4ds)と呼ばれる新しい一段階法を提案する。 まず,フーリエ変換に基づく学習可能なアダプタを設計し,ドメイン不変知識とドメイン固有知識を分離する。 そこで我々は,学生ネットワークに価値あるドメイン不変知識を伝達する融合活性化機構を構築し,同時に教師ネットワーク内のアダプタに,対象データのドメイン固有知識を学習するよう促す。 その結果、教師ネットワークは、学生ネットワークのターゲットドメインと整合したカテゴリ知識を効果的に転送することができる。 各種ベンチマークデータセットの集中的な実験により,提案手法は信頼性の高い学生ネットワークを生成でき,最先端のアプローチよりも優れていることが示された。

Knowledge Distillation (KD) aims to learn a compact student network using knowledge from a large pre-trained teacher network, where both networks are trained on data from the same distribution. However, in practical applications, the student network may be required to perform in a new scenario (i.e., the target domain), which usually exhibits significant differences from the known scenario of the teacher network (i.e., the source domain). The traditional domain adaptation techniques can be integrated with KD in a two-stage process to bridge the domain gap, but the ultimate reliability of two-stage approaches tends to be limited due to the high computational consumption and the additional errors accumulated from both stages. To solve this problem, we propose a new one-stage method dubbed ``Direct Distillation between Different Domains" (4Ds). We first design a learnable adapter based on the Fourier transform to separate the domain-invariant knowledge from the domain-specific knowledge. Then, we build a fusion-activation mechanism to transfer the valuable domain-invariant knowledge to the student network, while simultaneously encouraging the adapter within the teacher network to learn the domain-specific knowledge of the target data. As a result, the teacher network can effectively transfer categorical knowledge that aligns with the target domain of the student network. Intensive experiments on various benchmark datasets demonstrate that our proposed 4Ds method successfully produces reliable student networks and outperforms state-of-the-art approaches.
翻訳日:2024-01-17 21:21:07 公開日:2024-01-12
# 教師なし可視赤外人物再同定のためのマルチメモリマッチング

Multi-Memory Matching for Unsupervised Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2401.06825v1 )

ライセンス: Link先を確認
Jiangming Shi, Xiangbo Yin, Yeyun Chen, Yachao Zhang, Zhizhong Zhang, Yuan Xie, Yanyun Qu(参考訳) unsupervised visible-infrared person re-id(usl-vi-reid)は有望な検索タスクである。 USL-VI-ReIDの主な課題は、先行アノテーションに頼ることなく、擬似ラベルを効果的に生成し、モダリティ間で擬似ラベル対応を確立することである。 近年,USL-VI-ReIDではクラスタ化擬似ラベル法が注目されている。 しかし、それまでの手法では個々のニュアンスを完全に活用することはできず、同一性を表す単一のメモリを単に利用してクロスモダリティ対応を確立し、曖昧なクロスモダリティ対応を生み出した。 そこで本研究では,USL-VI-ReIDのためのMMMフレームワークを提案する。 まず,2つのモダリティサンプルをクラスタリングして擬似ラベルを生成するために,Cross-Modality Clustering (CMC) モジュールを設計する。 マルチメモリ・ラーニング・アンド・マッチング(MMLM)モジュールを設計し,各視点のニュアンスに明示的に焦点を合わせ,信頼性の高い相互モダリティ対応を確立する。 最後に,ソフトクラスタレベルのアライメント (SCA) モジュールを設計し,ソフトな多対多アライメント戦略によりノイズ擬似ラベルの効果を緩和しながら,モダリティギャップを狭める。 公開SYSU-MM01とRegDBデータセットの大規模な実験により、確立された相互モダリティ対応の信頼性とMMMの有効性が示された。 ソースコードはリリースされます。

Unsupervised visible-infrared person re-identification (USL-VI-ReID) is a promising yet challenging retrieval task. The key challenges in USL-VI-ReID are to effectively generate pseudo-labels and establish pseudo-label correspondences across modalities without relying on any prior annotations. Recently, clustered pseudo-label methods have gained more attention in USL-VI-ReID. However, previous methods fell short of fully exploiting the individual nuances, as they simply utilized a single memory that represented an identity to establish cross-modality correspondences, resulting in ambiguous cross-modality correspondences. To address the problem, we propose a Multi-Memory Matching (MMM) framework for USL-VI-ReID. We first design a Cross-Modality Clustering (CMC) module to generate the pseudo-labels through clustering together both two modality samples. To associate cross-modality clustered pseudo-labels, we design a Multi-Memory Learning and Matching (MMLM) module, ensuring that optimization explicitly focuses on the nuances of individual perspectives and establishes reliable cross-modality correspondences. Finally, we design a Soft Cluster-level Alignment (SCA) module to narrow the modality gap while mitigating the effect of noise pseudo-labels through a soft many-to-many alignment strategy. Extensive experiments on the public SYSU-MM01 and RegDB datasets demonstrate the reliability of the established cross-modality correspondences and the effectiveness of our MMM. The source codes will be released.
翻訳日:2024-01-17 21:20:42 公開日:2024-01-12
# Pandora's Box of LLM: Representation Engineering による LLM のジェイルブレイク

Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation Engineering ( http://arxiv.org/abs/2401.06824v1 )

ライセンス: Link先を確認
Tianlong Li, Xiaoqing Zheng, Xuanjing Huang(参考訳) 大きな言語モデル(LLM)を敵対的な毒性問題に答えることを拒否したことは、LLMのセキュリティというテーマの中核的な問題である。 これまでのアプローチでは、lLMをジェイルブレイクし、いくつかの毒性問題に答えるために、プロンプトエンジニアリングを使用してきた。 これらのアプローチは、モデルメーカがモデルに微調整を加えると容易に失敗する可能性がある。 研究者らによるモデルジェイルブレイクのさらなる理解を促進するため,我々はRepresentation Engineering にインスパイアされ,精巧な構築手順を必要とせず,モデル微調整の影響を受けず,プラグイン可能なオープンソース LLM にも広く適用可能なジェイルブレイク手法を提案する。 本研究では, 本手法の有効性を実験的に検証し, 本手法の有効性を実証した。 いくつかの興味深いジェイルブレイク事件に驚いた後、我々はこの手法の背景にある技法を深く研究した。

Getting large language models (LLMs) to refuse to answer hostile toxicity questions is a core issue under the theme of LLMs security. Previous approaches have used prompts engineering to jailbreak LLMs and answer some toxicity questions. These approaches can easily fail after the model manufacturer makes additional fine-tuning to the model. To promote the further understanding of model jailbreaking by researchers, we are inspired by Representation Engineering to propose a jailbreaking method that does not require elaborate construction prompts, is not affected by model fine-tuning, and can be widely applied to any open-source LLMs in a pluggable manner. We have evaluated this method on multiple mainstream LLMs on carefully supplemented toxicity datasets, and the experimental results demonstrate the significant effectiveness of our approach. After being surprised by some interesting jailbreaking cases, we did extensive in-depth research to explore the techniques behind this method.
翻訳日:2024-01-17 21:20:18 公開日:2024-01-12
# ゲージ同変畳み込みニューラルネットワークを用いたSU(3)ゲージ理論のための固定点作用の機械学習

Machine learning a fixed point action for SU(3) gauge theory with a gauge equivariant convolutional neural network ( http://arxiv.org/abs/2401.06481v1 )

ライセンス: Link先を確認
Kieran Holland, Andreas Ipp, David I. M\"uller, Urs Wenger(参考訳) 固定点格子作用は、離散化効果や量子レベルでの格子アーチファクトの減少の影響を受けない連続古典的性質を持つように設計されている。 それらは、粗い格子で連続体物理学を抽出し、臨界減速と位相凍結の問題を連続体限界に向けて回避することができる。 実用上重要な要素は、多くの性質が暗黙的にのみ定義されるため、固定点作用の正確でコンパクトなパラメトリゼーションを見つけることである。 ここでは、機械学習手法を用いて、固定点アクションのパラメータ化方法に関する質問を再考する。 特に,完全ゲージ不変性を持つ畳み込みニューラルネットワークを用いた4次元su(3)ゲージ理論に対する不動点作用を求める。 大型作用素空間は、モンテカルロの将来のシミュレーションに必要な第一段階である以前の研究よりも優れたパラメトリゼーションを見つけることができる。

Fixed point lattice actions are designed to have continuum classical properties unaffected by discretization effects and reduced lattice artifacts at the quantum level. They provide a possible way to extract continuum physics with coarser lattices, thereby allowing to circumvent problems with critical slowing down and topological freezing toward the continuum limit. A crucial ingredient for practical applications is to find an accurate and compact parametrization of a fixed point action, since many of its properties are only implicitly defined. Here we use machine learning methods to revisit the question of how to parametrize fixed point actions. In particular, we obtain a fixed point action for four-dimensional SU(3) gauge theory using convolutional neural networks with exact gauge invariance. The large operator space allows us to find superior parametrizations compared to previous studies, a necessary first step for future Monte Carlo simulations.
翻訳日:2024-01-17 21:20:00 公開日:2024-01-12
# 大規模言語モデルのためのニューラルネットワークの高速化とシリコンフォトニクスによるグラフ処理

Accelerating Neural Networks for Large Language Models and Graph Processing with Silicon Photonics ( http://arxiv.org/abs/2401.06885v1 )

ライセンス: Link先を確認
Salma Afifi, Febin Sunny, Mahdi Nikdast, Sudeep Pasricha(参考訳) 人工知能の急速な発展の中で、大規模言語モデル(LLM)とグラフ処理は自然言語処理(NLP)、コンピュータビジョン、グラフ構造化データアプリケーションのための変換技術として登場した。 しかし、これらのモデルの複雑な構造は、従来の電子プラットフォーム上での加速に挑戦する。 本稿では,llmやグラフニューラルネットワークでグラフデータ処理に使用されるトランスフォーマーニューラルネットワークを高速化するために,シリコンフォトニクスに基づく新しいハードウェアアクセラレータについて述べる。 解析により,LLMやグラフ処理用に設計された複数の最先端電子ハードウェアアクセラレータよりも,両ハードウェアアクセラレータのスループットが少なくとも10.2倍向上し,エネルギー効率が3.8倍向上したことが示された。

In the rapidly evolving landscape of artificial intelligence, large language models (LLMs) and graph processing have emerged as transformative technologies for natural language processing (NLP), computer vision, and graph-structured data applications. However, the complex structures of these models pose challenges for acceleration on conventional electronic platforms. In this paper, we describe novel hardware accelerators based on silicon photonics to accelerate transformer neural networks that are used in LLMs and graph neural networks for graph data processing. Our analysis demonstrates that both hardware accelerators achieve at least 10.2x throughput improvement and 3.8x better energy efficiency over multiple state-of-the-art electronic hardware accelerators designed for LLMs and graph processing.
翻訳日:2024-01-17 21:11:11 公開日:2024-01-12
# 大きな言語モデルは時間的推論を学べる

Large Language Models Can Learn Temporal Reasoning ( http://arxiv.org/abs/2401.06853v1 )

ライセンス: Link先を確認
Siheng Xiong, Ali Payani, Ramana Kompella, Faramarz Fekri(参考訳) 大規模言語モデル(LLM)は、関連するトークンの同時発生から時系列の概念を学ぶ。 従来のテキスト生成と比較して、数学的、論理的、常識的な知識に基づいて結論に達する時間的推論はより困難である。 本稿では,テキストに基づく時間的推論の新しいパラダイムであるTempGraph-LLMを提案する。 具体的には、まずLLMにコンテキストを時間グラフに変換するように教える。 完全に制御可能で、最小限の監視を必要とする合成データセットは、このタスクの事前トレーニングのために構築されている。 実験では、LLMが他のタスクの事前学習の恩恵を受けることを示す。 それに加えて、我々は、思考の連鎖(CoT)のブートストラップと特別なデータ拡張の戦略を用いて、LLMの象徴的推論を行うよう誘導する。 記号的推論を持つCoTは、自由テキストよりも一貫性があり、信頼性の高い結果をもたらす。

Large language models (LLMs) learn temporal concepts from the co-occurrence of related tokens in a sequence. Compared with conventional text generation, temporal reasoning, which reaches a conclusion based on mathematical, logical and commonsense knowledge, is more challenging. In this paper, we propose TempGraph-LLM, a new paradigm towards text-based temporal reasoning. To be specific, we first teach LLMs to translate the context into a temporal graph. A synthetic dataset, which is fully controllable and requires minimal supervision, is constructed for pre-training on this task. We prove in experiments that LLMs benefit from the pre-training on other tasks. On top of that, we guide LLMs to perform symbolic reasoning with the strategies of Chain of Thoughts (CoTs) bootstrapping and special data augmentation. We observe that CoTs with symbolic reasoning bring more consistent and reliable results than those using free text.
翻訳日:2024-01-17 21:10:56 公開日:2024-01-12
# 光子を介するイオンの絡み合いに対する集積フォトニック構造

Integrated photonic structures for photon-mediated entanglement of trapped ions ( http://arxiv.org/abs/2401.06850v1 )

ライセンス: Link先を確認
F. W. Knollmann (1), E. Clements (1), P. T. Callahan (2), M. Gehl (3), J. D. Hunker (3), T. Mahony (2), R. McConnell (2), R. Swint (2), C. Sorace-Agaskar (2), I. L. Chuang (1), J. Chiaverini (1 and 2) and D. Stick (3) ((1) Massachusetts Institute of Technology, (2) Lincoln Laboratory, Massachusetts Institute of Technology, (3) Sandia National Laboratories)(参考訳) 閉じ込められた原子イオンは量子情報処理の自然な候補であり、量子コンピューティング、センシング、ネットワークを実現または改善する可能性がある。 これらの応用は、イオンから放出される個々の光子をガイドされた光学モードに集めることを必要とすることが多い。 捕捉されたイオンからの光子コレクションの実証は、高数開口レンズと単モードファイバーを用いて行われているが、イオントラップ構造に集積されたフォトニック素子は、従来の光学よりもスケーラビリティと製造性に優れている。 本稿では,イオントラップでモノリシックに作製した構造を解析し,イオンから単一光子を集め,それらを集積導波路に結合させ,干渉により操作する。 これらの導波路を用いたデバイスを用いて、捕捉イオン間の光子による絡み合いを実現するための実用的考察について検討する。

Trapped atomic ions are natural candidates for quantum information processing and have the potential to realize or improve quantum computing, sensing, and networking. These applications often require the collection of individual photons emitted from ions into guided optical modes, in some cases for the production of entanglement between separated ions. Proof-of-principle demonstrations of such photon collection from trapped ions have been performed using high-numerical-aperture lenses and single-mode fibers, but integrated photonic elements in ion-trap structures offer advantages in scalability and manufacturabilty over traditional optics. In this paper we analyze structures monolithically fabricated with an ion trap for collecting single photons from ions, coupling them into integrated waveguides, and manipulating them via interference. We discuss practical considerations for realizing photon-mediated entanglement between trapped ions using these waveguide-based devices.
翻訳日:2024-01-17 21:10:43 公開日:2024-01-12
# 機械学習によるヨウ素インプリントkeck/hiresスペクトルの恒星パラメータの推定

Inferring Stellar Parameters from Iodine-Imprinted Keck/HIRES Spectra with Machine Learning ( http://arxiv.org/abs/2401.06839v1 )

ライセンス: Link先を確認
Jude Gussman and Malena Rice(参考訳) 恒星外惑星の性質は、伝統的に高分解能スペクトルの詳細な前方モデリング分析によって特徴づけられる。 しかし、多くの太陽系外惑星の放射速度調査では、ヨウ素の吸収線をインプリントした森林を含むスペクトルの大部分をヨウ素セル校正分光法を用いている。 ヨウ素細胞を使用するサーベイでは、ヨウ素を含まない「テンプレート」スペクトルは、正確な恒星のキャラクタリゼーションのために別々に取得する必要がある。 これらのテンプレートスペクトルは、しばしば取得するために追加の観測時間を必要とするため、暗く見える恒星を得るためには必ずしも得られない。 本稿では,ヨウ素インプリントスペクトルから恒星パラメータと化学量の推定に,高精度かつ高精度な機械学習手法を適用することを実証する。 この研究で示された方法は、ヨウ素セル校正分光法に広く適用できる。 当社の分光パイプラインであるキャノンは、fgk星のヨウ素インプリントスペクトルから恒星パラメータと15の化学存在量を引き出すヨウ素パイプライン(chip)を採用しており、ケック/ヒルズスペクトルで使用しやすいように設定されている。 我々の概念実証は、ヨードフリーテンプレートスペクトルが存在しない場合でも、多数の恒星パラメータを迅速に推定する効率的な新しい道を提供する。

The properties of exoplanet host stars are traditionally characterized through a detailed forward-modeling analysis of high-resolution spectra. However, many exoplanet radial velocity surveys employ iodine-cell-calibrated spectrographs, such that the vast majority of spectra obtained include an imprinted forest of iodine absorption lines. For surveys that use iodine cells, iodine-free "template" spectra must be separately obtained for precise stellar characterization. These template spectra often require extensive additional observing time to obtain, and they are not always feasible to obtain for faint stars. In this paper, we demonstrate that machine learning methods can be applied to infer stellar parameters and chemical abundances from iodine-imprinted spectra with high accuracy and precision. The methods presented in this work are broadly applicable to any iodine-cell-calibrated spectrograph. We make publicly available our spectroscopic pipeline, the Cannon HIRES Iodine Pipeline (CHIP), which derives stellar parameters and 15 chemical abundances from iodine-imprinted spectra of FGK stars and which has been set up for ease of use with Keck/HIRES spectra. Our proof-of-concept offers an efficient new avenue to rapidly estimate a large number of stellar parameters even in the absence of an iodine-free template spectrum.
翻訳日:2024-01-17 21:10:26 公開日:2024-01-12
# MAPO:マルチリンガルアライメント・アズ・プレフレクション最適化によるマルチリンガル推論の改善

MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization ( http://arxiv.org/abs/2401.06838v1 )

ライセンス: Link先を確認
Shuaijie She, Shujian Huang, Wei Zou, Wenhao Zhu, Xiang Liu, Xiang Geng, Jiajun Chen(参考訳) 推論能力は言語に依存しないと考えられるが、既存のLCMでは多言語学習データの不均衡により、ピボット言語における推論能力は他の言語よりも優れており、非ピボット言語における推論能力を高めるために、アライメント・アズ・参照最適化フレームワークを提案する。 具体的には,非ピボット言語とピボット言語における回答間の一貫性を推定するために,オープンソースの翻訳モデルを採用する。 さらに、解の一貫性をDPOやPPOの選好として採用し、より少ない推論を最適化する。 実験により,複数の言語間の一貫性が向上し,モデルの多言語推論が大幅に向上することを示した。 MGSMの競合性能を維持しつつ,ドメイン外のデータセットMSVAMPに対して13.7%の精度向上を実現した。 さらに、反復的DPOは、モデルの多言語数学的推論能力のさらなる調整と改善に役立ち、さらに16.7%に改善を推し進める。

Though reasoning abilities are considered language-agnostic, existing LLMs exhibit inconsistent reasoning abilities across different languages, e.g., reasoning in a pivot language is superior to other languages due to the imbalance of multilingual training data.To enhance reasoning abilities in non-pivot languages, we propose an alignment-as-preference optimization framework. Specifically, we adopt an open-source translation model to estimate the consistency between answers in non-pivot and pivot languages. We further adopt the answer consistency as the preference for DPO or PPO thus optimizing the lesser reasoning. Experiments show that our method significantly improves the model's multilingual reasoning, with better reasoning consistency across languages. Our framework achieved a 13.7% accuracy improvement on out-of-domain datasets MSVAMP while preserving the competitive performance on MGSM. Moreover, we find that iterative DPO is helpful for further alignment and improvement of the model's multilingual mathematical reasoning ability, further pushing the improvement to 16.7%
翻訳日:2024-01-17 21:10:04 公開日:2024-01-12
# 高速テキスト理解のための構造体生成

Structsum Generation for Faster Text Comprehension ( http://arxiv.org/abs/2401.06837v1 )

ライセンス: Link先を確認
Parag Jain, Andreea Marzoca, Francesco Piccinno(参考訳) 大規模言語モデル(LLM)を用いてテキストの構造化表現を生成するタスクについて検討する。 表とマインドマップを代表的モダリティとして重視する。 テーブルはデータ表現の組織的な方法であり、マインドマップは視覚的にダイナミックで柔軟なアプローチを提供し、特にスパースコンテンツに適している。 異なるタスクにおけるLLMの有効性にもかかわらず、現在のモデルが構造化出力の生成に苦戦していることを示す。 また,これらの課題に対して効果的なプロンプト戦略を提案する。 事実性,大域的および局所的構造に関する問題の分類法を導入し,これらの問題に対処するための一連の批判を行い,マインドマップでは+37pp (79%) ,テーブルでは+15pp (78%) の絶対的精度向上を実現した。 生成した構造化表現のセマンティックカバレッジを評価するためにAuto-QAを提案し,SQuADデータセットを用いたAuto-QAの妥当性を検証する。 さらに,テキスト理解ユーザ研究による構造化表現の有用性を評価する。 その結果、表 (42.9%) とマインドマップ (31.9%) を用いた場合の理解時間の大幅な短縮がみられ、精度の低下はみられなかった。

We consider the task of generating structured representations of text using large language models (LLMs). We focus on tables and mind maps as representative modalities. Tables are more organized way of representing data, while mind maps provide a visually dynamic and flexible approach, particularly suitable for sparse content. Despite the effectiveness of LLMs on different tasks, we show that current models struggle with generating structured outputs. In response, we present effective prompting strategies for both of these tasks. We introduce a taxonomy of problems around factuality, global and local structure, common to both modalities and propose a set of critiques to tackle these issues resulting in an absolute improvement in accuracy of +37pp (79%) for mind maps and +15pp (78%) for tables. To evaluate semantic coverage of generated structured representations we propose Auto-QA, and we verify the adequacy of Auto-QA using SQuAD dataset. We further evaluate the usefulness of structured representations via a text comprehension user study. The results show a significant reduction in comprehension time compared to text when using table (42.9%) and mind map (31.9%), without loss in accuracy.
翻訳日:2024-01-17 21:09:46 公開日:2024-01-12
# 感情連鎖による大規模言語モデルの感情生成能力の向上

Enhancing the Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought ( http://arxiv.org/abs/2401.06836v1 )

ライセンス: Link先を確認
Zaijing Li, Gongwei Chen, Rui Shao, Dongmei Jiang, and Liqiang Nie(参考訳) 感情生成は感情的知能のサブセットであり、感情的条件を入力として感情的応答を出力することを目的としている。 感情生成には、感情チャット、感情的な視覚的キャプション、感情的な書き直しなど、幅広いアプリケーションがあります。 しかし、解釈容易性の欠如や評価容易性の欠如といった課題に直面している。 本稿では,人間の感情知能ガイドラインと整合して,感情生成タスクにおける大規模言語モデル(LLM)の性能を高めるためのプラグイン・アンド・プレイ促進手法ECoTを提案する。 ECoTの信頼性を評価するため,EGSと呼ばれるモデルに基づく自動評価手法を提案する。 ECoTとESGの有効性を実験的に明らかにした。 さらに,感情分析の分野でのLLMの約束について論じ,感情生成タスクにおけるECoTを用いたLLMの重要洞察について述べる。

The Emotional Generation is a subset of emotional intelligence, which aims to output an emotional response based on emotional conditions as input. Emotion generation has a wide range of applications, including emotion chat, emotional visual caption, and emotional rewriting. However, it faces challenges such as a lack of interpretability and poor evaluability. In this paper, we propose the Emotional Chain-of-Thought (ECoT), a plug-and-play prompting method that enhances the performance of Large Language Models (LLMs) on various emotional generation tasks by aligning with human emotional intelligence guidelines. To assess the reliability of ECoT, we propose an automated model-based evaluation method called EGS. Extensive experimental results demonstrate the effectiveness of ECoT and EGS. Further,we discuss the promise of LLMs in the field of sentiment analysis and present key insights into the LLMs with the ECoT in emotional generation tasks.
翻訳日:2024-01-17 21:09:24 公開日:2024-01-12
# 適応勾配法と有向進化法による離散パラメータの最適化

Optimization of Discrete Parameters Using the Adaptive Gradient Method and Directed Evolution ( http://arxiv.org/abs/2401.06834v1 )

ライセンス: Link先を確認
Andrei Beinarovich, Sergey Stepanov, Alexander Zaslavsky(参考訳) 問題は制約の存在下で離散パラメータを最適化することである。 本研究では, 温度の確率型シグモイドを用い, 適応勾配法 CONGA を提唱した。 最適解の探索は、個人の集団によって行われる。 それぞれが「環境」の勾配に応じて変化し、アニーリングスケジュールが異なる2つの温度パラメータによって特徴づけられる。 不適応な個体は死に、最適な個体は交配され、結果は進化の動力学に向けられる。 提案手法は,バックパック (0-1 kp) の最適充填によく知られた組合せ問題を用いた。

The problem is considered of optimizing discrete parameters in the presence of constraints. We use the stochastic sigmoid with temperature and put forward the new adaptive gradient method CONGA. The search for an optimal solution is carried out by a population of individuals. Each of them varies according to gradients of the 'environment' and is characterized by two temperature parameters with different annealing schedules. Unadapted individuals die, and optimal ones interbreed, the result is directed evolutionary dynamics. The proposed method is illustrated using the well-known combinatorial problem for optimal packing of a backpack (0-1 KP).
翻訳日:2024-01-17 21:09:06 公開日:2024-01-12
# 自律意思決定システムのための階層的制御フレームワーク:hmdpとmpcの統合

A hierarchical control framework for autonomous decision-making systems: Integrating HMDP and MPC ( http://arxiv.org/abs/2401.06833v1 )

ライセンス: Link先を確認
Xue-Fang Wang, Jingjing Jiang, Wen-Hua Chen(参考訳) 本稿では,ロボット工学および自律システムにおける自律的意思決定のための包括的階層的制御フレームワークを提案する。 典型的な階層的制御アーキテクチャでは、ハイレベルな意思決定はしばしば離散状態と決定/制御セットによって特徴づけられる。 しかしながら、合理的な決定は通常、自律システムの離散状態だけでなく、その運用環境の進化においても基礎となる連続力学の影響を受けます。 本稿では,新しいモデリングと設計問題定式化から制御設計と安定性解析まで,この種の課題に対する総合的かつ包括的な設計プロセスとフレームワークを提案する。 低レベルの制御設計で使用される従来の連続システムダイナミクスと、高レベルの意思決定を容易にするための離散マルコフ決定プロセス(mdp)との複雑な相互作用に対処する。 複雑な環境における意思決定システムは、制御されたMDPと自律的(制御されていない)連続力学からなるハイブリッドシステムとしてモデル化する。 したがって、新しい定式化はハイブリッドマルコフ決定過程(HMDP)と呼ばれる。 設計問題は、異なるレベルの離散状態変数と連続状態変数の両方の影響を考慮しつつ、安全性と最適性の両方を確保することに焦点をあてて定式化されている。 モデル予測制御(MPC)の概念の助けを借りて,提案したハイブリッド意思決定モデルに対して,意思決定者設計方式を提案する。 このスキームに関わる重要な要素を慎重に設計することにより、提案した自律意思決定スキームの帰納的実現可能性と安定性が保証されることを示す。 提案手法は、インテリジェントな車両のための自律車線変更システムの開発に応用される。

This paper proposes a comprehensive hierarchical control framework for autonomous decision-making arising in robotics and autonomous systems. In a typical hierarchical control architecture, high-level decision making is often characterised by discrete state and decision/control sets. However, a rational decision is usually affected by not only the discrete states of the autonomous system, but also the underlying continuous dynamics even the evolution of its operational environment. This paper proposes a holistic and comprehensive design process and framework for this type of challenging problems, from new modelling and design problem formulation to control design and stability analysis. It addresses the intricate interplay between traditional continuous systems dynamics utilized at the low levels for control design and discrete Markov decision processes (MDP) for facilitating high-level decision making. We model the decision making system in complex environments as a hybrid system consisting of a controlled MDP and autonomous (i.e. uncontrolled) continuous dynamics. Consequently, the new formulation is called as hybrid Markov decision process (HMDP). The design problem is formulated with a focus on ensuring both safety and optimality while taking into account the influence of both the discrete and continuous state variables of different levels. With the help of the model predictive control (MPC) concept, a decision maker design scheme is proposed for the proposed hybrid decision making model. By carefully designing key ingredients involved in this scheme, it is shown that the recursive feasibility and stability of the proposed autonomous decision making scheme are guaranteed. The proposed framework is applied to develop an autonomous lane changing system for intelligent vehicles.
翻訳日:2024-01-17 21:08:58 公開日:2024-01-12
# 低資源言語における多言語ASRのためのXLS-R深層学習モデル:インドネシア語、ジャワ語、スンダ語

XLS-R Deep Learning Model for Multilingual ASR on Low- Resource Languages: Indonesian, Javanese, and Sundanese ( http://arxiv.org/abs/2401.06832v1 )

ライセンス: Link先を確認
Panji Arisaputra, Alif Tri Handoyo and Amalia Zahra(参考訳) 本稿では,xls-r 300mモデルを用いた自動音声認識(asr)技術の開発と評価を行う。 本研究は,インドネシア語,ジャワ語,スンダ語などの音声言語をテキストに変換する際のASR性能の向上を目的としている。 本稿では,ASRシステムのトレーニングと評価に使用されるテスト手順,使用するデータセット,方法論について論じる。 その結果、XLS-R300mモデルは、ジャワ語とサンダーン語のパフォーマンスをわずかに損なうことなく、競合するWord Error Rate (WER)測定を実現していることがわかった。 5グラムのKenLM言語モデルの統合により、WERが大幅に減少し、ASRの精度が向上する。 この研究は、言語多様性に対処し、様々な言語のパフォーマンスを向上させることにより、ASR技術の進歩に寄与する。 本研究は,asrの精度と多様な言語文脈に適用可能性の最適化に関する知見を提供する。

This research paper focuses on the development and evaluation of Automatic Speech Recognition (ASR) technology using the XLS-R 300m model. The study aims to improve ASR performance in converting spoken language into written text, specifically for Indonesian, Javanese, and Sundanese languages. The paper discusses the testing procedures, datasets used, and methodology employed in training and evaluating the ASR systems. The results show that the XLS-R 300m model achieves competitive Word Error Rate (WER) measurements, with a slight compromise in performance for Javanese and Sundanese languages. The integration of a 5-gram KenLM language model significantly reduces WER and enhances ASR accuracy. The research contributes to the advancement of ASR technology by addressing linguistic diversity and improving performance across various languages. The findings provide insights into optimizing ASR accuracy and applicability for diverse linguistic contexts.
翻訳日:2024-01-17 21:08:22 公開日:2024-01-12
# インテリジェントトランスポートシステムへのフロンティアAI、基礎モデル、および大規模言語モデルの適用に関する調査

A Survey on the Applications of Frontier AI, Foundation Models, and Large Language Models to Intelligent Transportation Systems ( http://arxiv.org/abs/2401.06831v1 )

ライセンス: Link先を確認
Mohamed R. Shoaib, Heba M. Emara, Jun Zhao(参考訳) 本稿では,知的交通システム(ITS)の領域におけるフロンティアAI,基礎モデル,およびLarge Language Models(LLMs)の変革的影響を考察し,交通インテリジェンスの向上,交通管理の最適化,スマートシティの実現に寄与することの重要性を強調した。 Frontier AI(フロンティア・AI)は、AI技術の最前線を指し、この分野における最新の進歩、イノベーション、実験的技術、特にAIファンデーションモデルとLLMを包含する。 GPT-4のような基礎モデルは大規模で汎用的なAIモデルであり、幅広いアプリケーションの基盤を提供する。 汎用性とスケーラビリティが特徴である。 llmは、自然言語を処理および生成することに焦点を当てた基礎モデルから得られる。 言語理解、テキスト生成、翻訳、要約といったタスクに優れています。 交通報告やソーシャルメディアのインタラクションを含む膨大なテキストデータを活用することで、LLMは重要な洞察を抽出し、ITSの進化を促進する。 この調査は、llmとその間のダイナミックなシナジーをナビゲートし、交通管理のアプリケーション、自動運転車への統合、スマートシティ形成におけるそれらの役割を掘り下げている。 言語、知性、モビリティの交差点でコラボレーションを刺激し、より安全で効率的で持続可能な輸送システムを実現することを目的として、現在進行中の研究、イノベーション、および新興トレンドに関する洞察を提供する。 本稿では,LLMとITSのさまざまな側面の相互作用を調査し,交通管理の役割を探り,自動運転車の促進,スマートシティ開発に寄与するとともに,フロンティアAIやファンデーションモデルによる課題に対処する。 本稿では、知的輸送のトランスフォーメーション領域における将来の研究とイノベーションに貴重なインスピレーションを与える。

This survey paper explores the transformative influence of frontier AI, foundation models, and Large Language Models (LLMs) in the realm of Intelligent Transportation Systems (ITS), emphasizing their integral role in advancing transportation intelligence, optimizing traffic management, and contributing to the realization of smart cities. Frontier AI refers to the forefront of AI technology, encompassing the latest advancements, innovations, and experimental techniques in the field, especially AI foundation models and LLMs. Foundation models, like GPT-4, are large, general-purpose AI models that provide a base for a wide range of applications. They are characterized by their versatility and scalability. LLMs are obtained from finetuning foundation models with a specific focus on processing and generating natural language. They excel in tasks like language understanding, text generation, translation, and summarization. By leveraging vast textual data, including traffic reports and social media interactions, LLMs extract critical insights, fostering the evolution of ITS. The survey navigates the dynamic synergy between LLMs and ITS, delving into applications in traffic management, integration into autonomous vehicles, and their role in shaping smart cities. It provides insights into ongoing research, innovations, and emerging trends, aiming to inspire collaboration at the intersection of language, intelligence, and mobility for safer, more efficient, and sustainable transportation systems. The paper further surveys interactions between LLMs and various aspects of ITS, exploring roles in traffic management, facilitating autonomous vehicles, and contributing to smart city development, while addressing challenges brought by frontier AI and foundation models. This paper offers valuable inspiration for future research and innovation in the transformative domain of intelligent transportation.
翻訳日:2024-01-17 21:07:54 公開日:2024-01-12
# RecSys Challenge 2023: データ準備から予測へ、シンプルで効率的で堅牢でスケーラブルなソリューション

RecSys Challenge 2023: From data preparation to prediction, a simple, efficient, robust and scalable solution ( http://arxiv.org/abs/2401.06830v1 )

ライセンス: Link先を確認
Maxime Manderlier and Fabian Lecron(参考訳) ShareChatが発表したRecSys Challenge 2023は、ユーザーがShareChat & Mojアプリの広告インプレッションを見た後、スマートフォンにアプリをインストールするかどうかを予測するためのものだ。 本稿では,この課題に対する「チームUMONS」のソリューションを提案し,より正確な結果(ベストスコアは6.622686)を,異なる運用構成で容易に実装可能な比較的小さなモデルで提示する。 我々のソリューションはデータセットのサイズを拡大するときにうまくスケールし、欠落した値を含むデータセットで使用できる。

The RecSys Challenge 2023, presented by ShareChat, consists to predict if an user will install an application on his smartphone after having seen advertising impressions in ShareChat & Moj apps. This paper presents the solution of 'Team UMONS' to this challenge, giving accurate results (our best score is 6.622686) with a relatively small model that can be easily implemented in different production configurations. Our solution scales well when increasing the dataset size and can be used with datasets containing missing values.
翻訳日:2024-01-17 21:07:01 公開日:2024-01-12
# 大規模言語モデルのクロスアテンション透かし

Cross-Attention Watermarking of Large Language Models ( http://arxiv.org/abs/2401.06829v1 )

ライセンス: Link先を確認
Folco Bertini Baldassini, Huy H. Nguyen, Ching-Chung Chang, Isao Echizen(参考訳) 読みやすさと本来の意味を保ちつつ、出力テキストに情報を受動的に挿入する言語モデルの言語的透かしに対する新しいアプローチが提示された。 クロスアテンションメカニズムは、推論中にテキストに透かしを埋め込むのに使われる。 予め訓練したモデルの性能に及ぼす透かしの影響を最小限に抑える2つの方法を示す。 ウォーターマークの最適化のための異なるトレーニング戦略の探索と、実際のシナリオにおけるこのアプローチの適用の課題と意義は、ウォーターマークの堅牢性とテキスト品質のトレードオフを明確にした。 透かしの選択は高エントロピー文の出力に大きく影響する。 このプロアクティブな透かしアプローチは将来のモデル開発に潜在的に応用できる。

A new approach to linguistic watermarking of language models is presented in which information is imperceptibly inserted into the output text while preserving its readability and original meaning. A cross-attention mechanism is used to embed watermarks in the text during inference. Two methods using cross-attention are presented that minimize the effect of watermarking on the performance of a pretrained model. Exploration of different training strategies for optimizing the watermarking and of the challenges and implications of applying this approach in real-world scenarios clarified the tradeoff between watermark robustness and text quality. Watermark selection substantially affects the generated output for high entropy sentences. This proactive watermarking approach has potential application in future model development.
翻訳日:2024-01-17 21:06:08 公開日:2024-01-12
# aple:マルチモーダルプロンプト学習のためのトークンアダプティブ

APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning ( http://arxiv.org/abs/2401.06827v1 )

ライセンス: Link先を確認
Guiming Cao, Kaize Shi, Hong Fu, Huaiwen Zhang and Guandong Xu(参考訳) 事前訓練されたビジョン言語(v-l)モデルは、注目すべき候補の中で下流タスクへの一般化のベンチマークを設定した。 V-Lモデルの多くの特徴は、テキスト入力に対する感度の課題やマルチモーダルプロンプト間のチューニングプロセスなど、既存の研究で研究されている。 CLIPのようなV-Lモデルの高度な利用により、最近のアプローチでは、手作業のプロンプトの代わりに学習可能なプロンプトがデプロイされ、一般化のパフォーマンスが向上し、上記の課題に対処している。 画像融合で多用される層間トレーニングに触発され,クリップの異なる分岐を適応させるための逐次訓練プロセスを用いることで,一般化の効率化が図れる。 本稿では,マルチモーダル・プロンプト・チャレンジの文脈において,モダリティ・プロンプトと視覚,言語の両方を逐次的なトークンとしてチューニングする,マルチモーダル・プロンプト・ラーニング(aple)のためのトークン・アダプティブを提案する。 APLeはV-Lモデルの課題に対処し、両モード間の迅速な学習を促進する。 顕著なことに、APLeはV-Lモデルを採用する上で絶対的な優位性を持つプロンプト長実験において、堅牢性と好ましい性能を示す。

Pre-trained Vision-Language (V-L) models set the benchmark for generalization to downstream tasks among the noteworthy contenders. Many characteristics of the V-L model have been explored in existing research including the challenge of the sensitivity to text input and the tuning process across multi-modal prompts. With the advanced utilization of the V-L model like CLIP, recent approaches deploy learnable prompts instead of hand-craft prompts to boost the generalization performance and address the aforementioned challenges. Inspired by layer-wise training, which is wildly used in image fusion, we note that using a sequential training process to adapt different modalities branches of CLIP efficiently facilitates the improvement of generalization. In the context of addressing the multi-modal prompting challenge, we propose Token-wise Adaptive for Multi-modal Prompt Learning (APLe) for tuning both modalities prompts, vision and language, as tokens in a sequential manner. APLe addresses the challenges in V-L models to promote prompt learning across both modalities, which indicates a competitive generalization performance in line with the state-of-the-art. Preeminently, APLe shows robustness and favourable performance in prompt-length experiments with an absolute advantage in adopting the V-L models.
翻訳日:2024-01-17 21:05:51 公開日:2024-01-12
# ガイド付き確率探索による接続成長による常時スパーストレーニング

Always-Sparse Training by Growing Connections with Guided Stochastic Exploration ( http://arxiv.org/abs/2401.06898v1 )

ライセンス: Link先を確認
Mike Heddes, Narayan Srinivasa, Tony Givargis, Alexandru Nicolau(参考訳) 現代の人工ニューラルネットワーク(anns)の過剰な計算要件は、それらを実行するマシンに制限を課している。 ANNのスパーシフィケーションは、しばしば、モデル推論の間のみ時間、記憶、エネルギーの節約によって動機付けられ、トレーニング中に利益が得られない。 ますます多くの作業が、トレーニング中にモデルスパースフィケーションのメリットを提供することに集中している。 これらの手法はトレーニング効率を大幅に改善するが、最も正確なモデルを生成するトレーニングアルゴリズムは、トレーニング中に高密度な重み、または高密度な勾配を計算する。 トレーニングや推論の際のモデル幅に対する線形時間複雑性に支えられ,より大規模かつスペーサーなモデルへのスケーリングに優れた,効率的で常時スパースなトレーニングアルゴリズムを提案する。 さらに,従来のスパース学習手法の精度よりも,確率探索アルゴリズムを改良した。 resnet, vgg, vitモデルを用いてcifar-10/100およびimagenetの手法を評価し, 各種スパーシフィケーション法と比較した。

The excessive computational requirements of modern artificial neural networks (ANNs) are posing limitations on the machines that can run them. Sparsification of ANNs is often motivated by time, memory and energy savings only during model inference, yielding no benefits during training. A growing body of work is now focusing on providing the benefits of model sparsification also during training. While these methods greatly improve the training efficiency, the training algorithms yielding the most accurate models still materialize the dense weights, or compute dense gradients during training. We propose an efficient, always-sparse training algorithm with excellent scaling to larger and sparser models, supported by its linear time complexity with respect to the model width during training and inference. Moreover, our guided stochastic exploration algorithm improves over the accuracy of previous sparse training methods. We evaluate our method on CIFAR-10/100 and ImageNet using ResNet, VGG, and ViT models, and compare it against a range of sparsification methods.
翻訳日:2024-01-17 20:57:26 公開日:2024-01-12
# mriによる脳梗塞病変分割に対する局所ガンマ増強術

Local Gamma Augmentation for Ischemic Stroke Lesion Segmentation on MRI ( http://arxiv.org/abs/2401.06893v1 )

ライセンス: Link先を確認
Jon Middleton, Marko Bauer, Kaining Sheng, Jacob Johansen, Mathias Perslev, Silvia Ingala, Mads Nielsen, Akshay Pai(参考訳) 医用画像における病理組織の同定と局在は、深層学習実践者の間で大きな注目を集めている。 豊富なデータセットでトレーニングを行うと、ディープニューラルネットワークは人間のパフォーマンスにマッチしたり、超えたりすることができる。 しかし、注釈付きデータの不足はこれらのモデルの訓練を複雑にする。 データ拡張技術は、トレーニングサンプルの不足を補うことができる。 しかし、一般的な拡張法の多くは、モデルフィッティング中に意味のあるサンプルを提供することができない。 病理組織に新しい強度の例を導入する手法である局所ガンマ増強法を提案する。 局所的なガンマ増強を利用してヒト脳MRIにおける虚血性脳梗塞病変に対応する強度のバイアスを補正する。 3つのデータセットにおいて, 局所ガンマ増強は, 磁気共鳴画像の虚血病変セグメント化を課題とする深層ニューラルネットワークの感度をいかに向上させるかを示す。

The identification and localisation of pathological tissues in medical images continues to command much attention among deep learning practitioners. When trained on abundant datasets, deep neural networks can match or exceed human performance. However, the scarcity of annotated data complicates the training of these models. Data augmentation techniques can compensate for a lack of training samples. However, many commonly used augmentation methods can fail to provide meaningful samples during model fitting. We present local gamma augmentation, a technique for introducing new instances of intensities in pathological tissues. We leverage local gamma augmentation to compensate for a bias in intensities corresponding to ischemic stroke lesions in human brain MRIs. On three datasets, we show how local gamma augmentation can improve the image-level sensitivity of a deep neural network tasked with ischemic lesion segmentation on magnetic resonance images.
翻訳日:2024-01-17 20:57:07 公開日:2024-01-12
# モデル非依存概念説明への公理的アプローチ

An Axiomatic Approach to Model-Agnostic Concept Explanations ( http://arxiv.org/abs/2401.06890v1 )

ライセンス: Link先を確認
Zhili Feng, Michal Moshkovitz, Dotan Di Castro, J. Zico Kolter(参考訳) 概念説明は、人間の解釈可能な概念がモデルの予測にどのように影響するかを調べる一般的なアプローチである。 しかし、既存の概念的説明法のほとんどは特定のモデルに合わせている。 この問題に対処するため,本稿ではモデル非依存の尺度について述べる。 具体的には、線形性、再帰性、類似性という3つの自然公理を満たす概念説明のアプローチを提案する。 次に,先行する概念説明手法との関連性を確立し,その意味的意味について考察する。 実験では,ゼロショット視覚言語モデルに対するプロンプト編集の一種を用いたモデル選択,オプティマイザ選択,モデル改善など,異なるシナリオで適用することで,新しい手法の有用性を実証する。

Concept explanation is a popular approach for examining how human-interpretable concepts impact the predictions of a model. However, most existing methods for concept explanations are tailored to specific models. To address this issue, this paper focuses on model-agnostic measures. Specifically, we propose an approach to concept explanations that satisfy three natural axioms: linearity, recursivity, and similarity. We then establish connections with previous concept explanation methods, offering insight into their varying semantic meanings. Experimentally, we demonstrate the utility of the new method by applying it in different scenarios: for model selection, optimizer selection, and model improvement using a kind of prompt editing for zero-shot vision language models.
翻訳日:2024-01-17 20:56:56 公開日:2024-01-12
# オープンソースソフトウェアエコシステムにおける見えない労働

Invisible Labor in Open Source Software Ecosystems ( http://arxiv.org/abs/2401.06889v1 )

ライセンス: Link先を確認
John Meluso, Amanda Casari, Katie McLaughlin, Milo Z. Trujillo(参考訳) 目に見えない労働は、完全には見えず、適切に補償されない仕事であり、その両方である。 オープンソースソフトウェア(OSS)エコシステムでは、コード(コンテンツモデレーションなど)を含まない重要なタスクは、個人や組織の有害行為には見えないことが多い。 しかしながら、見えない労働力を測定することは非常に困難であり、OSS活動のどれだけが見えないかはわからない。 我々の研究は、OSSの作業のおよそ半分が見えないことを実証して、この課題に対処する。 我々は、OSS開発者による労働の可視性と属性の自己評価を計測する認知的アンカーを用いた調査手法を開発する。 調査対象者 (n=142) は、自分の作品が(少なくとも1人だけに見える)、(2人以上に見える)より見えない、または部分的に見える可能性が高いと報告した。 さらに,作業視認性が高いという考え方を認知的に定着させることで,作業視認性が向上し,視認性が低下し,作業視認性が低下する。 これは、ossの活動を「オープン」として宣伝することは、ほとんどの人々に労働を可視化するものではなく、労働の可視性を過大評価する貢献者につながることを示唆している。 したがって、あらゆる種類の労働を合法的な貢献として認識するシステムを設計することは、ソフトウェア開発における公平性を改善しつつ、組織やコミュニティが目標を達成するのに役立つ作業設計に透明性を提供することにつながる、という証拠が増えているのです。

Invisible labor is work that is not fully visible, not appropriately compensated, or both. In open source software (OSS) ecosystems, essential tasks that do not involve code (like content moderation) often become invisible to the detriment of individuals and organizations. However, invisible labor is so difficult to measure that we do not know how much of OSS activities are invisible. Our study addresses this challenge, demonstrating that roughly half of OSS work is invisible. We do this by developing a survey technique with cognitive anchoring that measures OSS developer self-assessments of labor visibility and attribution. Survey respondents (n=142) reported that their work is more likely to be nonvisible or partially visible (i.e. visible to at most 1 other person) than fully visible (i.e. visible to 2 or more people). Furthermore, cognitively anchoring participants to the idea of high work visibility increased perceptions of labor visibility and decreased visibility importance compared to anchoring to low work visibility. This suggests that advertising OSS activities as "open" may not make labor visible to most people, but rather lead contributors to overestimate labor visibility. We therefore add to a growing body of evidence that designing systems that recognize all kinds of labor as legitimate contributions is likely to improve fairness in software development while providing greater transparency into work designs that help organizations and communities achieve their goals.
翻訳日:2024-01-17 20:56:44 公開日:2024-01-12
# プライバシーを保ちながらスケールする:学習分析における総合的な表データ生成と評価

Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data Generation and Evaluation in Learning Analytics ( http://arxiv.org/abs/2401.06883v1 )

ライセンス: Link先を確認
Qinyi Liu, Mohammad Khalil, Ronas Shakya, and Jelena Jovanovic(参考訳) プライバシーは、学習分析(LA)の進歩に大きな障害となり、現在のソリューションが解決に苦慮している匿名化やデータ誤用といった課題を提示している。 合成データは潜在的な対策として現れ、堅牢なプライバシー保護を提供する。 しかしながら、laでの合成データの研究は、プライバシとデータユーティリティの微妙なバランスを評価する上で不可欠な、徹底的な評価を欠いている。 合成データはプライバシーを高めるだけでなく、データ分析にも実用的でなければならない。 さらに、さまざまなLAシナリオには、さまざまなプライバシとユーティリティのニーズが伴うため、適切な合成データの選択が急務になる。 これらのギャップに対処するため,合成データの品質,すなわち類似性,有用性,プライバシの3次元を包含した総合的な合成データ評価を提案する。 この評価を3つの異なる合成データ生成法を用いて,3つのLAデータセットに適用する。 その結果,合成データは,プライバシを保ちながら,実データと同様のユーティリティ(すなわち予測性能)を維持できることがわかった。 さらに,laの異なるシナリオにおいて,異なるプライバシとデータユーティリティ要件を考慮して,合成データ生成のためのカスタマイズされたレコメンデーションを行う。 本稿では、合成データの総合的な評価だけでなく、LAの分野におけるプライバシー問題を軽減する可能性を示すとともに、LAにおける合成データのより広範な適用に寄与し、オープンサイエンスのためのより良い実践を促進する。

Privacy poses a significant obstacle to the progress of learning analytics (LA), presenting challenges like inadequate anonymization and data misuse that current solutions struggle to address. Synthetic data emerges as a potential remedy, offering robust privacy protection. However, prior LA research on synthetic data lacks thorough evaluation, essential for assessing the delicate balance between privacy and data utility. Synthetic data must not only enhance privacy but also remain practical for data analytics. Moreover, diverse LA scenarios come with varying privacy and utility needs, making the selection of an appropriate synthetic data approach a pressing challenge. To address these gaps, we propose a comprehensive evaluation of synthetic data, which encompasses three dimensions of synthetic data quality, namely resemblance, utility, and privacy. We apply this evaluation to three distinct LA datasets, using three different synthetic data generation methods. Our results show that synthetic data can maintain similar utility (i.e., predictive performance) as real data, while preserving privacy. Furthermore, considering different privacy and data utility requirements in different LA scenarios, we make customized recommendations for synthetic data generation. This paper not only presents a comprehensive evaluation of synthetic data but also illustrates its potential in mitigating privacy concerns within the field of LA, thus contributing to a wider application of synthetic data in LA and promoting a better practice for open science.
翻訳日:2024-01-17 20:56:17 公開日:2024-01-12
# 構造を即座に予測する:推論の帰結

Promptly Predicting Structures: The Return of Inference ( http://arxiv.org/abs/2401.06877v1 )

ライセンス: Link先を確認
Maitrey Mehta, Valentina Pyatkin, Vivek Srikumar(参考訳) プロンプトベースの手法は、ゼロショットと少数ショットのラベル予測器を構築するために、NLP全体で広く使われている。 多くのNLPタスクは自然に構造化されており、その出力は互いに制約する複数のラベルで構成されている。 このようなタスクにデータをアノテートするのは面倒です。 プロンプトベースのパラダイムはそのような構造化出力に拡張できるだろうか? 本稿ではゼロショット言語構造予測器を構築するためのフレームワークを提案する。 私たちの重要な洞察は、構造的制約(およびそれらに由来する組合せ推論)を使用して、大きな言語モデルによって予測される一貫性のない構造をフィルタリングできるということです。 このフレームワークを2つの構造化予測タスクと5つのデータセットでインスタンス化した。 いずれの場合も、一貫性の強制は構造的に有効な出力を構成するだけでなく、制約のない変種よりも性能を向上させる。

Prompt-based methods have been used extensively across NLP to build zero- and few-shot label predictors. Many NLP tasks are naturally structured: that is, their outputs consist of multiple labels which constrain each other. Annotating data for such tasks can be cumbersome. Can the promise of the prompt-based paradigm be extended to such structured outputs? In this paper, we present a framework for constructing zero- and few-shot linguistic structure predictors. Our key insight is that we can use structural constraints -- and combinatorial inference derived from them -- to filter out inconsistent structures predicted by large language models. We instantiated this framework on two structured prediction tasks, and five datasets. Across all cases, our results show that enforcing consistency not only constructs structurally valid outputs, but also improves performance over the unconstrained variants.
翻訳日:2024-01-17 20:55:51 公開日:2024-01-12
# 量子ldpc符号のための結合符号と信念伝達デコーダ設計

A Joint Code and Belief Propagation Decoder Design for Quantum LDPC Codes ( http://arxiv.org/abs/2401.06874v1 )

ライセンス: Link先を確認
Sisi Miao, Jonathan Mandelbaum, Holger J\"akel, and Laurent Schmalen(参考訳) 量子低密度パリティチェック(QLDPC)符号は、将来の量子誤り訂正スキームの最も有望な候補の一つである。 しかし、短長から中長のQLDPC符号は限定的に設計されており、その復号性能はタナーグラフの避けられない短周期のため、第4の信念伝搬(BP)デコーダと準最適である。 本稿では,QLDPC符号のための新しいジョイントコードとデコーダ設計を提案する。 構築された符号は、ブロック長の平方根あたりの最小距離を有する。 さらに、私たちの知る限りでは、BPデコーディングが長さ4の短いサイクルで障害を受けない最初のQLDPCコードファミリーである。 これは、組み立てた短周期の影響を緩和するアンサンブルBPデコーダを用いて達成される。 古典的準巡回符号と有限幾何符号に基づく2つの符号構成法について概説する。 数値実験により,脱分極チャネル上でのデコード性能が著しく向上した。

Quantum low-density parity-check (QLDPC) codes are among the most promising candidates for future quantum error correction schemes. However, a limited number of short to moderate-length QLDPC codes have been designed and their decoding performance is sub-optimal with a quaternary belief propagation (BP) decoder due to unavoidable short cycles in their Tanner graphs. In this letter, we propose a novel joint code and decoder design for QLDPC codes. The constructed codes have a minimum distance of about the square root of the block length. In addition, it is, to the best of our knowledge, the first QLDPC code family where BP decoding is not impaired by short cycles of length 4. This is achieved by using an ensemble BP decoder mitigating the influence of assembled short cycles. We outline two code construction methods based on classical quasi-cyclic codes and finite geometry codes. Numerical results demonstrate outstanding decoding performance over depolarizing channels.
翻訳日:2024-01-17 20:55:36 公開日:2024-01-12
# テンソル型特徴表現における適応予測を用いた多重基準決定支援

Multicriteria decision support employing adaptive prediction in a tensor-based feature representation ( http://arxiv.org/abs/2401.06868v1 )

ライセンス: Link先を確認
Betania Silva Carneiro Campello, Leonardo Tomazeli Duarte, Jo\~ao Marcos Travassos Romano(参考訳) マルチ基準決定分析(MCDA)は、選択肢の集合を複数の基準に基づいて分類または分類する決定を支援するために広く用いられるツールである。 MCDAにおける最近の研究は、各基準の現在の評価だけでなく過去のデータも考慮していることの関連性を示している。 過去データベースのアプローチは、特に時変環境において、新しい課題をもたらす。 本研究は、テンソル表現や適応予測といった信号処理の必須ツールを通じてこの問題に対処する。 より具体的には、基準の過去のデータをテンソルとして構成し、適応予測を適用することで、これらの基準の予測値で信号を構成する。 さらに、時間領域の予測を、機能ドメインと呼ばれる、最も好ましい意思決定領域に変換する。 本稿では,特徴領域のテンソルに対処して代替品のランク付けを行うMCDA法Promethee IIの新たな拡張について述べる。 実世界の時系列を用いて数値実験を行い,既存の手法と比較した。 その結果,提案手法の妥当性と効率性,特に非定常時系列について明らかにした。

Multicriteria decision analysis (MCDA) is a widely used tool to support decisions in which a set of alternatives should be ranked or classified based on multiple criteria. Recent studies in MCDA have shown the relevance of considering not only current evaluations of each criterion but also past data. Past-data-based approaches carry new challenges, especially in time-varying environments. This study deals with this challenge via essential tools of signal processing, such as tensorial representations and adaptive prediction. More specifically, we structure the criteria' past data as a tensor and, by applying adaptive prediction, we compose signals with these prediction values of the criteria. Besides, we transform the prediction in the time domain into a most favorable decision making domain, called the feature domain. We present a novel extension of the MCDA method PROMETHEE II, aimed at addressing the tensor in the feature domain to obtain a ranking of alternatives. Numerical experiments were performed using real-world time series, and our approach is compared with other existing strategies. The results highlight the relevance and efficiency of our proposal, especially for nonstationary time series.
翻訳日:2024-01-17 20:55:21 公開日:2024-01-12
# Health-LLM:ウェアラブルセンサデータによる健康予測のための大規模言語モデル

Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data ( http://arxiv.org/abs/2401.06866v1 )

ライセンス: Link先を確認
Yubin Kim, Xuhai Xu, Daniel McDuff, Cynthia Breazeal, Hae Won Park(参考訳) 大規模言語モデル(LLM)は多くの自然言語処理が可能であるが、完璧には程遠い。 健康アプリケーションでは、ドメイン固有および非言語的データの接地と解釈が重要である。 本稿では,コンテキスト情報(ユーザ人口統計,健康知識など)と生理データ(安静時心拍数,睡眠時間など)に基づいて,マルチモーダル健康予測を行うためのllmの能力について検討する。 我々は,6つの公衆衛生データセット(PM-Data,LifeSnaps,GLOBEM,AW_FB,MIT-BIH & MIMIC-III)に対して,多種多様なプロンプトおよび微調整技術を用いた8つの最先端LCMの総合評価を行った。 本実験では, 精神保健, 活動, 代謝, 睡眠, 心的評価における13の消費者健康予測タスクについて検討した。 私たちの微調整モデルであるHealth-Alpacaは、より大きなモデル(GPT-3.5とGPT-4)に匹敵する性能を示し、13タスク中5タスクで最高のパフォーマンスを実現しています。 アブレーション研究は、文脈拡張戦略の有効性と、訓練データセット全体にわたる微調整モデルの一般化能力とトレーニングサンプルのサイズを強調している。 特に、我々の文脈の強化が最大で23.8%のパフォーマンス向上をもたらすことを観察する。 文脈的にリッチなプロンプトの構築(ユーザコンテキスト、健康知識、時間情報の組み合わせ)は相乗的改善を示す一方で、健康知識コンテキストの導入は全体的なパフォーマンスを大幅に向上させる。

Large language models (LLMs) are capable of many natural language tasks, yet they are far from perfect. In health applications, grounding and interpreting domain-specific and non-linguistic data is important. This paper investigates the capacity of LLMs to deliver multi-modal health predictions based on contextual information (e.g. user demographics, health knowledge) and physiological data (e.g. resting heart rate, sleep minutes). We present a comprehensive evaluation of eight state-of-the-art LLMs with diverse prompting and fine-tuning techniques on six public health datasets (PM-Data, LifeSnaps, GLOBEM, AW_FB, MIT-BIH & MIMIC-III). Our experiments cover thirteen consumer health prediction tasks in mental health, activity, metabolic, sleep, and cardiac assessment. Our fine-tuned model, Health-Alpaca exhibits comparable performance to larger models (GPT-3.5 and GPT-4), achieving the best performance in 5 out of 13 tasks. Ablation studies highlight the effectiveness of context enhancement strategies, and generalization capability of the fine-tuned models across training datasets and the size of training samples. Notably, we observe that our context enhancement can yield up to 23.8% improvement in performance. While constructing contextually rich prompts (combining user context, health knowledge and temporal information) exhibits synergistic improvement, the inclusion of health knowledge context in prompts significantly enhances overall performance.
翻訳日:2024-01-17 20:55:02 公開日:2024-01-12
# DAGによるディープラーニング

Deep Learning With DAGs ( http://arxiv.org/abs/2401.06864v1 )

ライセンス: Link先を確認
Sourabh Balgi, Adel Daoud, Jose M. Pe\~na, Geoffrey T. Wodtke and Jesse Zhou(参考訳) 社会科学理論は、しばしば一連の変数や事象の間の因果関係を仮定する。 有向非巡回グラフ (DAG) はこれらの理論を表現するためにますます使われているが、その完全なポテンシャルはまだ実現されていない。 非パラメトリック因果モデルとして、DAGは仮説化された関係の関数形式に関する仮定を必要としない。 それにもかかわらず、経験的評価のタスクを単純化するために、研究者は、理論的な内容や事前の知識を反映していないにもかかわらず、いずれにせよそのような仮定を呼び出す傾向がある。 さらに、機能形式仮定は、調査中の因果システムの複雑さを正確に把握できない場合、バイアスを回避できる。 本稿では、深いニューラルネットワークを利用してDAGとして表される理論を実証的に評価する因果推論の新しいアプローチである因果正規化フロー(cGNFs)を紹介する。 従来のアプローチとは異なり、cGNFsは、関数形式に関する厳密な仮定に頼ることなく、アナリストが提供したDAGに従ってデータの完全な関節分布をモデル化する。 このようにして、この方法はDAGから特定できる任意の因果推定値の柔軟な半パラメトリック推定を可能にし、総効果、条件効果、直接的および間接的効果、経路特異的効果を含む。 本手法は,blau と duncan の1967 年のステータス達成モデルと zhou の2019 年の条件と制御されたモビリティモデルの再解析により述べる。 採用を容易にするため,我々はオープンソースのソフトウェアと,cGNFを実装するための一連のオンラインチュートリアルを提供している。 この記事は、将来の開発における現在の制限と方向性に関する議論で締めくくっている。

Social science theories often postulate causal relationships among a set of variables or events. Although directed acyclic graphs (DAGs) are increasingly used to represent these theories, their full potential has not yet been realized in practice. As non-parametric causal models, DAGs require no assumptions about the functional form of the hypothesized relationships. Nevertheless, to simplify the task of empirical evaluation, researchers tend to invoke such assumptions anyway, even though they are typically arbitrary and do not reflect any theoretical content or prior knowledge. Moreover, functional form assumptions can engender bias, whenever they fail to accurately capture the complexity of the causal system under investigation. In this article, we introduce causal-graphical normalizing flows (cGNFs), a novel approach to causal inference that leverages deep neural networks to empirically evaluate theories represented as DAGs. Unlike conventional approaches, cGNFs model the full joint distribution of the data according to a DAG supplied by the analyst, without relying on stringent assumptions about functional form. In this way, the method allows for flexible, semi-parametric estimation of any causal estimand that can be identified from the DAG, including total effects, conditional effects, direct and indirect effects, and path-specific effects. We illustrate the method with a reanalysis of Blau and Duncan's (1967) model of status attainment and Zhou's (2019) model of conditional versus controlled mobility. To facilitate adoption, we provide open-source software together with a series of online tutorials for implementing cGNFs. The article concludes with a discussion of current limitations and directions for future development.
翻訳日:2024-01-17 20:54:33 公開日:2024-01-12
# HPC上でのNWQ-Simによる量子システムのシミュレーション

Simulating Quantum Systems with NWQ-Sim on HPC ( http://arxiv.org/abs/2401.06861v1 )

ライセンス: Link先を確認
In-Saeng Suh and Ang Li(参考訳) NWQ-Simは、古典的なマルチノード、マルチCPU/GPUヘテロジニアスHPCシステムで動作するように設計された最先端の量子システムシミュレーション環境である。 本研究では、NWQ-Simの簡単な概要と、逆場イジングモデルのような量子回路応用のシミュレーションにおける実装について述べる。 また,nwq-simを用いて,デバイスノイズモデルを用いて,実際の量子デバイスで発生する誤差の影響を検証できることを示す。 さらに、NWQ-Simは、回路を動的に生成する変動量子アルゴリズムの実装に特に適している。 したがって、Isingモデルの変分量子固有解法(VQE)でこれを説明できる。 どちらの場合も、NWQ-Simのパフォーマンスは代替シミュレータと同等かそれ以上である。 我々は、NWQ-Simは量子回路とアルゴリズムをシミュレーションするための有用で柔軟なツールであり、性能上の利点とノイズ対応のシミュレーション機能を備えていると結論付けた。

NWQ-Sim is a cutting-edge quantum system simulation environment designed to run on classical multi-node, multi-CPU/GPU heterogeneous HPC systems. In this work, we provide a brief overview of NWQ-Sim and its implementation in simulating quantum circuit applications, such as the transverse field Ising model. We also demonstrate how NWQ-Sim can be used to examine the effects of errors that occur on real quantum devices, using a combined device noise model. Moreover, NWQ-Sim is particularly well-suited for implementing variational quantum algorithms where circuits are dynamically generated. Therefore, we also illustrate this with the variational quantum eigensolver (VQE) for the Ising model. In both cases, NWQ-Sim's performance is comparable to or better than alternative simulators. We conclude that NWQ-Sim is a useful and flexible tool for simulating quantum circuits and algorithms, with performance advantages and noise-aware simulation capabilities.
翻訳日:2024-01-17 20:54:07 公開日:2024-01-12
# 言語モデルのためのきめ細かい幻覚検出と編集

Fine-grained Hallucination Detection and Editing for Language Models ( http://arxiv.org/abs/2401.06855v1 )

ライセンス: Link先を確認
Abhika Mishra, Akari Asai, Vidhisha Balachandran, Yizhong Wang, Graham Neubig, Yulia Tsvetkov, Hannaneh Hajishirzi(参考訳) 大規模言語モデル(LM)は、様々な事実的不正確な文を生成する傾向がある。 現在のアプローチは主に、粗い粒度の自動幻覚検出や編集に重点を置いており、微妙なエラーレベルを見下ろしている。 本稿では,新しい課題である細粒度幻覚自動検出法を提案し,階層的に定義された6種類の幻覚を包含する包括的分類法を提案する。 評価を容易にするため,各領域にまたがる2つのLM出力に対する人間の微粒化判定を含む新しいベンチマークを導入する。 分析の結果,chatgpt と llama 2-chat はそれぞれ60% と 75% で幻覚を呈し,その幻覚の大部分は未熟なカテゴリに分類されることがわかった。 これに対処する最初のステップとして,合成データ生成を慎重に設計し,細粒度幻覚の検出と修正を行い,検索型lmであるfavaを訓練する。 評価の結果,FAVAはChatGPTよりも高い精度で高感度の幻覚検出を行うことができたが,今後の改善の余地は大きい。 favaの提案する編集ではlm生成テキストの事実性も改善され、ファクトスコアが5~10%向上した。

Large language models (LMs) are prone to generate diverse factually incorrect statements, which are widely called hallucinations. Current approaches predominantly focus on coarse-grained automatic hallucination detection or editing, overlooking nuanced error levels. In this paper, we propose a novel task -- automatic fine-grained hallucination detection -- and present a comprehensive taxonomy encompassing six hierarchically defined types of hallucination. To facilitate evaluation, we introduce a new benchmark that includes fine-grained human judgments on two LM outputs across various domains. Our analysis reveals that ChatGPT and Llama 2-Chat exhibit hallucinations in 60% and 75% of their outputs, respectively, and a majority of these hallucinations fall into categories that have been underexplored. As an initial step to address this, we train FAVA, a retrieval-augmented LM by carefully designing synthetic data generations to detect and correct fine-grained hallucinations. On our benchmark, our automatic and human evaluations show that FAVA significantly outperforms ChatGPT on fine-grained hallucination detection by a large margin though a large room for future improvement still exists. FAVA's suggested edits also improve the factuality of LM-generated text, resulting in 5-10% FActScore improvements.
翻訳日:2024-01-17 20:53:51 公開日:2024-01-12
# 粒子崩壊からの絡み合い自己蒸留

Entanglement autodistillation from particle decays ( http://arxiv.org/abs/2401.06854v1 )

ライセンス: Link先を確認
J. A. Aguilar-Saavedra, J. A. Casas(参考訳) 粒子の崩壊は量子力学的意味でスピン「測定」を構成するのではなく、特に絡み合った系においてスピン状態を変化させる。 スピン絡み合った一対の粒子に対して, 1粒子の崩壊後に系の絡み合いが増加することを示す。 この特異な現象は安定粒子と等価ではなく、高エネルギー偏光$e^+ e^-$コライダーでトップペアの生成で観測可能である。

Particle decays do not constitute a spin "measurement" in the quantum-mechanical sense, but still modify the spin state, in particular for an entangled system. We show that for a spin-entangled pair of particles the entanglement of the system can increase after the decay of one particle. This unique phenomenon has no equivalent for stable particles and could be observable in top pair production at a high-energy polarized $e^+ e^-$ collider.
翻訳日:2024-01-17 20:53:29 公開日:2024-01-12
# PizzaCommonSense:調理レシピにおける中間ステップに関するコモンセンス推論のモデル化

PizzaCommonSense: Learning to Model Commonsense Reasoning about Intermediate Steps in Cooking Recipes ( http://arxiv.org/abs/2401.06930v1 )

ライセンス: Link先を確認
Aissatou Diallo, Antonis Bikakis, Luke Dickens, Anthony Hunter, Rob Miller(参考訳) 調理レシピで例示される手続き的テキストのコアをデコードすることは、インテリジェントな推論と指導自動化に不可欠である。 手続きテキストは、リソースを使用するタスクを達成するためのステップのシーケンシャルチェーンとして、包括的に定義することができる。 調理の観点からは、これらの指示は、当初は一組の材料からなる食品準備への一連の修正と解釈できる。 これらの変更は、キャメティブルリソースの変換を伴う。 モデルが料理レシピを効果的に推論するためには、レシピ内の中間ステップの入力と出力を正確に認識し、理解する必要がある。 そこで本研究では,レシピの中間段階を記述した料理レシピのコーパスを新たに提示し,各ステップの入力と出力を詳述する。 本稿では,t5 と gpt-3.5 に基づくベースラインモデルの検討と提供について述べる。 本研究は,コモンセンス推論と手続きテキスト生成に関する課題と洞察を提示する。

Decoding the core of procedural texts, exemplified by cooking recipes, is crucial for intelligent reasoning and instruction automation. Procedural texts can be comprehensively defined as a sequential chain of steps to accomplish a task employing resources. From a cooking perspective, these instructions can be interpreted as a series of modifications to a food preparation, which initially comprises a set of ingredients. These changes involve transformations of comestible resources. For a model to effectively reason about cooking recipes, it must accurately discern and understand the inputs and outputs of intermediate steps within the recipe. Aiming to address this, we present a new corpus of cooking recipes enriched with descriptions of intermediate steps of the recipes that explicate the input and output for each step. We discuss the data collection process, investigate and provide baseline models based on T5 and GPT-3.5. This work presents a challenging task and insight into commonsense reasoning and procedural text generation.
翻訳日:2024-01-17 20:44:24 公開日:2024-01-12
# 構造因果モデルを用いた潜在選択のモデル化

Modeling Latent Selection with Structural Causal Models ( http://arxiv.org/abs/2401.06925v1 )

ライセンス: Link先を確認
Leihao Chen, Onno Zoeter, Joris M. Mooij(参考訳) 選択バイアスは現実世界のデータではユビキタスであり、適切に扱わなければ誤解を招く可能性がある。 本稿では,構造因果モデル(scms)の条件付け操作を導入し,因果的視点から潜在選択をモデル化する。 条件付け操作は、明示的な潜在選択機構の存在下でSCMをそのような選択機構なしでSCMに変換し、元のSCMに応じて選択したサブ集団の因果意味を部分的に符号化することを示す。 さらに, この条件付け操作は, SCMの単純さ, 非周期性, 線形性を保ち, 余剰化とともに通勤することを示す。 これらの特性と限界化と介入を組み合わせることで、条件付け操作は、潜伏詳細が抽象化された因果モデル内で因果推論タスクを実行するための貴重なツールを提供する。 例えば,因果推論の古典的な結果が,選択バイアスを含むように一般化され,条件付け操作が実世界の問題のモデル化にどのように役立つかを示す。

Selection bias is ubiquitous in real-world data, and can lead to misleading results if not dealt with properly. We introduce a conditioning operation on Structural Causal Models (SCMs) to model latent selection from a causal perspective. We show that the conditioning operation transforms an SCM with the presence of an explicit latent selection mechanism into an SCM without such selection mechanism, which partially encodes the causal semantics of the selected subpopulation according to the original SCM. Furthermore, we show that this conditioning operation preserves the simplicity, acyclicity, and linearity of SCMs, and commutes with marginalization. Thanks to these properties, combined with marginalization and intervention, the conditioning operation offers a valuable tool for conducting causal reasoning tasks within causal models where latent details have been abstracted away. We demonstrate by example how classical results of causal inference can be generalized to include selection bias and how the conditioning operation helps with modeling of real-world problems.
翻訳日:2024-01-17 20:44:09 公開日:2024-01-12
# 自己組織化マップにおけるトポロジ的投影を用いた最小教師付き学習

Minimally Supervised Learning using Topological Projections in Self-Organizing Maps ( http://arxiv.org/abs/2401.06923v1 )

ライセンス: Link先を確認
Zimeng Lyu, Alexander Ororbia, Rui Li, Travis Desell(参考訳) パラメータ予測は多くのアプリケーションに必須であり、洞察力のある解釈と意思決定を容易にする。 しかし、電力システム、医学、工学などの多くの実生活領域では、広範囲で高価な実験室テストを必要とするため、特定のデータセットの真理ラベルを取得するのは非常に高価である。 本研究では,自己組織マップ(soms)における位相射影に基づく半教師付き学習手法を導入し,ラベル付きデータポイントのパラメータ予測に必要な数を大幅に削減し,大きなラベル付きデータセットに含まれる情報を有効に活用する。 提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。 新たに列挙されたデータポイントについて推定した値は、位相的最短経路距離計算法を用いて、SOMのU行列における$n$近いラベル付きデータポイントの平均を用いて計算される。 提案手法は, 線形回帰, 多項式回帰, ガウス過程回帰, K-アレスト近傍モデル, および様々なディープニューラルネットワークモデルなど, 従来の回帰手法よりも優れていることを示す。

Parameter prediction is essential for many applications, facilitating insightful interpretation and decision-making. However, in many real life domains, such as power systems, medicine, and engineering, it can be very expensive to acquire ground truth labels for certain datasets as they may require extensive and expensive laboratory testing. In this work, we introduce a semi-supervised learning approach based on topological projections in self-organizing maps (SOMs), which significantly reduces the required number of labeled data points to perform parameter prediction, effectively exploiting information contained in large unlabeled datasets. Our proposed method first trains SOMs on unlabeled data and then a minimal number of available labeled data points are ultimately assigned to key best matching units (BMU). The values estimated for newly-encountered data points are computed utilizing the average of the $n$ closest labeled data points in the SOM's U-matrix in tandem with a topological shortest path distance calculation scheme. Our results indicate that the proposed semi-supervised model significantly outperforms traditional regression techniques, including linear and polynomial regression, Gaussian process regression, K-nearest neighbors, as well as various deep neural network models.
翻訳日:2024-01-17 20:43:51 公開日:2024-01-12
# 深部強化学習を用いたオープンRAN LSTMトラフィック予測とスライス管理

Open RAN LSTM Traffic Prediction and Slice Management using Deep Reinforcement Learning ( http://arxiv.org/abs/2401.06922v1 )

ライセンス: Link先を確認
Fatemeh Lotfi, Fatemeh Afghah(参考訳) 自動運転やスマートシティ、スマートファクトリーといった新興のアプリケーションによって、ネットワークスライシングは、サービスアウェアネットワークに対応する手段として、5gとそれ以上のネットワークの重要なコンポーネントになっています。 しかし、サービス品質(QoS)を維持しながら異なるネットワークスライスを管理することは、動的な環境では難しい。 本稿では,ORANシステムにおける分散ユニット(DU)の不均一な経験を活用し,分散深部強化学習(DDRL)を用いたORANスライシングxAppの新しいアプローチを提案する。 さらに、RLエージェントの意思決定性能を高めるため、長期記憶(LSTM)に基づく予測rAppが組み込まれ、動的環境からxAppへの追加情報を提供する。 シミュレーションの結果,ネットワーク性能,特にqos違反の低減において有意な改善が示された。 これは、動的xAppの一部として予測rAppと分散アクターの情報を使用することの重要性を強調している。

With emerging applications such as autonomous driving, smart cities, and smart factories, network slicing has become an essential component of 5G and beyond networks as a means of catering to a service-aware network. However, managing different network slices while maintaining quality of services (QoS) is a challenge in a dynamic environment. To address this issue, this paper leverages the heterogeneous experiences of distributed units (DUs) in ORAN systems and introduces a novel approach to ORAN slicing xApp using distributed deep reinforcement learning (DDRL). Additionally, to enhance the decision-making performance of the RL agent, a prediction rApp based on long short-term memory (LSTM) is incorporated to provide additional information from the dynamic environment to the xApp. Simulation results demonstrate significant improvements in network performance, particularly in reducing QoS violations. This emphasizes the importance of using the prediction rApp and distributed actors' information jointly as part of a dynamic xApp.
翻訳日:2024-01-17 20:43:32 公開日:2024-01-12
# 誤情報除去におけるGPT-4とオープンソース言語モデルの比較

Comparing GPT-4 and Open-Source Language Models in Misinformation Mitigation ( http://arxiv.org/abs/2401.06920v1 )

ライセンス: Link先を確認
Tyler Vergho, Jean-Francois Godbout, Reihaneh Rabbany, Kellin Pelrine(参考訳) 近年の大規模言語モデル(LLM)は誤情報検出に有効であることが示されている。 しかし、実験におけるLSMの選択は広く異なり、不確実な結論に至る。 特に、GPT-4はこの領域では強いことが知られているが、クローズドソースであり、潜在的に高価であり、異なるバージョン間で不安定を示すことができる。 一方、代替LLMは様々な結果を出している。 本研究では,Zephyr-7bがLlama-2やGPT-3.5といった一般的なアプローチの限界を克服し,一貫した代替手段を提供することを示す。 これによって研究コミュニティは、堅固なオープンソースオプションを提供し、オープンソースモデルが徐々にこのタスクに追いついてきていることを示している。 そして、GPT-3.5が不安定な性能を示し、この非常に広く使われているモデルが誤情報検出の誤った結果をもたらす可能性があることを強調した。 最後に、構造化アウトプットや最新バージョンのgpt-4(turbo)を含む新しいツールを検証することで、パフォーマンスを損なわないことを示し、将来の研究のためにそれらをアンロックし、誤った情報緩和のためのより複雑なパイプラインを可能にする。

Recent large language models (LLMs) have been shown to be effective for misinformation detection. However, the choice of LLMs for experiments varies widely, leading to uncertain conclusions. In particular, GPT-4 is known to be strong in this domain, but it is closed source, potentially expensive, and can show instability between different versions. Meanwhile, alternative LLMs have given mixed results. In this work, we show that Zephyr-7b presents a consistently viable alternative, overcoming key limitations of commonly used approaches like Llama-2 and GPT-3.5. This provides the research community with a solid open-source option and shows open-source models are gradually catching up on this task. We then highlight how GPT-3.5 exhibits unstable performance, such that this very widely used model could provide misleading results in misinformation detection. Finally, we validate new tools including approaches to structured output and the latest version of GPT-4 (Turbo), showing they do not compromise performance, thus unlocking them for future research and potentially enabling more complex pipelines for misinformation mitigation.
翻訳日:2024-01-17 20:43:13 公開日:2024-01-12
# n$不等級粒子の純状態の2成分表現と多体絡み合い

Bipartite representations and many-body entanglement of pure states of $N$ indistinguishable particles ( http://arxiv.org/abs/2401.06917v1 )

ライセンス: Link先を確認
A. Cianciulli, R. Rossignoli, M. Di Tullio, N. Gigena, F. Petrovich(参考訳) 我々は、$M$-および$(N-M)$-粒子状態に基づいて、ボソンとフェルミオンの両方に有効である$N$の区別不可能な粒子の任意の純状態の一般的なバイパルタイト様表現を分析する。 正確な$(M,N-M)$ Schmidt-like expansions of the state for any $M<N$, and direct related to the isospectral reduced $M$- and $(N-M)$-body density matrices $\rho^{(M)}$ and $\rho^{(N-M)}$. 形式主義はまた、ある単一粒子部分空間に粒子の固定分数を持つ系において、これらの密度のブロックに付随するシュミット様の分解を減少させることもできる。 量子演算の特定の集合の下でのM$-body絡み合いの単調性についても論じる。 ペア相関を持つフェルミオン系とボソニック系の図示的な例が提供され、$\rho^{(M)}$における支配固有値の存在下では、関連するシュミット展開のいくつかの項に基づく近似が状態の信頼できる記述を提供することができることを示す。 関連する1・2体の絡み合いスペクトルとエントロピーも分析される。

We analyze a general bipartite-like representation of arbitrary pure states of $N$-indistinguishable particles, valid for both bosons and fermions, based on $M$- and $(N-M)$-particle states. It leads to exact $(M,N-M)$ Schmidt-like expansions of the state for any $M<N$ and is directly related to the isospectral reduced $M$- and $(N-M)$-body density matrices $\rho^{(M)}$ and $\rho^{(N-M)}$. The formalism also allows for reduced yet still exact Schmidt-like decompositions associated with blocks of these densities, in systems having a fixed fraction of the particles in some single particle subspace. Monotonicity of the ensuing $M$-body entanglement under a certain set of quantum operations is also discussed. Illustrative examples in fermionic and bosonic systems with pairing correlations are provided, which show that in the presence of dominant eigenvalues in $\rho^{(M)}$, approximations based on a few terms of the pertinent Schmidt expansion can provide a reliable description of the state. The associated one- and two-body entanglement spectrum and entropies are also analyzed.
翻訳日:2024-01-17 20:42:54 公開日:2024-01-12
# DocFinQA: 長期の金融推論データセット

DocFinQA: A Long-Context Financial Reasoning Dataset ( http://arxiv.org/abs/2401.06915v1 )

ライセンス: Link先を確認
Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Chris Tanner(参考訳) 金融分野における量的推論の研究は、ビジネスやファイナンスにおける決定の重大な影響から、現実的なタスクやデータの使用を必要とする。 金融専門家はしばしば数百ページに及ぶドキュメントと対話するが、ほとんどの研究データセットはこの文脈を劇的に短縮する。 そのために、長期にわたる財務QAタスクを導入する。 我々は既存のFinQAデータセットから7,621質問をフルドキュメントコンテキストで拡張し、各質問の平均コンテキスト長をFinQAの700ワード未満からDocFinQAの123kワードに拡張した。 検索に基づくQAパイプラインと拡張データに基づく長期コンテキスト言語モデルの広範な実験を行う。 この結果から,DocFinQAは最強で最先端のシステムにも課題をもたらすことがわかった。

Research in quantitative reasoning within the financial domain indeed necessitates the use of realistic tasks and data, primarily because of the significant impact of decisions made in business and finance. Financial professionals often interact with documents hundreds of pages long, but most research datasets drastically reduce this context length. To address this, we introduce a long-document financial QA task. We augment 7,621 questions from the existing FinQA dataset with full-document context, extending the average context length for each question from under 700 words in FinQA to 123k words in DocFinQA. We conduct extensive experiments of retrieval-based QA pipelines and long-context language models on the augmented data. Our results show that DocFinQA provides challenges for even the strongest, state-of-the-art systems.
翻訳日:2024-01-17 20:42:27 公開日:2024-01-12
# マイクロホン変換:音響イベント分類におけるデバイス変動の緩和

Microphone Conversion: Mitigating Device Variability in Sound Event Classification ( http://arxiv.org/abs/2401.06913v1 )

ライセンス: Link先を確認
Myeonghoon Ryu, Hongseok Oh, Suji Lee and Han Park(参考訳) 本研究では,音イベント分類(sec)システムのサイクガン利用によるデバイス変動に対する弾力性を向上させるための新しい拡張手法を提案する。 また,本手法を評価するためのユニークなデータセットも提示する。 SECのシステムはますます一般的になってきており、様々な録音装置のオーディオとうまく連携することが重要である。 本手法は,入力スペクトログラムを異なるデバイスに記録したかのように変換することで,トレーニングデータの限られたデバイス多様性に対処する。 実験の結果,本手法は重み付きf1スコアの5.2%から11.5%の既存手法よりも優れていた。 さらに、重み付けされたf1スコアを6.5%から12.8%改善することで、様々な記録装置にまたがる適応性の現在の方法を超えている。

In this study, we introduce a new augmentation technique to enhance the resilience of sound event classification (SEC) systems against device variability through the use of CycleGAN. We also present a unique dataset to evaluate this method. As SEC systems become increasingly common, it is crucial that they work well with audio from diverse recording devices. Our method addresses limited device diversity in training data by enabling unpaired training to transform input spectrograms as if they are recorded on a different device. Our experiments show that our approach outperforms existing methods in generalization by 5.2% - 11.5% in weighted f1 score. Additionally, it surpasses the current methods in adaptability across diverse recording devices by achieving a 6.5% - 12.8% improvement in weighted f1 score.
翻訳日:2024-01-17 20:42:06 公開日:2024-01-12
# 精密医学における分析と懸念 : 統計的展望

Analyses and Concerns in Precision Medicine: A Statistical Perspective ( http://arxiv.org/abs/2401.06899v1 )

ライセンス: Link先を確認
Xiaofei Chen(参考訳) 本稿では,精密医学における統計解析の重要役割について考察する。 複雑な多次元データセットを解釈し、予測モデリング、機械学習アルゴリズム、データ視覚化技術に焦点を当てた統計手法によって、パーソナライズされたヘルスケアがどのように強化されるかについて論じる。 この論文は、特に電子健康記録(EHR)やゲノムデータのような多様なデータソースにおいて、データ統合と解釈の課題に対処する。 また、患者のプライバシーやデータセキュリティといった倫理的配慮も検討している。 さらに、医学における統計分析の進化、精密医療における中核的な統計方法論、分野における今後の方向性を強調し、人工知能(AI)と機械学習(ML)の統合を強調した。

This article explores the critical role of statistical analysis in precision medicine. It discusses how personalized healthcare is enhanced by statistical methods that interpret complex, multidimensional datasets, focusing on predictive modeling, machine learning algorithms, and data visualization techniques. The paper addresses challenges in data integration and interpretation, particularly with diverse data sources like electronic health records (EHRs) and genomic data. It also delves into ethical considerations such as patient privacy and data security. In addition, the paper highlights the evolution of statistical analysis in medicine, core statistical methodologies in precision medicine, and future directions in the field, emphasizing the integration of artificial intelligence (AI) and machine learning (ML).
翻訳日:2024-01-17 20:41:43 公開日:2024-01-12
# 自己組織化ニューラルネットワークによるホルター心電図のロバストピーク検出

Robust Peak Detection for Holter ECGs by Self-Organized Operational Neural Networks ( http://arxiv.org/abs/2110.02381v2 )

ライセンス: Link先を確認
Moncef Gabbouj, Serkan Kiranyaz, Junaid Malik, Muhammad Uzair Zahid, Turker Ince, Muhammad Chowdhury, Amith Khandakar, and Anas Tahir(参考訳) 文献で多くのRピーク検出器が提案されているが、ホルターモニターのような移動心電図(ECG)センサから取得した低品質でノイズの多い信号において、その堅牢性と性能は著しく低下する可能性がある。 近年、この問題は、ホルターモニターで最先端のパフォーマンスレベルを達成した深層1次元畳み込みニューラルネットワーク(cnns)によって解決されているが、それらはリアルタイム処理のために特別な並列化ハードウェアセットアップを必要とする高い複雑性レベルをもたらす。 一方,ネットワーク構成のコンパクト化により性能が低下する。 近年の研究では、CNNの学習性能は、単独の線形ニューロンモデルとの厳密な同質な構成のため制限されていることが示されている。 本研究では,ピーク検出性能とエレガントな計算効率をさらに向上するため,生成ニューロンを用いた1次元自己組織化ONN(Self-ONN)を提案する。 ONNに対する1-D Self-ONNの最も重要な利点は、トレーニング中に各生成ニューロンが最適な演算子を生成する能力を持っているため、ニューロン毎に最適な演算子を探索する必要がなくなる、自己組織化能力である。 中国生理信号チャレンジ-2020(CPSC)データセットの100万回以上のECGビートを用いた実験結果から、提案された1-D Self-ONNは、複雑さの少ない最先端の深部CNNを大幅に上回る可能性があることが示されている。 その結果,CPSCデータセットでは,99.10%のF1スコア,99.79%の感度,98.42%の正の予測値が得られた。

Although numerous R-peak detectors have been proposed in the literature, their robustness and performance levels may significantly deteriorate in low-quality and noisy signals acquired from mobile electrocardiogram (ECG) sensors, such as Holter monitors. Recently, this issue has been addressed by deep 1-D convolutional neural networks (CNNs) that have achieved state-of-the-art performance levels in Holter monitors; however, they pose a high complexity level that requires special parallelized hardware setup for real-time processing. On the other hand, their performance deteriorates when a compact network configuration is used instead. This is an expected outcome as recent studies have demonstrated that the learning performance of CNNs is limited due to their strictly homogenous configuration with the sole linear neuron model. In this study, to further boost the peak detection performance along with an elegant computational efficiency, we propose 1-D Self-Organized ONNs (Self-ONNs) with generative neurons. The most crucial advantage of 1-D Self-ONNs over the ONNs is their self-organization capability that voids the need to search for the best operator set per neuron since each generative neuron has the ability to create the optimal operator during training. The experimental results over the China Physiological Signal Challenge-2020 (CPSC) dataset with more than one million ECG beats show that the proposed 1-D Self-ONNs can significantly surpass the state-of-the-art deep CNN with less computational complexity. Results demonstrate that the proposed solution achieves a 99.10% F1-score, 99.79% sensitivity, and 98.42% positive predictivity in the CPSC dataset, which is the best R-peak detection performance ever achieved.
翻訳日:2024-01-16 00:37:17 公開日:2024-01-12
# 階層的注意を伴う視覚変換器

Vision Transformers with Hierarchical Attention ( http://arxiv.org/abs/2106.03180v4 )

ライセンス: Link先を確認
Yun Liu, Yu-Huan Wu, Guolei Sun, Le Zhang, Ajad Chhatkuli, Luc Van Gool(参考訳) 本稿では,バニラビジョントランスフォーマにおけるマルチヘッドセルフアテンション(mhsa)に関連する計算量と空間の複雑さについて考察する。 この目的のために,階層型MHSA (H-MHSA) を提案する。 具体的には、まず入力画像を通常行われているパッチに分割し、各パッチをトークンとして見る。 次に,提案するh-mhsaは局所パッチ内のトークン関係を学習し,局所関係モデリングを行う。 その後、小さなパッチはより大きなパッチにマージされ、h-mhsaは少数のマージトークンのグローバル依存関係をモデル化する。 最終的に、局所的および大域的注意機能は集約され、強力な表現能力を持つ特徴を得る。 各ステップで限られた数のトークンにのみ注意を向けるので、計算負荷が劇的に低減される。 したがって、H-MHSAはきめ細かい情報を犠牲にすることなく、トークン間のグローバルな関係を効率的にモデル化することができる。 H-MHSAモジュールを組み込んだ階層型トランスフォーマーネットワーク(HAT-Net)のファミリを構築する。 シーン理解における hat-net の優位性を示すために,画像分類,意味セグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,基本的なビジョンタスクに関する広範な実験を行った。 したがって、HAT-Netはビジョントランスフォーマーの新しい視点を提供する。 コードと事前トレーニングされたモデルはhttps://github.com/yun-liu/hat-netで入手できる。

This paper tackles the high computational/space complexity associated with Multi-Head Self-Attention (MHSA) in vanilla vision transformers. To this end, we propose Hierarchical MHSA (H-MHSA), a novel approach that computes self-attention in a hierarchical fashion. Specifically, we first divide the input image into patches as commonly done, and each patch is viewed as a token. Then, the proposed H-MHSA learns token relationships within local patches, serving as local relationship modeling. Then, the small patches are merged into larger ones, and H-MHSA models the global dependencies for the small number of the merged tokens. At last, the local and global attentive features are aggregated to obtain features with powerful representation capacity. Since we only calculate attention for a limited number of tokens at each step, the computational load is reduced dramatically. Hence, H-MHSA can efficiently model global relationships among tokens without sacrificing fine-grained information. With the H-MHSA module incorporated, we build a family of Hierarchical-Attention-based Transformer Networks, namely HAT-Net. To demonstrate the superiority of HAT-Net in scene understanding, we conduct extensive experiments on fundamental vision tasks, including image classification, semantic segmentation, object detection, and instance segmentation. Therefore, HAT-Net provides a new perspective for vision transformers. Code and pretrained models are available at https://github.com/yun-liu/HAT-Net.
翻訳日:2024-01-16 00:36:47 公開日:2024-01-12
# マルチプレイヤーバンド学習 : 競争から協力へ

Multiplayer Bandit Learning, from Competition to Cooperation ( http://arxiv.org/abs/1908.01135v4 )

ライセンス: Link先を確認
Simina Br\^anzei and Yuval Peres(参考訳) 確率的多腕バンディットモデルは探索と搾取の間のトレードオフを捉えている。 このトレードオフに対する競争と協力の効果について検討する。 k$の腕とアリスとボブの2人のプレーヤーがいるとしよう。 各ラウンドにおいて、各プレイヤーは腕を引っ張り、その結果得られる報酬を受け取り、他のプレイヤーの選択を観察するが、報酬は与えない。 Aliceのユーティリティは$\Gamma_A + \lambda \Gamma_B$(Bobも同様)であり、$\Gamma_A$はAliceの総報酬であり、$\lambda \in [-1, 1]$は協力パラメータである。 プレイヤーは$\lambda = -1$でゼロサムゲームに出場し、$\lambda = 1$で完全に協力し、$\lambda = 0$では中立である。 このモデルは、通常プレイヤーが互いの報酬を観察する戦略実験に関する経済学文献と関連している。 割引係数 $\beta$ で、Gittins インデックスはリスクのあるアームと予測可能なアーム、成功確率 $p$ の比較に1人のプレイヤー問題を還元する。 プレイヤーが腕の間に無関心な$p$の値は、Gittins index $g = g(\mu,\beta) > m$である。 競技者が単一のプレイヤーより少ない探索を行うことを示す:$p^* \in (m, g)$なので、すべての$p > p^*$に対して、プレイヤーは予測可能なアームに留まる。 しかし、プレイヤーは目立たない:彼らはまだ約$p > m$を求めて探索している。 一方、協力的なプレイヤーは1人以上のプレイヤーを探索する。 また、中立プレイヤーは互いに学習し、単独でプレイするよりも厳密に高い報酬を受け取り、全ての$p\in (p^*, g)$に対して、$p^*$が競合するケースのしきい値であることを示す。 最後に、競争相手と中立相手のプレイヤーは、nash平衡ごとに同じ腕に落ち着くが、これは協力するプレイヤーには失敗する可能性がある。

The stochastic multi-armed bandit model captures the tradeoff between exploration and exploitation. We study the effects of competition and cooperation on this tradeoff. Suppose there are $k$ arms and two players, Alice and Bob. In every round, each player pulls an arm, receives the resulting reward, and observes the choice of the other player but not their reward. Alice's utility is $\Gamma_A + \lambda \Gamma_B$ (and similarly for Bob), where $\Gamma_A$ is Alice's total reward and $\lambda \in [-1, 1]$ is a cooperation parameter. At $\lambda = -1$ the players are competing in a zero-sum game, at $\lambda = 1$, they are fully cooperating, and at $\lambda = 0$, they are neutral: each player's utility is their own reward. The model is related to the economics literature on strategic experimentation, where usually players observe each other's rewards. With discount factor $\beta$, the Gittins index reduces the one-player problem to the comparison between a risky arm, with a prior $\mu$, and a predictable arm, with success probability $p$. The value of $p$ where the player is indifferent between the arms is the Gittins index $g = g(\mu,\beta) > m$, where $m$ is the mean of the risky arm. We show that competing players explore less than a single player: there is $p^* \in (m, g)$ so that for all $p > p^*$, the players stay at the predictable arm. However, the players are not myopic: they still explore for some $p > m$. On the other hand, cooperating players explore more than a single player. We also show that neutral players learn from each other, receiving strictly higher total rewards than they would playing alone, for all $ p\in (p^*, g)$, where $p^*$ is the threshold from the competing case. Finally, we show that competing and neutral players eventually settle on the same arm in every Nash equilibrium, while this can fail for cooperating players.
翻訳日:2024-01-16 00:36:22 公開日:2024-01-12
# 量子校正とキャラクタリゼーションを行うオープンソースフレームワークを目指して

Towards an open-source framework to perform quantum calibration and characterization ( http://arxiv.org/abs/2303.10397v2 )

ライセンス: Link先を確認
Andrea Pasquale, Stavros Efthymiou, Sergi Ramos-Calderer, Jadwiga Wilkens, Ingo Roth and Stefano Carrazza(参考訳) 本稿ではQibocalフレームワークに基づく量子処理ユニット(QPU)のキャリブレーションとキャラクタリゼーションを行うオープンソースソフトウェアであるQibocalを紹介する。 Qibocalは、自己ホスト型QPU用に特別に設計されており、ハードウェア抽象化のあらゆるレベルに対して、キャラクタリゼーションとキャリブレーションルーチンを開発、デプロイ、配布するための基盤を提供する。 Qibocal はモジュラ QPU プラットフォームに依存しないアプローチに基づいており、他の量子技術の拡張の可能性のある量子ビットを超伝導するための汎用ツールキットを提供する。 このようなモジュールの必要性を動機づけた後、プログラムの流れを説明し、QPU校正の実際の使用例を示す。 また,レポートの自動生成やライブプロットなど,ライブラリが提供する追加機能も紹介する。

In this proceedings we present Qibocal, an open-source software package for calibration and characterization of quantum processing units (QPUs) based on the Qibo framework. Qibocal is specifically designed for self-hosted QPUs and provides the groundwork to easily develop, deploy and distribute characterization and calibration routines for all levels of hardware abstraction. Qibocal is based on a modular QPU platform agnostic approach and it provides a general purpose toolkit for superconducting qubits with the possibility of extensions to other quantum technologies. After motivating the need for such a module, we explain the program's flow and show examples of actual use for QPU calibration. We also showcase additional features provided by the library including automatic report generation and live plotting.
翻訳日:2024-01-16 00:33:21 公開日:2024-01-12
# 広二重ポテンシャルのダイナミクスによるマクロ量子重ね合わせ

Macroscopic Quantum Superpositions via Dynamics in a Wide Double-Well Potential ( http://arxiv.org/abs/2303.07959v3 )

ライセンス: Link先を確認
Marc Roda-Llordes, Andreu Riera-Campeny, Davide Candoli, Piotr T. Grochowski, Oriol Romero-Isart(参考訳) 本研究では, 量子状態における浮遊粒子の質量中心の高速合成に関する実験的提案を行い, ゼロ点運動よりも長いスケールで非局在化状態であり, 古典的類似性を持たない状態について述べる。 この状態は、高調波トラップが突然切り替わった後、粒子を十分に純粋な量子状態へ初期冷却した後、静的な二重ウェルポテンシャルで進化させることで得られる。 ナノ粒子とマイクロ粒子の共振実験に関係のあるノイズとデコヒーレンスを徹底的に解析する。 この文脈では、ノイズとデコヒーレンスの集合的源の影響を緩和するために、2つの粒子がそれぞれのポテンシャル井戸で進化する可能性を強調している。 提案の汎用性と拡張性は,単一原子,イオン,ボース・アインシュタイン凝縮など,幅広い系での実装に適している。 この結果から,非局在化量子状態において,ソース質量が生成する重力場を実験的に探索する方法が確立された。

We present an experimental proposal for the rapid preparation of the center of mass of a levitated particle in a macroscopic quantum state, that is a state delocalized over a length scale much larger than its zero-point motion and that has no classical analog. This state is prepared by letting the particle evolve in a static double-well potential after a sudden switchoff of the harmonic trap, following initial center-of-mass cooling to a sufficiently pure quantum state. We provide a thorough analysis of the noise and decoherence that is relevant to current experiments with levitated nano- and microparticles. In this context, we highlight the possibility of using two particles, one evolving in each potential well, to mitigate the impact of collective sources of noise and decoherence. The generality and scalability of our proposal make it suitable for implementation with a wide range of systems, including single atoms, ions, and Bose-Einstein condensates. Our results have the potential to enable the generation of macroscopic quantum states at unprecedented scales of length and mass, thereby paving the way for experimental exploration of the gravitational field generated by a source mass in a delocalized quantum state.
翻訳日:2024-01-16 00:33:09 公開日:2024-01-12
# SEMv2:インスタンスセグメンテーションに基づくテーブル分離線検出

SEMv2: Table Separation Line Detection Based on Instance Segmentation ( http://arxiv.org/abs/2303.04384v2 )

ライセンス: Link先を確認
Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Jianshu Zhang, Huihui Zhu, Baocai Yin, Bing Yin and Cong Liu(参考訳) テーブル構造認識は、機械がテーブルを理解するために欠かせない要素である。 その主な目的はテーブルの内部構造を特定することである。 それでも、その構造とスタイルの複雑さと多様性のため、表形式のデータを機械が理解できる構造化形式に解析することは極めて困難である。 本研究では,スプリット・アンド・マージ方式の原理に従い,semv2 (sem: split, embedded and merge) と呼ばれる正確な表構造認識器を提案する。 従来の「スプリット」段階とは違って、テーブル分離ラインのインスタンスレベルの識別問題に対処し、条件付き畳み込みに基づくテーブル分離ライン検出戦略を導入することを目指している。 具体的には、``split''をトップダウンで設計し、まずテーブル分離ラインインスタンスを検出し、次に各インスタンスのテーブル分離ラインマスクを動的に予測する。 テーブル分離線マスクを行方向/列方向に加工することにより、最終テーブル分離線形状を正確に得ることができる。 また,semv2を包括的に評価するために,iflytabと呼ばれるテーブル構造認識のためのより難解なデータセットを提案する。 公開データセット(SciTSR、PubTabNet、iFLYTABなど)に関する大規模な実験は、提案手法の有効性を実証している。 コードとiFLYTABデータセットはhttps://github.com/ZZR8066/SEMv2で公開されている。

Table structure recognition is an indispensable element for enabling machines to comprehend tables. Its primary purpose is to identify the internal structure of a table. Nevertheless, due to the complexity and diversity of their structure and style, it is highly challenging to parse the tabular data into a structured format that machines can comprehend. In this work, we adhere to the principle of the split-and-merge based methods and propose an accurate table structure recognizer, termed SEMv2 (SEM: Split, Embed and Merge). Unlike the previous works in the ``split'' stage, we aim to address the table separation line instance-level discrimination problem and introduce a table separation line detection strategy based on conditional convolution. Specifically, we design the ``split'' in a top-down manner that detects the table separation line instance first and then dynamically predicts the table separation line mask for each instance. The final table separation line shape can be accurately obtained by processing the table separation line mask in a row-wise/column-wise manner. To comprehensively evaluate the SEMv2, we also present a more challenging dataset for table structure recognition, dubbed iFLYTAB, which encompasses multiple style tables in various scenarios such as photos, scanned documents, etc. Extensive experiments on publicly available datasets (e.g. SciTSR, PubTabNet and iFLYTAB) demonstrate the efficacy of our proposed approach. The code and iFLYTAB dataset are available at https://github.com/ZZR8066/SEMv2.
翻訳日:2024-01-16 00:32:38 公開日:2024-01-12
# 量子乱数発生器のリアルタイム後処理の改善

Improved Real-time Post-Processing for Quantum Random Number Generators ( http://arxiv.org/abs/2301.08621v2 )

ライセンス: Link先を確認
Qian Li, Xiaoming Sun, Xingjian Zhang, and Hongyi Zhou(参考訳) ランダム性抽出は暗号と理論計算機科学の重要な問題である。 近年の量子暗号の急速な発展に伴い、量子敵の存在下でのセキュリティ問題に対処する量子耐性乱数抽出も広く研究されている。 入力された生データを最小エントロピー源として特徴付ける従来の量子保護ランダム性抽出器とは対照的に,信頼度の高い多数の量子乱数生成器が生成する入力生データを,いわゆるリバースブロック源として特徴付けることができる。 この事実により、我々は改良された抽出器を設計できる。 具体的には,実時間ブロックワイズ抽出を実現するリバースブロック源のための2つの新しい量子耐性ランダムネス抽出器を提案する。 一般的なミンエントロピー乱数抽出器と比較して,本設計は抽出速度が著しく向上し,同じ種子長の出力データ長が長くなる。 さらに、入力された生データ全体が利用可能になるのを待たずに、生データをオンザフライで処理するオンラインアルゴリズムの特性も享受している。 これらの特徴により、実用的な量子乱数生成器のリアルタイム後処理に適切な設計が選択できる。 広範に使用される量子乱数生成器によって生成された生データに抽出器を適用することで,300 gbps のシミュレーション抽出速度を実現する。

Randomness extraction is a key problem in cryptography and theoretical computer science. With the recent rapid development of quantum cryptography, quantum-proof randomness extraction has also been widely studied, addressing the security issues in the presence of a quantum adversary. In contrast with conventional quantum-proof randomness extractors characterizing the input raw data as min-entropy sources, we find that the input raw data generated by a large class of trusted-device quantum random number generators can be characterized as the so-called reverse block source. This fact enables us to design improved extractors. Specifically, we propose two novel quantum-proof randomness extractors for reverse block sources that realize real-time block-wise extraction. In comparison with the general min-entropy randomness extractors, our designs achieve a significantly higher extraction speed and a longer output data length with the same seed length. In addition, they enjoy the property of online algorithms, which process the raw data on the fly without waiting for the entire input raw data to be available. These features make our design an adequate choice for the real-time post-processing of practical quantum random number generators. Applying our extractors to the raw data generated by a widely used quantum random number generator, we achieve a simulated extraction speed as high as $300$ Gbps.
翻訳日:2024-01-16 00:30:52 公開日:2024-01-12
# 量子コンピュータにおける指数的に少ない量子ビットを用いたNP-Hard問題の解法

Solving various NP-Hard problems using exponentially fewer qubits on a Quantum Computer ( http://arxiv.org/abs/2301.06978v2 )

ライセンス: Link先を確認
Yagnik Chatterjee, Eric Bourreau, Marko J. Ran\v{c}i\'c(参考訳) NPハード問題は一般多項式時間アルゴリズムによって正確に解けるとは考えられていない。 このような組合せ問題に対処するハイブリッド量子古典アルゴリズムは、ここ数年で大きな関心を集めている。 このようなアルゴリズムは本質的にヒューリスティックであり、近似解を得ることを目指している。 計算時間および/または大きな問題を扱う能力の重要な改善は、この点において量子コンピューティングの主要な約束である。 しかし、ハードウェアはまだ初期段階であり、現在のNISQ(Noisy Intermediate Scale Quantum)コンピュータは産業的に関係のある問題を最適化できない。 さらに、量子ビットの保存と絡み合いの導入は極端な物理的条件を必要とする。 QAOAのような量子最適化アルゴリズムの問題は、問題のサイズに応じて線形にスケールすることである。 本稿では,ゲート型量子コンピュータにおける前例のないスケールの最適化問題を処理するために,対数的に問題サイズにスケールする独自の手法を構築した。 アルゴリズムの性能をテストするために、まず、最大カット、最小分割、最大傾き、最大重み付き独立セットというNPハード問題に適用する方法を見つけます。 その後、これらのアルゴリズムは、100以上のノードのグラフサイズを持つ量子シミュレータと、256のグラフサイズまでの実際の量子コンピュータでテストされる。 我々の知る限り、これらはNISQデバイス上で実行された史上最大の現実的な組合せ最適化問題であり、以前の問題サイズを10倍近く上回っている。

NP-hard problems are not believed to be exactly solvable through general polynomial time algorithms. Hybrid quantum-classical algorithms to address such combinatorial problems have been of great interest in the past few years. Such algorithms are heuristic in nature and aim to obtain an approximate solution. Significant improvements in computational time and/or the ability to treat large problems are some of the principal promises of quantum computing in this regard. The hardware, however, is still in its infancy and the current Noisy Intermediate Scale Quantum (NISQ) computers are not able to optimize industrially relevant problems. Moreover, the storage of qubits and introduction of entanglement require extreme physical conditions. An issue with quantum optimization algorithms such as QAOA is that they scale linearly with problem size. In this paper, we build upon a proprietary methodology which scales logarithmically with problem size - opening an avenue for treating optimization problems of unprecedented scale on gate-based quantum computers. In order to test the performance of the algorithm, we first find a way to apply it to a handful of NP-hard problems: Maximum Cut, Minimum Partition, Maximum Clique, Maximum Weighted Independent Set. Subsequently, these algorithms are tested on a quantum simulator with graph sizes of over a hundred nodes and on a real quantum computer up to graph sizes of 256. To our knowledge, these constitute the largest realistic combinatorial optimization problems ever run on a NISQ device, overcoming previous problem sizes by almost tenfold.
翻訳日:2024-01-16 00:30:31 公開日:2024-01-12
# 画像インパインティングによる道路故障地図の修正

Correcting Faulty Road Maps by Image Inpainting ( http://arxiv.org/abs/2211.06544v3 )

ライセンス: Link先を確認
Soojung Hong, Kwanghee Choi(参考訳) 道路網の維持は労働集約的であり,大規模な高解像度衛星画像の蓄積とコンピュータビジョンの進歩により,この現実的な問題を解決するために多くの自動道路抽出手法が導入された。 しかし,実際のサービスにおける道路地図抽出の完全自動化には限界がある。 したがって、多くのサービスは抽出した道路地図を後処理するために2段階のヒューマン・イン・ザ・ループ・システムを使っている。 本論文は, 道路地図を複雑な道路ジオメトリに固定するための新しいイメージインペインティング手法を, 道路形状抽出モデルに適用可能な手法として導入し, 後者のステップにのみ焦点をあてた。 提案手法は, 直線道路や曲がりくねった道路, T-ジャンクション, 交差点など, 様々な実世界の道路測地における有効性を示す。

As maintaining road networks is labor-intensive, many automatic road extraction approaches have been introduced to solve this real-world problem, fueled by the abundance of large-scale high-resolution satellite imagery and advances in computer vision. However, their performance is limited for fully automating the road map extraction in real-world services. Hence, many services employ the two-step human-in-the-loop system to post-process the extracted road maps: error localization and automatic mending for faulty road maps. Our paper exclusively focuses on the latter step, introducing a novel image inpainting approach for fixing road maps with complex road geometries without custom-made heuristics, yielding a method that is readily applicable to any road geometry extraction model. We demonstrate the effectiveness of our method on various real-world road geometries, such as straight and curvy roads, T-junctions, and intersections.
翻訳日:2024-01-16 00:28:41 公開日:2024-01-12
# 不規則サンプル時系列の確率補間のためのトリプルフォーマ

Tripletformer for Probabilistic Interpolation of Irregularly sampled Time Series ( http://arxiv.org/abs/2210.02091v2 )

ライセンス: Link先を確認
Vijaya Krishna Yalavarthi, Johannes Burchert, Lars Schmidt-thieme(参考訳) 不規則にサンプリングされた時系列データは、医療、天文学、気候科学など多くの分野で観測されている。 このような時系列の補間は、根本原因分析や診断などのタスクや、不規則データやノイズデータの平滑化に不可欠である。 この課題に対処するために,不規則サンプル時系列の確率的補間のための,"Tripletformer"と呼ばれる新しいエンコーダデコーダアーキテクチャを提案する。 この注意に基づくモデルは、各要素が3重の時間、チャネル、および値から構成される観測セットで動作する。 tripletformerのエンコーダとデコーダは、注意層と完全に接続された層で設計されており、モデルが提示されたセット要素を効果的に処理することができる。 複数の実世界および合成データセットのベースラインに対してTripletformerを評価し,より正確で一定の補間を行うことを示す。 その結果,Tripletformerを用いた場合,実世界のデータセットでは最大32%,合成データセットでは85%の負の対数誤差が改善された。

Irregularly sampled time series data with missing values is observed in many fields like healthcare, astronomy, and climate science. Interpolation of these types of time series is crucial for tasks such as root cause analysis and medical diagnosis, as well as for smoothing out irregular or noisy data. To address this challenge, we present a novel encoder-decoder architecture called "Tripletformer" for probabilistic interpolation of irregularly sampled time series with missing values. This attention-based model operates on sets of observations, where each element is composed of a triple of time, channel, and value. The encoder and decoder of the Tripletformer are designed with attention layers and fully connected layers, enabling the model to effectively process the presented set elements. We evaluate the Tripletformer against a range of baselines on multiple real-world and synthetic datasets and show that it produces more accurate and certain interpolations. Results indicate an improvement in negative loglikelihood error by up to 32% on real-world datasets and 85% on synthetic datasets when using the Tripletformer compared to the next best model.
翻訳日:2024-01-16 00:28:23 公開日:2024-01-12
# 音声分類のためのスペクトログラムの時間分解能学習

Learning Temporal Resolution in Spectrogram for Audio Classification ( http://arxiv.org/abs/2210.01719v3 )

ライセンス: Link先を確認
Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, Mark D. Plumbley(参考訳) オーディオスペクトログラム(audio spectrogram)は、オーディオ分類に広く使われている時間周波数表現である。 音声スペクトログラムの重要な特徴の1つは時間分解能であり、これはショートタイムフーリエ変換(STFT)で使用されるホップサイズに依存する。 以前の作品では、ホップサイズを一定値(例えば10ms)と仮定している。 しかし、固定時間分解能は異なる種類の音に対して常に最適であるとは限らない。 時間分解能は分類精度だけでなく計算コストにも影響を及ぼす。 本稿では,音声分類のための時間分解能の識別が可能な新しい手法DiffResを提案する。 固定ホップサイズで計算されたスペクトログラムが与えられた場合、DiffResは重要なフレームを保持しながら非必要時間フレームをマージする。 DiffResはオーディオスペクトログラムと分類器の間の"ドロップイン"モジュールとして機能し、分類タスクと共同で最適化できる。 音響特性としてメル・スペクトログラムを用い、5つの音声分類タスクにおいてDiffResを評価する。 固定時間分解能を用いた従来の手法と比較して、DiffResベースの手法は、少なくとも25%の計算コスト削減で同等またはより良い分類精度を達成することができる。 さらに,DiffResは,入力音響特性の時間分解能を高めることで,計算コストを増大させることなく,分類精度を向上させることができることを示す。

The audio spectrogram is a time-frequency representation that has been widely used for audio classification. One of the key attributes of the audio spectrogram is the temporal resolution, which depends on the hop size used in the Short-Time Fourier Transform (STFT). Previous works generally assume the hop size should be a constant value (e.g., 10 ms). However, a fixed temporal resolution is not always optimal for different types of sound. The temporal resolution affects not only classification accuracy but also computational cost. This paper proposes a novel method, DiffRes, that enables differentiable temporal resolution modeling for audio classification. Given a spectrogram calculated with a fixed hop size, DiffRes merges non-essential time frames while preserving important frames. DiffRes acts as a "drop-in" module between an audio spectrogram and a classifier and can be jointly optimized with the classification task. We evaluate DiffRes on five audio classification tasks, using mel-spectrograms as the acoustic features, followed by off-the-shelf classifier backbones. Compared with previous methods using the fixed temporal resolution, the DiffRes-based method can achieve the equivalent or better classification accuracy with at least 25% computational cost reduction. We further show that DiffRes can improve classification accuracy by increasing the temporal resolution of input acoustic features, without adding to the computational cost.
翻訳日:2024-01-16 00:28:03 公開日:2024-01-12
# 弱SINDYサロゲートモデルの収束性

Convergence of weak-SINDy Surrogate Models ( http://arxiv.org/abs/2209.15573v3 )

ライセンス: Link先を確認
Benjamin Russo and M. Paul Laiu(参考訳) 本稿では,非線形ダイナミクス(sindy)法のスパース同定の変種によって生成されたサロゲートモデルの深い誤差解析を行う。 まず,非線形システム同定手法であるsindy, weak-sindy, and the occupation kernel法の概要について述べる。 力学が基底関数の集合の有限線型結合であるという仮定の下で、これらの方法は係数を回復する行列方程式を確立する。 これらの手法の構造的類似性を照らし,弱シンディ技法の射影特性を確立する。 次に,弱シンディの簡易版で生成されたサロゲートモデルの誤差を解析する。 特に、解によって与えられる合成作用素の有界性(boundedness)の仮定の下で、 (i)代理ダイナミクスは真のダイナミクスに向かって収束し、 (ii) 代理モデルの解は真の解に十分近い。 最後に、偏微分方程式(PDE)の代理モデルを構築するために、弱SINDyサロゲートモデリングと適切な直交分解(POD)の組み合わせについて論じる。

In this paper, we give an in-depth error analysis for surrogate models generated by a variant of the Sparse Identification of Nonlinear Dynamics (SINDy) method. We start with an overview of a variety of non-linear system identification techniques, namely, SINDy, weak-SINDy, and the occupation kernel method. Under the assumption that the dynamics are a finite linear combination of a set of basis functions, these methods establish a matrix equation to recover coefficients. We illuminate the structural similarities between these techniques and establish a projection property for the weak-SINDy technique. Following the overview, we analyze the error of surrogate models generated by a simplified version of weak-SINDy. In particular, under the assumption of boundedness of a composition operator given by the solution, we show that (i) the surrogate dynamics converges towards the true dynamics and (ii) the solution of the surrogate model is reasonably close to the true solution. Finally, as an application, we discuss the use of a combination of weak-SINDy surrogate modeling and proper orthogonal decomposition (POD) to build a surrogate model for partial differential equations (PDEs).
翻訳日:2024-01-16 00:27:42 公開日:2024-01-12
# 分散データにおける協調因果推論

Collaborative causal inference on distributed data ( http://arxiv.org/abs/2208.07898v5 )

ライセンス: Link先を確認
Yuji Kawamata, Ryoki Motai, Yukihiko Okada, Akira Imakura, Tetsuya Sakurai(参考訳) 近年,分散データのプライバシ保護に伴う因果推論技術の発展が注目されている。 既存の分散データの方法の多くは、被験者の欠如(サンプル)を解決することに集中しており、治療効果の推定においてランダムなエラーを減らすことしかできない。 本研究では,データ協調実験(DC-QE)を提案し,被験者と共変者の両方の欠如を解消し,ランダムな誤差と推定の偏りを低減させる。 本手法は,ローカルパーティの個人データから次元的に縮小した中間表現を構築し,プライバシ保存のためにプライベートデータの代わりに中間表現を共有すること,共有中間表現からプロパシティスコアを推定すること,最後にプロパサリティスコアから治療効果を推定することを含む。 実世界の人工データと実世界のデータの両方に関する数値実験により,本手法が個人分析よりも優れた推定結果をもたらすことを確認した。 次元減少は,個人データ内の情報を失い,性能低下を引き起こすが,中間表現の共有によって被検者不足を解消し,共変量化によって性能が改善され,次元減少に起因する劣化を克服できる。 外的妥当性は必ずしも保証されていないが,本研究の結果はDC-QEが有望な方法であることを示している。 この手法を広く利用することで、中間表現をオープンデータとして公開することで、研究者が因果関係を発見し、知識ベースを蓄積するのに役立つ。

In recent years, the development of technologies for causal inference with privacy preservation of distributed data has gained considerable attention. Many existing methods for distributed data focus on resolving the lack of subjects (samples) and can only reduce random errors in estimating treatment effects. In this study, we propose a data collaboration quasi-experiment (DC-QE) that resolves the lack of both subjects and covariates, reducing random errors and biases in the estimation. Our method involves constructing dimensionality-reduced intermediate representations from private data from local parties, sharing intermediate representations instead of private data for privacy preservation, estimating propensity scores from the shared intermediate representations, and finally, estimating the treatment effects from propensity scores. Through numerical experiments on both artificial and real-world data, we confirm that our method leads to better estimation results than individual analyses. While dimensionality reduction loses some information in the private data and causes performance degradation, we observe that sharing intermediate representations with many parties to resolve the lack of subjects and covariates sufficiently improves performance to overcome the degradation caused by dimensionality reduction. Although external validity is not necessarily guaranteed, our results suggest that DC-QE is a promising method. With the widespread use of our method, intermediate representations can be published as open data to help researchers find causalities and accumulate a knowledge base.
翻訳日:2024-01-16 00:27:26 公開日:2024-01-12
# ランダム共効率な純粋状態、密度作用素形式論とゼー問題

Random-coefficient pure states, the density operator formalism and the Zeh problem ( http://arxiv.org/abs/2201.03248v4 )

ライセンス: Link先を確認
Alain Deville, Yannick Deville(参考訳) 量子エレクトロニクスは量子情報処理の分野の発展に大きく関わっている。 この領域では、ブラインド量子源分離とブラインド量子プロセストモグラフィ(英語版)の成長により、ヒルベルト空間の形式主義の中でランダム-係数純状態(RCPS)の概念が導入されるようになった。 本稿ではまず,導入に必要な実験状況を述べる。 統計的混合に対するフォン・ノイマンのアプローチは観測可能な確率の統計的性質を考慮しているが、RCPSの存在下では、測定結果の確率の統計的性質を操作しなければならない。 フォン・ノイマンの統計混合の存在下では、密度作用素 \r{ho} 形式論の一貫性は仮定に基づいていることを思い出す。 RCPSの概念の興味は、スピン1/2の単純なケースで2つのインスタンスを通して示される。 量子力学の利用者による \r{ho} 形式主義の最も頻繁な使用は、与えられた RCPS と密度演算子形式主義の言語の間のいくつかの関係を確立する動機であり、また、 RCPS によって記述された状況が \r{ho} の導入につながったものとは異なることを念頭に置いている。 フォン・ノイマン統計混合物とrcpsの双方と異なる状況において、ランダウ=ファインマンによる \r{ho} の使用が動員されることが確立されている。 確率変数の高次モーメントの使用は、1970年にzehによって既に特定された問題を解決するのに役立つことが示されている。

Quantum electronics is significantly involved in the development of the field of quantum information processing. In this domain, the growth of Blind Quantum Source Separation and Blind Quantum Process Tomography has led, within the formalism of the Hilbert space, to the introduction of the concept of a Random-Coefficient Pure State, or RCPS: the coefficients of its development in the chosen basis are random variables. This paper first describes an experimental situation necessitating its introduction. While the von Neumann approach to a statistical mixture considers statistical properties of an observable, in the presence of an RCPS one has to manipulate statistical properties of probabilities of measurement outcomes, these probabilities then being themselves random variables. It is recalled that, in the presence of a von Neumann statistical mixture, the consistency of the density operator \r{ho} formalism is based on a postulate. The interest of the RCPS concept is presented in the simple case of a spin 1/2, through two instances. The most frequent use of the \r{ho} formalism by users of quantum mechanics is a motivation for establishing some links between a given RCPS and the language of the density operator formalism, while keeping in mind that the situation described by an RCPS is different from the one which has led to the introduction of \r{ho}. It is established that the Landau - Feynman use of \r{ho} is mobilized in a situation differing from both the von Neumann statistical mixture and the RCPS. It is shown that the use of the higher-order moments of a well-chosen random variable helps solving a problem already identified by Zeh in 1970.
翻訳日:2024-01-16 00:27:00 公開日:2024-01-12
# マーカーレス皮膚登録に基づくUS \&MRI画像融合

US \& MRI Image Fusion Based on Markerless Skin Registration ( http://arxiv.org/abs/2307.14288v2 )

ライセンス: Link先を確認
Martina Paccini, Giacomo Paschina, Stefano De Beni, Giuseppe Patan\`e(参考訳) 本稿では,3次元CT/MR画像とリアルタイム超音波(US)取得を組み合わせた,革新的な自動核融合イメージングシステムを提案する。 このシステムは、外部の物理的マーカーや複雑なトレーニングの必要性をなくし、異なる経験レベルを持つ医師に画像融合を可能にする。 統合システムには、患者固有の表面取得のためのポータブル3Dカメラ、電磁トラッキングシステム、米国コンポーネントが含まれる。 融合アルゴリズムは、皮膚のセグメンテーションと硬直的共存という2つの主要な部分から構成される。 共同登録ソフトウェアは、CT/MR画像から抽出した表面を患者固有の座標と整合させ、迅速かつ効果的な融合を促進する。 臨床環境を含む様々な環境での実験テストは、システムの正確性、計算効率、雑音のロバスト性、オペレータの独立性を検証する。 共同登録誤差は、許容範囲=1$cm以下である。

This paper presents an innovative automatic fusion imaging system that combines 3D CT/MR images with real-time ultrasound (US) acquisition. The system eliminates the need for external physical markers and complex training, making image fusion feasible for physicians with different experience levels. The integrated system involves a portable 3D camera for patient-specific surface acquisition, an electromagnetic tracking system, and US components. The fusion algorithm comprises two main parts: skin segmentation and rigid co-registration, both integrated into the US machine. The co-registration software aligns the surface extracted from CT/MR images with patient-specific coordinates, facilitating rapid and effective fusion. Experimental testing in different settings, including the clinical environment, validates the system's accuracy, computational efficiency, noise robustness, and operator independence. The co-registration error remains under the acceptable range of~$1$ cm.
翻訳日:2024-01-16 00:19:47 公開日:2024-01-12
# データセンターにおける検証可能なサステナビリティ

Verifiable Sustainability in Data Centers ( http://arxiv.org/abs/2307.11993v3 )

ライセンス: Link先を確認
Syed Rafiul Hussain, Patrick McDaniel, Anshul Gandhi, Kanad Ghose, Kartik Gopalan, Dongyoon Lee, Yu David Liu, Zhenhua Liu, Shuai Mu and Erez Zadok(参考訳) データセンターには、実施と運用の両方において重要なエネルギー需要があり、持続可能性に悪影響を及ぼす。 検証可能なサステナビリティデータの収集、集約、報告のための現在の技術とツールは、サイバー攻撃や誤用に対して脆弱であり、新しいセキュリティとプライバシ保護ソリューションを必要とする。 本稿では,これらの要求に対処するためのセキュリティ上の課題と研究の方向性について概説する。

Data centers have significant energy needs, both embodied and operational, affecting sustainability adversely. The current techniques and tools for collecting, aggregating, and reporting verifiable sustainability data are vulnerable to cyberattacks and misuse, requiring new security and privacy-preserving solutions. This paper outlines security challenges and research directions for addressing these pressing requirements.
翻訳日:2024-01-16 00:19:32 公開日:2024-01-12
# 量子ビットおよび2レベル系のソロモン方程式:非ポアソニアン量子ジャンプの考察

Solomon equations for qubit and two-level systems: insights into non-Poissonian quantum jumps ( http://arxiv.org/abs/2307.06900v2 )

ライセンス: Link先を確認
Martin Spiecker, Andrei I. Pavlov, Alexander Shnirman, Ioan M. Pop(参考訳) 我々は、離散二段階系(TLS)環境に結合した量子ビット、すなわち中心スピンの結合緩和を測定し、モデル化する。 もしTLSが量子ビットよりもずっと長寿命であれば、非指数緩和と非ポアソン量子ジャンプが観察できる。 大量のTLSの制限下では、緩和は超伝導フラクソニウム量子ビットの測定で確認される電力法則に従う可能性が高い。 さらに、観測された緩和と量子ジャンプ統計はソロモン方程式によって記述され、任意の数のTLSに対して一般リンドブラッド方程式から導出する。 また、微分確率シュリンガー方程式を用いて、非ポアソン量子ジャンプ統計を再現する方法を示す。 測定された量子ジャンプ統計が、量子測定バックアクションを無視したソロモン方程式によって再現できるという事実は、量子から古典への遷移を示唆する。

We measure and model the combined relaxation of a qubit, a.k.a. central spin, coupled to a discrete two-level system (TLS) environment. If the TLSs are much longer lived than the qubit, non-exponential relaxation and non-Poissonian quantum jumps can be observed. In the limit of large numbers of TLSs the relaxation is likely to follow a power law, which we confirm with measurements on a superconducting fluxonium qubit. Moreover, the observed relaxation and quantum jump statistics are described by the Solomon equations, for which we present a derivation starting from the general Lindblad equation for an arbitrary number of TLSs. We also show how to reproduce the non-Poissonian quantum jump statistics using a diffusive stochastic Schr\"odinger equation. The fact that the measured quantum jump statistics can be reproduced by the Solomon equations, which ignore the quantum measurement back action, hints at a quantum-to-classical transition.
翻訳日:2024-01-16 00:19:26 公開日:2024-01-12
# マルチターゲット逆追跡のための拡散モデル

Diffusion Models for Multi-target Adversarial Tracking ( http://arxiv.org/abs/2307.06244v2 )

ライセンス: Link先を確認
Sean Ye, Manisha Natarajan, Zixuan Wu, Matthew Gombolay(参考訳) 標的追跡は現実世界のシナリオにおいて重要な役割を担い、特に麻薬取引の対話では敵の標的の位置に関する知識が限られている。 自律追跡システムの改善により、無人航空機、水上、および水中の車両は、有人表面、半潜水可能、および空中の船舶を使用する密輸業者の干渉を支援することができる。 無人ドローンの普及に伴い、安全と安全のためには正確な自律目標推定がさらに重要である。 本稿では, 従来のスパース状態情報を利用して, 敵位置の総合的予測を生成するアプローチである, CADENCE(Constrained Agent-based Diffusion for Enhanced Multi-Agent Tracking)を提案する。 本手法の有効性を評価するために, 拡散モデルのモンテカルロサンプリングを用いて, 単一目標および多目標追尾環境における予測を評価し, 生成する軌道の確率を推定する。 本稿では,制約に基づくサンプリングを用いて複数モーダルトラック仮説を生成するクロスアテンションベース拡散モデルを提案する。 我々の単一ターゲットモデルでは、平均変位誤差(ADE)上の全てのベースラインメソッドのパフォーマンスを超越し、全時間水平線での予測を行う。

Target tracking plays a crucial role in real-world scenarios, particularly in drug-trafficking interdiction, where the knowledge of an adversarial target's location is often limited. Improving autonomous tracking systems will enable unmanned aerial, surface, and underwater vehicles to better assist in interdicting smugglers that use manned surface, semi-submersible, and aerial vessels. As unmanned drones proliferate, accurate autonomous target estimation is even more crucial for security and safety. This paper presents Constrained Agent-based Diffusion for Enhanced Multi-Agent Tracking (CADENCE), an approach aimed at generating comprehensive predictions of adversary locations by leveraging past sparse state information. To assess the effectiveness of this approach, we evaluate predictions on single-target and multi-target pursuit environments, employing Monte-Carlo sampling of the diffusion model to estimate the probability associated with each generated trajectory. We propose a novel cross-attention based diffusion model that utilizes constraint-based sampling to generate multimodal track hypotheses. Our single-target model surpasses the performance of all baseline methods on Average Displacement Error (ADE) for predictions across all time horizons.
翻訳日:2024-01-16 00:19:10 公開日:2024-01-12
# EdgeFace:エッジデバイスのための効率的な顔認識モデル

EdgeFace: Efficient Face Recognition Model for Edge Devices ( http://arxiv.org/abs/2307.01838v2 )

ライセンス: Link先を確認
Anjith George and Christophe Ecabert and Hatef Otroshi Shahreza and Ketan Kotwal and Sebastien Marcel(参考訳) 本稿では,EdgeNeXtのハイブリッドアーキテクチャにヒントを得た,軽量かつ効率的な顔認識ネットワークEdgeFaceを提案する。 CNNとTransformerモデルの長所と低階線形層を効果的に組み合わせることで、エッジデバイスに最適化された優れた顔認識性能を実現する。 提案したEdgeFaceネットワークは、低計算コストとコンパクトストレージを維持するだけでなく、高い顔認識精度を実現し、エッジデバイスへのデプロイに適している。 挑戦的なベンチマーク顔データセットに関する広範囲な実験は、最先端の軽量モデルや深層顔認識モデルと比較して、エッジフェイスの有効性と効率を示す。 1.77Mパラメータを持つEdgeFaceモデルはLFW(99.73%)、IJB-B(92.67%)、IJB-C(94.85%)のアート結果の状態を達成し、計算量の多い他の効率的なモデルよりも優れている。 実験を再現するコードは公開される予定だ。

In this paper, we present EdgeFace, a lightweight and efficient face recognition network inspired by the hybrid architecture of EdgeNeXt. By effectively combining the strengths of both CNN and Transformer models, and a low rank linear layer, EdgeFace achieves excellent face recognition performance optimized for edge devices. The proposed EdgeFace network not only maintains low computational costs and compact storage, but also achieves high face recognition accuracy, making it suitable for deployment on edge devices. Extensive experiments on challenging benchmark face datasets demonstrate the effectiveness and efficiency of EdgeFace in comparison to state-of-the-art lightweight models and deep face recognition models. Our EdgeFace model with 1.77M parameters achieves state of the art results on LFW (99.73%), IJB-B (92.67%), and IJB-C (94.85%), outperforming other efficient models with larger computational complexities. The code to replicate the experiments will be made available publicly.
翻訳日:2024-01-16 00:18:34 公開日:2024-01-12
# NMTにおけるサブワードベーストークン化における周波数と構成性の重要性の評価

Assessing the Importance of Frequency versus Compositionality for Subword-based Tokenization in NMT ( http://arxiv.org/abs/2306.01393v3 )

ライセンス: Link先を確認
Benoist Wolleb, Romain Silvestri, Giorgos Vernikos, Ljiljana Dolamic, Andrei Popescu-Belis(参考訳) サブワードトークン化は、ニューラルネットワークモデルと機械翻訳システムにおけるトークン化のデファクトスタンダードである。 サブワードには、頻繁なトークンの短いエンコーディング、サブワードの構成性、未知語を扱う能力という3つの利点がある。 相対的な重要性は明らかになっていないため、コンポジション性から周波数(第一の利点)を分離できるトークン化手法を提案する。 このアプローチでは、Huffmanコーディングを使用して、一定量のシンボルを使用して、単語を周波数順にトークン化する。 CS-DE, EN-FR, EN-DE NMTによる実験では、BPEが到達したスコアの90%-95%は周波数だけで占めることがわかった。

Subword tokenization is the de facto standard for tokenization in neural language models and machine translation systems. Three advantages are frequently cited in favor of subwords: shorter encoding of frequent tokens, compositionality of subwords, and ability to deal with unknown words. As their relative importance is not entirely clear yet, we propose a tokenization approach that enables us to separate frequency (the first advantage) from compositionality. The approach uses Huffman coding to tokenize words, by order of frequency, using a fixed amount of symbols. Experiments with CS-DE, EN-FR and EN-DE NMT show that frequency alone accounts for 90%-95% of the scores reached by BPE, hence compositionality has less importance than previously thought.
翻訳日:2024-01-16 00:18:15 公開日:2024-01-12
# 語彙なし画像分類

Vocabulary-free Image Classification ( http://arxiv.org/abs/2306.00917v3 )

ライセンス: Link先を確認
Alessandro Conti, Enrico Fini, Massimiliano Mancini, Paolo Rota, Yiming Wang, Elisa Ricci(参考訳) 大規模視覚言語モデルの最近の進歩は、画像分類パラダイムに革命をもたらした。 印象的なゼロショット機能を示すにもかかわらず、テキストプロンプトを構成するテスト時に、事前に定義されたカテゴリ、つまり語彙が仮定される。 しかし、意味的文脈が未知で進化している場合、そのような仮定は現実的ではない。 そこで我々は,未制約言語による意味空間に存在するクラスを,既知の語彙の前提条件を伴わずに入力画像に割り当てることを目的として,語彙自由画像分類 (vic) と呼ばれる新しいタスクを定式化する。 VICは、意味空間が非常に大きく、数百万の概念が含まれており、分類が難しいため、難しい課題である。 本稿では,この意味空間を外部ビジョン言語データベースを用いて表現することが,画像の分類に意味的に関連のあるコンテンツを得る上で最も効果的な方法であることを実証的に検証する。 次に、事前学習された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法であるCaSED(Caegory Search from Foreign Databases)を提案する。 CaSEDはまず、画像と意味的類似性に基づいてデータベースから検索したキャプションから候補カテゴリの集合を抽出し、同じ視覚言語モデルに基づいて最適な候補カテゴリを画像に割り当てる。 ベンチマークデータセットの実験では、CaSEDは他の複雑なビジョン言語フレームワークよりも優れており、パラメータははるかに少なく、将来的な研究の道を開くことができる。

Recent advances in large vision-language models have revolutionized the image classification paradigm. Despite showing impressive zero-shot capabilities, a pre-defined set of categories, a.k.a. the vocabulary, is assumed at test time for composing the textual prompts. However, such assumption can be impractical when the semantic context is unknown and evolving. We thus formalize a novel task, termed as Vocabulary-free Image Classification (VIC), where we aim to assign to an input image a class that resides in an unconstrained language-induced semantic space, without the prerequisite of a known vocabulary. VIC is a challenging task as the semantic space is extremely large, containing millions of concepts, with hard-to-discriminate fine-grained categories. In this work, we first empirically verify that representing this semantic space by means of an external vision-language database is the most effective way to obtain semantically relevant content for classifying the image. We then propose Category Search from External Databases (CaSED), a method that exploits a pre-trained vision-language model and an external vision-language database to address VIC in a training-free manner. CaSED first extracts a set of candidate categories from captions retrieved from the database based on their semantic similarity to the image, and then assigns to the image the best matching candidate category according to the same vision-language model. Experiments on benchmark datasets validate that CaSED outperforms other complex vision-language frameworks, while being efficient with much fewer parameters, paving the way for future research in this direction.
翻訳日:2024-01-16 00:17:43 公開日:2024-01-12
# 量子サンプリングによる作業証明コンセンサス

Proof-of-work consensus by quantum sampling ( http://arxiv.org/abs/2305.19865v2 )

ライセンス: Link先を確認
Deepesh Singh, Gopikrishnan Muraleedharan, Boxiang Fu, Chen-Mou Cheng, Nicolas Roussy Newton, Peter P. Rohde, Gavin K. Brennen(参考訳) 2011年の登場以来、boson-samplingは、他の量子アルゴリズムに比べて単純さと短期的要件のため、量子優位を示す候補として好まれてきた。 我々は、ブロックチェーンコンセンサスのための量子Proof-of-Work(PoW)スキームとして、粗粒ボソンサンプリング(CGBS)と呼ばれる変種を用いることを提案する。 ユーザは現在のブロック情報に依存する入力状態を使用してボソンサンプリングを行い、サンプルをネットワークにコミットする。 その後、サンプルの検証と成功した鉱夫への報酬の両方に使用できるCGBS戦略が決定される。 鉱夫が正直なサンプルをコミットする報酬と、不正なサンプルをコミットする鉱夫への罰を組み合わせることで、ナッシュ平衡は、正直なノードにインセンティブを与える。 この方式はフォック状態ボソンサンプリングとガウスボソンサンプリングの両方で機能し、古典的なハードウェアによる計算と比較して劇的なスピードアップと省エネを提供する。

Since its advent in 2011, boson-sampling has been a preferred candidate for demonstrating quantum advantage because of its simplicity and near-term requirements compared to other quantum algorithms. We propose to use a variant, called coarse-grained boson-sampling (CGBS), as a quantum Proof-of-Work (PoW) scheme for blockchain consensus. The users perform boson-sampling using input states that depend on the current block information, and commit their samples to the network. Afterward, CGBS strategies are determined which can be used to both validate samples and to reward successful miners. By combining rewards to miners committing honest samples together with penalties to miners committing dishonest samples, a Nash equilibrium is found that incentivizes honest nodes. The scheme works for both Fock state boson sampling and Gaussian boson sampling and provides dramatic speedup and energy savings relative to computation by classical hardware.
翻訳日:2024-01-16 00:17:18 公開日:2024-01-12
# 2次元チャーン絶縁体における量子化2端子コンダクタンス、エッジ状態、電流パターン

Quantized two terminal conductance, edge states and current patterns in an open geometry 2-dimensional Chern insulator ( http://arxiv.org/abs/2305.07640v2 )

ライセンス: Link先を確認
Junaid Majeed Bhat, R. Shankar and Abhishek Dhar(参考訳) 2次元位相系における2つの終端コンダクタンスの量子化は、リードとサンプルの間の完全点接触を仮定したlandauer-buttiker (lb)理論によって正当化される。 この仮定を,非平衡グリーン関数形式を用いて,鉛に接続されたチャーン絶縁体の微視的モデルで検討する。 電流は導体と絶縁体の両方に局在しており、絶縁体は角付近で入退する。 接触の詳細は重要ではなく、完全点接触が創発され、LB理論を正当化する。 量子化された2端子コンダクタンスは興味深い有限次元効果を示し、系-保存結合に依存する。

The quantization of the two terminal conductance in 2D topological systems is justified by the Landauer-Buttiker (LB) theory that assumes perfect point contacts between the leads and the sample. We examine this assumption in a microscopic model of a Chern insulator connected to leads, using the nonequilibrium Greens function formalism. We find that the currents are localized both in the leads and in the insulator and enter and exit the insulator only near the corners. The contact details do not matter and a perfect point contact is emergent, thus justifying the LB theory. The quantized two-terminal conductance shows interesting finite-size effects and dependence on system-reservoir coupling.
翻訳日:2024-01-16 00:17:01 公開日:2024-01-12
# ヘッジによるバイリンガル類似比

Bilingual analogical proportions via hedges ( http://arxiv.org/abs/2305.05614v2 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 類似の比率は、『$a$ is to $b$ what $c$ is to $d$'』の形の表現であり、それ自身が人間と人工知能の核であるアナロジー推論の核である。 著者は最近、普遍代数学と一階述語論理の一般設定における類比例の抽象的代数的枠組み(英語版)を紹介した。 このフレームワークでは、ソース代数とターゲット代数は、基礎言語 {\em same} を持つ。 本論文の目的は,その非言語的枠組みを,基礎言語が異なるバイリンガル言語に一般化することである。 これは比率の正当化にヘッジを使用することによって達成される。 その結果、基盤となるフレームワークの適用性を大きく広げる大きな一般化となった。 より広い意味では、この論文は類推論の数学的理論へのさらなる一歩である。

Analogical proportions are expressions of the form ``$a$ is to $b$ what $c$ is to $d$'' at the core of analogical reasoning which itself is at the core of human and artificial intelligence. The author has recently introduced {\em from first principles} an abstract algebro-logical framework of analogical proportions within the general setting of universal algebra and first-order logic. In that framework, the source and target algebras have the {\em same} underlying language. The purpose of this paper is to generalize his unilingual framework to a bilingual one where the underlying languages may differ. This is achieved by using hedges in justifications of proportions. The outcome is a major generalization vastly extending the applicability of the underlying framework. In a broader sense, this paper is a further step towards a mathematical theory of analogical reasoning.
翻訳日:2024-01-16 00:16:46 公開日:2024-01-12
# d次元球の指示関数のためのフーリエ級数とディープニューラルネットワークの点収束

Pointwise convergence of Fourier series and deep neural network for the indicator function of d-dimensional ball ( http://arxiv.org/abs/2304.08172v3 )

ライセンス: Link先を確認
Ryota Kawasumi and Tsuyoshi Yoneda(参考訳) 本稿では,ディープニューラルネットワークとフーリエ級数との重大な違いを明らかにする。 $\mathbb{R}^d$ 上のラジアル関数の周期化の多重フーリエ級数に対して、クラツボ (2010) は球面部分和の挙動を調査し、よく知られたギブス・ウィルブラハムとピンスキーの現象以外の3番目の現象を発見した。 特に第3のものは、点収束の防止を示す。 それとは対照的に、特定のディープニューラルネットワークを与え、ポイントワイド収束を証明する。

In this paper we clarify the crucial difference between a deep neural network and the Fourier series. For the multiple Fourier series of the periodization of some radial functions on $\mathbb{R}^d$, Kuratsubo (2010) investigated the behavior of the spherical partial sum, and discovered the third phenomenon other than the well-known Gibbs-Wilbraham and Pinsky phenomena. In particular, the third one exhibits prevention of pointwise convergence. In contrast to it, we give a specific deep neural network and prove pointwise convergence.
翻訳日:2024-01-16 00:16:13 公開日:2024-01-12
# セマンティックシーン補完のための信頼性相互相互作用によるブリッジングステレオ形状とBEV表現

Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion ( http://arxiv.org/abs/2303.13959v3 )

ライセンス: Link先を確認
Bohan Li, Yasheng Sun, Zhujin Liang, Dalong Du, Zhuanghui Zhang, Xiaofeng Wang, Yunnan Wang, Xin Jin, Wenjun Zeng(参考訳) 3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。 従来のカメラベースの手法では、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測できない。 本稿では,SSCにおけるステレオマッチング手法と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。 ステレオマッチングはエピポーラ制約による幾何学的曖昧さを緩和する一方、bev表現はグローバル意味文脈を持つ不可視領域の幻覚能力を高める。 しかし, 立体幾何学とBEVの特徴の相違により, SSCの密接な予測タスクのためにそれらを橋渡しすることは容易ではない。 そこで,この2つの表現を高密度な3Dボリュームで効果的にブリッジして,信頼性の高いセマンティックシーンを補完する,BRGSceneと呼ばれる統合占有型フレームワークをさらに発展させる。 具体的には、ステレオ幾何およびBEV特徴の画素レベルの信頼性の高いアグリゲーションのための新しい相互対話型アンサンブル(MIE)ブロックを設計する。 MIEブロック内では、信頼再重み付けにより強化された双方向信頼インタラクション(BRI)モジュールが、相互誘導によるきめ細かいインタラクションを促進するために使用される。 さらにdve(dual volume ensemble)モジュールを導入することで,チャネル毎の再調整と複数グループ投票による補完的なアグリゲーションが容易になる。 本手法は,セマンティックKITTIのセマンティック・シーン・コンプリートにおける全カメラ・ベースの手法より優れる。

3D semantic scene completion (SSC) is an ill-posed perception task that requires inferring a dense 3D scene from limited observations. Previous camera-based methods struggle to predict accurate semantic scenes due to inherent geometric ambiguity and incomplete observations. In this paper, we resort to stereo matching technique and bird's-eye-view (BEV) representation learning to address such issues in SSC. Complementary to each other, stereo matching mitigates geometric ambiguity with epipolar constraint while BEV representation enhances the hallucination ability for invisible regions with global semantic context. However, due to the inherent representation gap between stereo geometry and BEV features, it is non-trivial to bridge them for dense prediction task of SSC. Therefore, we further develop a unified occupancy-based framework dubbed BRGScene, which effectively bridges these two representations with dense 3D volumes for reliable semantic scene completion. Specifically, we design a novel Mutual Interactive Ensemble (MIE) block for pixel-level reliable aggregation of stereo geometry and BEV features. Within the MIE block, a Bi-directional Reliable Interaction (BRI) module, enhanced with confidence re-weighting, is employed to encourage fine-grained interaction through mutual guidance. Besides, a Dual Volume Ensemble (DVE) module is introduced to facilitate complementary aggregation through channel-wise recalibration and multi-group voting. Our method outperforms all published camera-based methods on SemanticKITTI for semantic scene completion.
翻訳日:2024-01-16 00:16:01 公開日:2024-01-12
# First Session Adaptation: クラス増分学習のための強力なリプレイフリーベースライン

First Session Adaptation: A Strong Replay-Free Baseline for Class-Incremental Learning ( http://arxiv.org/abs/2303.13199v3 )

ライセンス: Link先を確認
Aristeidis Panos, Yuriko Kobe, Daniel Olmeda Reino, Rahaf Aljundi, Richard E. Turner(参考訳) 授業増分学習(CIL)では、画像分類システムは各学習セッションで新しいクラスに露出し、段階的に更新する必要がある。 この問題にアプローチする手法は、cilの各セッションで分類ヘッドと特徴抽出体の両方を更新した。 本研究では,既存のcilアプローチの有効性に光を当てる第1セッション適応(fsa)というベースライン手法を開発し,頭部と身体の適応による相対的パフォーマンスの寄与度を評価する。 FSAは、トレーニング済みのニューラルネットワーク本体を最初の学習セッションのみに適応させ、その後修正し、線形判別分析(LDA)に基づくヘッドを適応された本体の上に配置し、CILによる正確な更新を可能にする。 fsaはリプレイフリーであり、前回の継続的学習の例を記憶していない。 実験的にfsaを動機付けるために,まず,22種類の画像分類データセットの多種多様な選択を検討した。 LDAヘッドは良好に動作し、CILのアウト・オブ・ボックスをサポートしています。 また,FiLM(Featurewise Layer Modulation)アダプタは,複数ショット設定において非常に有効であり,ハイショット設定ではフルボディ適応が可能であることも確認した。 第2に,従来文献で使用されていた高精細度CILや小精細度CILなどの各種CIL設定を実証的に検討した。 検討した16項目のうち15項目において,FSAは最先端よりも有意に改善した。 FiLMアダプタを備えたFSAは、特に数ショット設定でパフォーマンスが良い。 これらの結果は, 連続体適応への現在のアプローチが期待通りに機能していないことを示している。 最後に,身体適応の利点を予測可能な非ラベル入力の集合に適用可能な尺度を提案する。

In Class-Incremental Learning (CIL) an image classification system is exposed to new classes in each learning session and must be updated incrementally. Methods approaching this problem have updated both the classification head and the feature extractor body at each session of CIL. In this work, we develop a baseline method, First Session Adaptation (FSA), that sheds light on the efficacy of existing CIL approaches and allows us to assess the relative performance contributions from head and body adaption. FSA adapts a pre-trained neural network body only on the first learning session and fixes it thereafter; a head based on linear discriminant analysis (LDA), is then placed on top of the adapted body, allowing exact updates through CIL. FSA is replay-free i.e.~it does not memorize examples from previous sessions of continual learning. To empirically motivate FSA, we first consider a diverse selection of 22 image-classification datasets, evaluating different heads and body adaptation techniques in high/low-shot offline settings. We find that the LDA head performs well and supports CIL out-of-the-box. We also find that Featurewise Layer Modulation (FiLM) adapters are highly effective in the few-shot setting, and full-body adaption in the high-shot setting. Second, we empirically investigate various CIL settings including high-shot CIL and few-shot CIL, including settings that have previously been used in the literature. We show that FSA significantly improves over the state-of-the-art in 15 of the 16 settings considered. FSA with FiLM adapters is especially performant in the few-shot setting. These results indicate that current approaches to continuous body adaptation are not working as expected. Finally, we propose a measure that can be applied to a set of unlabelled inputs which is predictive of the benefits of body adaptation.
翻訳日:2024-01-16 00:15:35 公開日:2024-01-12
# MedAI Dialog Corpus (MEDIC):医療相談における医師とAI反応のゼロショット分類

MedAI Dialog Corpus (MEDIC): Zero-Shot Classification of Doctor and AI Responses in Health Consultations ( http://arxiv.org/abs/2310.12489v3 )

ライセンス: Link先を確認
Olumide E. Ojo, Olaronke O. Adebanji, Alexander Gelbukh, Hiram Calvo, Anna Feldman(参考訳) ゼロショット分類では、トレーニング中に見えないクラスにテキストを分類することができる。 本研究では、医師やAIシステムからの医療相談応答の分類におけるゼロショット学習モデルの有効性を検討する。 BART、BERT、XLM、XLM-R、DistilBERTが評価された。 モデルは3つの異なるデータセットでテストされ、バイナリ分析とマルチラベル分析に基づいて、事前コーパストレーニングなしで健康相談におけるテキストの起源を識別した。 我々の発見によると、ゼロショット言語モデルは一般的に言語をよく理解しているが、医療相談に対する医師とAIの反応を分類しようとする場合に制限がある。 本研究は、医師やaiシステムによる健康相談において、より正確なテキスト分類方法の開発を知らせることにより、医療テキスト分類の分野における今後の研究の基盤を提供する。

Zero-shot classification enables text to be classified into classes not seen during training. In this study, we examine the efficacy of zero-shot learning models in classifying healthcare consultation responses from Doctors and AI systems. The models evaluated include BART, BERT, XLM, XLM-R and DistilBERT. The models were tested on three different datasets based on a binary and multi-label analysis to identify the origins of text in health consultations without any prior corpus training. According to our findings, the zero-shot language models show a good understanding of language generally, but has limitations when trying to classify doctor and AI responses to healthcare consultations. This research provides a foundation for future research in the field of medical text classification by informing the development of more accurate methods of classifying text written by Doctors and AI systems in health consultations.
翻訳日:2024-01-16 00:08:18 公開日:2024-01-12
# ZEST: 見えないIoTデバイス分類のための注意ベースのゼロショット学習

ZEST: Attention-based Zero-Shot Learning for Unseen IoT Device Classification ( http://arxiv.org/abs/2310.08036v2 )

ライセンス: Link先を確認
Binghui Wu, Philipp Gysel, Dinil Mon Divakaran, and Mohan Gurusamy(参考訳) 近年,ネットワークに接続されたiotデバイスを分類するための機械学習モデルが提案されている。 しかしながら、モデルのトレーニング中にすべてのデバイス(そのためのトラフィック)が利用できないという現実的な課題がまだ残っている。 これは本質的に、運用フェーズの間、トレーニングフェーズで見られない新しいデバイスを分類する必要があります。 この課題に対処するため、私たちはZESTというZSL(ゼロショット学習)フレームワークを提案します。 ZESTは 一 IoTトラフィックの潜在空間表現を抽出するための自己注意型ネットワーク特徴抽出装置、SANE 二 擬似データを生成するために潜時特徴を用いて復号器を訓練する生成モデル 三 装置の分類のために生成された擬似データに基づいて訓練された監督モデル 実IoTトラフィックデータに関する広範な実験を実施しました。 一 ZEST は、基準線より著しく(正確性において)改善する。 i)SANEは,ネットワークトラフィックのモデル化に広く用いられているLSTMよりも意味のある表現を抽出することができる。

Recent research works have proposed machine learning models for classifying IoT devices connected to a network. However, there is still a practical challenge of not having all devices (and hence their traffic) available during the training of a model. This essentially means, during the operational phase, we need to classify new devices not seen in the training phase. To address this challenge, we propose ZEST -- a ZSL (zero-shot learning) framework based on self-attention for classifying both seen and unseen devices. ZEST consists of i) a self-attention based network feature extractor, termed SANE, for extracting latent space representations of IoT traffic, ii) a generative model that trains a decoder using latent features to generate pseudo data, and iii) a supervised model that is trained on the generated pseudo data for classifying devices. We carry out extensive experiments on real IoT traffic data; our experiments demonstrate i) ZEST achieves significant improvement (in terms of accuracy) over the baselines; ii) SANE is able to better extract meaningful representations than LSTM which has been commonly used for modeling network traffic.
翻訳日:2024-01-16 00:08:04 公開日:2024-01-12
# セマンティクスフォワード中継:6g協調通信のための新しい枠組み

Semantic-Forward Relaying: A Novel Framework Towards 6G Cooperative Communications ( http://arxiv.org/abs/2310.07987v2 )

ライセンス: Link先を確認
Wensheng Lin, Yuna Yan, Lixin Li, Zhu Han, Tad Matsumoto(参考訳) 本稿では,第6世代(6G)無線ネットワークに向けた協調通信のための新しい中継フレームワークであるセマンティックフォワード(SF)を提案する。 sfリレーは意味的な特徴を抽出して送信し、転送ペイロードを削減し、リンク内エラーに対するネットワークロバスト性も向上する。 サイド情報とターボ原理との協調通信の理論的基礎に基づいて、目的地での復号ゲインを高めるために、外部情報を反復的に交換するジョイントソースチャネル符号化アルゴリズムを設計する。 驚くべきことに、シミュレーションの結果は、悪いチャンネル条件でもsf中継は、回復した情報品質を効果的に改善できることを示している。

This letter proposes a novel relaying framework, semantic-forward (SF), for cooperative communications towards the sixth-generation (6G) wireless networks. The SF relay extracts and transmits the semantic features, which reduces forwarding payload, and also improves the network robustness against intra-link errors. Based on the theoretical basis for cooperative communications with side information and the turbo principle, we design a joint source-channel coding algorithm to iteratively exchange the extrinsic information for enhancing the decoding gains at the destination. Surprisingly, simulation results indicate that even in bad channel conditions, SF relaying can still effectively improve the recovered information quality.
翻訳日:2024-01-16 00:07:46 公開日:2024-01-12
# 軽量フルコンボリューションシアームトラッカー

Lightweight Full-Convolutional Siamese Tracker ( http://arxiv.org/abs/2310.05392v3 )

ライセンス: Link先を確認
Yunfeng Li, Bo Wang, Xueyi Wu, Zhuoyan Liu, Ye Li(参考訳) 単一のオブジェクトトラッカーは高度なパフォーマンスを達成したが、大規模なモデルは限られたリソースプラットフォーム上でのアプリケーションを妨げる。 さらに、既存の軽量トラッカーはパラメータ、パフォーマンス、Flops、FPSの2~3ポイントのバランスしか達成していない。 これらの点の最適バランスを実現するために,LightFCと呼ばれる軽量完全畳み込み式シームズトラッカーを提案する。 lightfcは、新しい効率的な相互相関モジュール(ecm)と新しい効率的なリプライセンターヘッド(erh)を使用して、畳み込み追跡パイプラインの特徴表現を改善する。 ecmはアテンションライクなモジュール設計を使用して、融合特徴の空間的およびチャネル線形融合を行い、融合特徴の非線形性を高める。 さらに、現在の軽量トラッカーの成功要因を示し、スキップ接続と検索エリア機能の再利用を導入している。 ERHは、標準中心頭部における特徴次元ステージを再パラメータ化し、重要な特徴フローのボトルネックを最適化するためにチャンネルアテンションを導入する。 総合的な実験により、LightFCは性能、パラメータ、FlopsとFPSの最適なバランスを実現する。 LightFCの精度スコアはLaSOTとTNL2KのMixFormerV2-Sをそれぞれ3.7%、TNL2Kは6.5%、パラメータは5倍、Flopsは4.6倍である。 さらに、LightFCはCPU上でMixFormerV2-Sより2倍高速で動作する。 さらに、より強力なバックボーンネットワークを置き換えることで、LightFC-vitと呼ばれる高性能バージョンが提案されている。 コードと生の結果はhttps://github.com/LiYunfengLYF/LightFCで確認できる。

Although single object trackers have achieved advanced performance, their large-scale models hinder their application on limited resources platforms. Moreover, existing lightweight trackers only achieve a balance between 2-3 points in terms of parameters, performance, Flops and FPS. To achieve the optimal balance among these points, this paper proposes a lightweight full-convolutional Siamese tracker called LightFC. LightFC employs a novel efficient cross-correlation module (ECM) and a novel efficient rep-center head (ERH) to improve the feature representation of the convolutional tracking pipeline. The ECM uses an attention-like module design, which conducts spatial and channel linear fusion of fused features and enhances the nonlinearity of the fused features. Additionally, it refers to successful factors of current lightweight trackers and introduces skip-connections and reuse of search area features. The ERH reparameterizes the feature dimensional stage in the standard center-head and introduces channel attention to optimize the bottleneck of key feature flows. Comprehensive experiments show that LightFC achieves the optimal balance between performance, parameters, Flops and FPS. The precision score of LightFC outperforms MixFormerV2-S on LaSOT and TNL2K by 3.7 % and 6.5 %, respectively, while using 5x fewer parameters and 4.6x fewer Flops. Besides, LightFC runs 2x faster than MixFormerV2-S on CPUs. In addition, a higher-performance version named LightFC-vit is proposed by replacing a more powerful backbone network. The code and raw results can be found at https://github.com/LiYunfengLYF/LightFC.
翻訳日:2024-01-16 00:07:18 公開日:2024-01-12
# 連続可変量子鍵分散システム : レビューと展望

Continuous-variable quantum key distribution system: A review and perspective ( http://arxiv.org/abs/2310.04831v2 )

ライセンス: Link先を確認
Yichen Zhang, Yiming Bian, Zhengyu Li, Song Yu, and Hong Guo(参考訳) 量子鍵分布は、量子力学の原理によって保証される情報理論のセキュリティを備えたセキュアキーを提供する。 コヒーレント状態を用いた量子鍵分布の連続変数バージョンは、商用レーザーやホモダイン検出器を用いた通信業界との互換性の利点を提供する。 本稿では,コヒーレント状態に基づくプロトコルに着目した連続可変量子鍵分散システムの原理について述べる。 まず、これらのプロトコルの理論的プロトコルと現在のセキュリティ状態をレビューする。 そこで本研究では,システム構造,キーモジュール,メインストリームシステム実装について論じる。 デジタル技術,チップシステム,ポイント・ツー・マルチポイントシステムなど,今後の応用の進歩について論じる。 最後に,システムの実用的安全性について論じ,今後の研究分野の展望をまとめる。

Quantum key distribution provides secure keys with information-theoretic security ensured by the principle of quantum mechanics. The continuous-variable version of quantum key distribution using coherent states offers the advantages of its compatibility with telecom industry, e.g., using commercial laser and homodyne detector, is now going through a booming period. In this review article, we describe the principle of continuous-variable quantum key distribution system, focus on protocols based on coherent states, whose systems are gradually moving from proof-of-principle lab demonstrations to in-field implementations and technological prototypes. We start by reviewing the theoretical protocols and the current security status of these protocols. Then, we discuss the system structure, the key module, and the mainstream system implementations. The advanced progress for future applications are discussed, including the digital techniques, system on chip and point-to-multipoint system. Finally, we discuss the practical security of the system and conclude with promising perspectives in this research field.
翻訳日:2024-01-16 00:06:48 公開日:2024-01-12
# ディリクレとノイマン境界条件を混合したニューラルプレコンディショルドポアソン解法

A Neural-preconditioned Poisson Solver for Mixed Dirichlet and Neumann Boundary Conditions ( http://arxiv.org/abs/2310.00177v4 )

ライセンス: Link先を確認
Kai Weixian Lan, Elias Gueidon, Ayano Kaneda, Julian Panetta, Joseph Teran(参考訳) 混合境界条件を持つポアソン方程式に対するニューラルプレコンディション付き反復解法を提案する。 ポアソン方程式は科学計算においてユビキタスであり、様々な物理現象を制御し、多くの数値アルゴリズムにおいてサブプロブレムとして発生し、楕円型PDEのより広範なクラスのモデル問題として機能する。 最も人気のあるポアソン離散化は、大きなスパース線形系をもたらす。 高解像度、そしてパフォーマンスクリティカルなアプリケーションでは、反復解法はこれらに有利であるが、強力なプリコンディショナーとペアリングする場合に限られる。 我々のソルバのコアは、任意の形状の領域と混合境界条件に対する離散構造化グリッドラプラス作用素の逆を近似するように訓練されたニューラルネットワークである。 この問題の構造は、トレーニングセット外の境界条件においてもプリコンディショナーとして非常に効果的であることを示す新しいネットワークアーキテクチャを動機付けている。 本研究では, 圧縮性流体シミュレーションによる挑戦的なテストケースにおいて, 代数的マルチグリッドや最近のニューラルプレコンディショナーなど, 最先端の解法よりも優れていることを示す。

We introduce a neural-preconditioned iterative solver for Poisson equations with mixed boundary conditions. The Poisson equation is ubiquitous in scientific computing: it governs a wide array of physical phenomena, arises as a subproblem in many numerical algorithms, and serves as a model problem for the broader class of elliptic PDEs. The most popular Poisson discretizations yield large sparse linear systems. At high resolution, and for performance-critical applications, iterative solvers can be advantageous for these -- but only when paired with powerful preconditioners. The core of our solver is a neural network trained to approximate the inverse of a discrete structured-grid Laplace operator for a domain of arbitrary shape and with mixed boundary conditions. The structure of this problem motivates a novel network architecture that we demonstrate is highly effective as a preconditioner even for boundary conditions outside the training set. We show that on challenging test cases arising from an incompressible fluid simulation, our method outperforms state-of-the-art solvers like algebraic multigrid as well as some recent neural preconditioners.
翻訳日:2024-01-16 00:06:09 公開日:2024-01-12
# 量子均質化のためのコヒーレントモデルと非コヒーレントモデルの比較

Comparing coherent and incoherent models for quantum homogenization ( http://arxiv.org/abs/2309.15741v3 )

ライセンス: Link先を確認
Anna Beever, Maria Violaris, Chiara Marletto and Vlatko Vedral(参考訳) 本稿では,収束特性が熱化過程をモデル化する量子ホモゲナイザにおける量子干渉の役割について検討する。 元の量子ホモジェナイザープロトコルでは、系 qubit は部分スワップ相互作用を通じて同一の貯水池 qubit の状態に収束し、貯水池 qubit 間の干渉を可能にする。 我々は、制御-スワップ相互作用を用いた制御量子ビットによって各システム-保存相互作用をモデレートする、非一貫性量子ホモゲナイザを設計した。 我々の非一貫性ホモゲナイザは、任意の状態から任意の状態へ量子ビットを任意の精度に変換でき、貯水池の量子ビットの状態に何の影響も与えられないような、ホモゲナイズの本質的な条件を満たす。 その結果, 熱分解のモデル化に重要な均質化機械の収束特性は, 量子ビット間のコヒーレンスに依存しないことがわかった。 次に、状態変換を行うホモジェナイザーの再利用に必要なリソースのバウンダリを導出する。 これは、どちらのホモジェナイザーも、資源コストを増大させるため、任意の数のホモジェナイザーに対して普遍的であることを示す。

Here we investigate the role of quantum interference in the quantum homogenizer, whose convergence properties model a thermalization process. In the original quantum homogenizer protocol, a system qubit converges to the state of identical reservoir qubits through partial-swap interactions, that allow interference between reservoir qubits. We design an alternative, incoherent quantum homogenizer, where each system-reservoir interaction is moderated by a control qubit using a controlled-swap interaction. We show that our incoherent homogenizer satisfies the essential conditions for homogenization, being able to transform a qubit from any state to any other state to arbitrary accuracy, with negligible impact on the reservoir qubits' states. Our results show that the convergence properties of homogenization machines that are important for modelling thermalization are not dependent on coherence between qubits in the homogenization protocol. We then derive bounds on the resources required to re-use the homogenizers for performing state transformations. This demonstrates that both homogenizers are universal for any number of homogenizations, for an increased resource cost.
翻訳日:2024-01-16 00:05:49 公開日:2024-01-12
# mc-nerf:マルチカメラ画像取得システムのためのマルチカメラニューラルラミアンスフィールド

MC-NeRF: Multi-Camera Neural Radiance Fields for Multi-Camera Image Acquisition Systems ( http://arxiv.org/abs/2309.07846v2 )

ライセンス: Link先を確認
Yu Gao, Lutong Su, Hao Liang, Yufeng Yue, Yi Yang, Mengyin Fu(参考訳) neural radiance fields (nerf) は3dシーン表現にマルチビュー画像を用いており、顕著な性能を示している。 マルチビュー画像の主な源の1つとして、マルチカメラシステムは、固有パラメータの変更や頻繁なポーズ変更といった課題に直面する。 従来のnerfベースの手法の多くは、グローバルユニークなカメラを想定しており、複数のカメラのシナリオをほとんど考慮しない。 さらに、いくつかのポーズロバスト法は、ポーズが初期化されにくい場合、まだ最適でない解に影響を受けやすい。 本稿では,バンドル調整型ニューラルラジアンスフィールドに対して,固有パラメータと外部パラメータを協調的に最適化するMC-NeRFを提案する。 第一に,本質的パラメータと外生的パラメータの結合最適化から生じる縮退事例と結合問題に対処するための理論的解析を行う。 次に,提案手法に基づいて,キャリブレーションオブジェクトの設計を含むマルチカメラシステムのための効率的なキャリブレーション画像取得手法を提案する。 最後に、レンダリングネットワークとともに、内在パラメータと外在パラメータの回帰を可能にするトレーニングシーケンスを備えたグローバルエンド・ツー・エンドネットワークを提案する。 さらに、既存のほとんどのデータセットはユニークなカメラ用に設計されており、私たちは4種類のマルチカメラ取得システムを含む新しいデータセットを作成し、読者はカスタムデータセットを作成できる。 実験により,各画像が異なるカメラパラメータに対応する場合の有効性を確認した。 具体的には,110種類の内在・外在パラメータを持つ110個の画像を採用し,初期ポーズを伴わずに3次元シーン表現を実現する。 コードと補足資料はhttps://in2-viaun.github.io/MC-NeRFで入手できる。

Neural Radiance Fields (NeRF) employ multi-view images for 3D scene representation and have shown remarkable performance. As one of the primary sources of multi-view images, multi-camera systems encounter challenges such as varying intrinsic parameters and frequent pose changes. Most previous NeRF-based methods often assume a global unique camera and seldom consider scenarios with multiple cameras. Besides, some pose-robust methods still remain susceptible to suboptimal solutions when poses are poor initialized. In this paper, we propose MC-NeRF, a method can jointly optimize both intrinsic and extrinsic parameters for bundle-adjusting Neural Radiance Fields. Firstly, we conduct a theoretical analysis to tackle the degenerate case and coupling issue that arise from the joint optimization between intrinsic and extrinsic parameters. Secondly, based on the proposed solutions, we introduce an efficient calibration image acquisition scheme for multi-camera systems, including the design of calibration object. Lastly, we present a global end-to-end network with training sequence that enables the regression of intrinsic and extrinsic parameters, along with the rendering network. Moreover, most existing datasets are designed for unique camera, we create a new dataset that includes four different styles of multi-camera acquisition systems, allowing readers to generate custom datasets. Experiments confirm the effectiveness of our method when each image corresponds to different camera parameters. Specifically, we adopt up to 110 images with 110 different intrinsic and extrinsic parameters, to achieve 3D scene representation without providing initial poses. The Code and supplementary materials are available at https://in2-viaun.github.io/MC-NeRF.
翻訳日:2024-01-16 00:05:05 公開日:2024-01-12
# Zero-Shot Co-Salient Object Detection Framework

Zero-Shot Co-salient Object Detection Framework ( http://arxiv.org/abs/2309.05499v3 )

ライセンス: Link先を確認
Haoke Xiao and Lv Tang and Bo Li and Zhiming Luo and Shaozi Li(参考訳) Co-salient Object Detection (CoSOD)は、人間の視覚システムの能力を再現して、画像のコレクション内の共通かつ健全なオブジェクトを認識する。 近年のディープラーニングモデルの発展にもかかわらず、これらのモデルはよく注釈付きCoSODデータセットによるトレーニングに依存している。 トレーニングフリーのゼロショットCoSODフレームワークの探索は制限されている。 本稿では,基礎となるコンピュータビジョンモデルのゼロショット転送機能からインスピレーションを得て,これらのモデルを利用した最初のゼロショットCoSODフレームワークを提案する。 これを実現するため,提案フレームワークではグループプロンプト生成(gpg)モジュールと協調マップ生成(cmp)モジュールという2つの新しいコンポーネントを導入する。 広く使われているデータセット上でのフレームワークの性能を評価し、印象的な結果を観察する。 提案手法は,既存の非教師付き手法を上回り,2020年以前に開発された完全監督型手法を上回ってさえも2022年以前に開発された完全監督型手法との競争力を維持している。

Co-salient Object Detection (CoSOD) endeavors to replicate the human visual system's capacity to recognize common and salient objects within a collection of images. Despite recent advancements in deep learning models, these models still rely on training with well-annotated CoSOD datasets. The exploration of training-free zero-shot CoSOD frameworks has been limited. In this paper, taking inspiration from the zero-shot transfer capabilities of foundational computer vision models, we introduce the first zero-shot CoSOD framework that harnesses these models without any training process. To achieve this, we introduce two novel components in our proposed framework: the group prompt generation (GPG) module and the co-saliency map generation (CMP) module. We evaluate the framework's performance on widely-used datasets and observe impressive results. Our approach surpasses existing unsupervised methods and even outperforms fully supervised methods developed before 2020, while remaining competitive with some fully supervised methods developed before 2022.
翻訳日:2024-01-16 00:04:37 公開日:2024-01-12
# 光子対生成のための金属-有機系の第一原理スクリーニング

First-Principles Screening of Metal-Organic Frameworks for Entangled Photon Pair Generation ( http://arxiv.org/abs/2309.04781v2 )

ライセンス: Link先を確認
Sanoj Raj, Sim\'on Paiva, Rub\'en Fritz, Felipe Herrera and Yamil J. Col\'on(参考訳) 非線形光学材料における強いレーザー光の透過は、様々な自由度で量子絡み合う出力光子源を生成することができ、このプロセスは光量子技術において根本的に重要なツールとなる。 しかし, 量子センシング, 通信, 計算における次世代プロトコルの実装の見通しを低下させるため, 絡み合った光発生のための効率的な光学結晶の利用可能性は, 多様性の面で著しく制限されている。 そこで本研究では, 自発的パラメトリック・ダウンコンバージョン(spdc)により効率的に絡み合う光を発生できる金属-有機フレームワーク(mof)材料に基づく新しい非線形光学素子の計算的発見のための, マルチスケール第一原理モデリング手法を開発し, 実装した。 共線形縮退型i型spdをケーススタディとして114,373個のmof材料を合成し,光子対の輝度・コヒーレンス特性とmofの構造と化学組成の相関関係を確立する。 結合時間$\tau_c\sim 10-30$ fs とペア生成率$10^4-10^{8}$ s$^{-1}$mw$^{-1}$mm$^{-1}$mm$^{-1}$ 1064 nm のエンタングル光子対を生成する化学および光学安定性の高い49の非中心対称モノリガンドmof結晶のサブセットを同定した。 それぞれのMOFに対して最適なI型位相整合条件が与えられ、ペア輝度、結晶バンドギャップ、光複屈折の関係が議論される。 結晶の光学的性質とそれらの構成分子リガンドとの相関も与えられる。 我々の研究は、光学量子技術のためのMOFベースのデバイスの計算設計の道を開くものである。

The transmission of strong laser light in nonlinear optical materials can generate output photons sources that carry quantum entanglement in multiple degrees of freedom, making this process a fundamentally important tool in optical quantum technology. However, the availability of efficient optical crystals for entangled light generation is severely limited in terms of diversity, thus reducing the prospects for the implementation of next-generation protocols in quantum sensing, communication and computing. To overcome this, we developed and implemented a multi-scale first-principles modeling technique for the computational discovery of novel nonlinear optical devices based on metal-organic framework (MOF) materials that can efficiently generate entangled light via spontaneous parametric down-conversion(SPDC). Using collinear degenerate type-I SPDC as a case study, we computationally screen a database of 114,373 synthesized MOF materials to establish correlations between the structure and chemical composition of MOFs with the brightness and coherence properties of entangled photon pairs. We identify a subset of 49 non-centrosymmetric mono-ligand MOF crystals with high chemical and optical stability that produce entangled photon pairs with intrinsic $G^{(2)}$ correlation times $\tau_c\sim 10-30$ fs and pair generation rates in the range $10^4-10^{8}$ s$^{-1}$mW$^{-1}$mm$^{-1}$ at 1064 nm. Conditions for optimal type-I phase matching are given for each MOF and relationships between pair brightness, crystal band gap and optical birefringence are discussed. Correlations between the optical properties of crystals and their constituent molecular ligands are also given. Our work paves the way for the computational design of MOF-based devices for optical quantum technology.
翻訳日:2024-01-16 00:04:20 公開日:2024-01-12
# SE(3) 等変拡大結合流

SE(3) Equivariant Augmented Coupling Flows ( http://arxiv.org/abs/2308.10364v5 )

ライセンス: Link先を確認
Laurence I. Midgley and Vincent Stimper and Javier Antor\'an and Emile Mathieu and Bernhard Sch\"olkopf and Jos\'e Miguel Hern\'andez-Lobato(参考訳) 結合正規化フローは高速サンプリングと密度評価を可能にし、物理システムの確率的モデリングに最適なツールとなる。 しかし、標準結合構造は、se(3)と物理系の置換不変性を持つ原子の直交座標上で作用する内転流を妨げている。 本研究は,SE(3)と置換等式を付加次元に沿って座標分割して保持する結合流を提案する。 各層において、フローは原子の位置を学習されたSE(3)不変基底にマッピングし、そこではモノトニックな有理クアドラティックスプラインのような標準フロー変換を適用し、元の基底に戻る。 重要な点として,我々のフローは高速サンプリングと密度評価を保ち,重要サンプリングによる目標分布に対する予測の偏りのない推定を行うのに有用である。 DW4, LJ13, QM9-ポジションデータセットでトレーニングすると, 流れは等変連続正規化フローや拡散モデルと競合し, サンプリングは桁違いに高速になる。 さらに、我々の知る限りでは、我々は、その原子のカルテシアン位置のみをモデル化することによって、初めて、アラニンジペプチドのボルツマン分布を学習する。 最後に,DW4粒子系とLJ13粒子系のボルツマン分布から,エネルギー関数のみを用いて,我々の流れをおよそサンプルとしてトレーニングできることを実証した。

Coupling normalizing flows allow for fast sampling and density evaluation, making them the tool of choice for probabilistic modeling of physical systems. However, the standard coupling architecture precludes endowing flows that operate on the Cartesian coordinates of atoms with the SE(3) and permutation invariances of physical systems. This work proposes a coupling flow that preserves SE(3) and permutation equivariance by performing coordinate splits along additional augmented dimensions. At each layer, the flow maps atoms' positions into learned SE(3) invariant bases, where we apply standard flow transformations, such as monotonic rational-quadratic splines, before returning to the original basis. Crucially, our flow preserves fast sampling and density evaluation, and may be used to produce unbiased estimates of expectations with respect to the target distribution via importance sampling. When trained on the DW4, LJ13, and QM9-positional datasets, our flow is competitive with equivariant continuous normalizing flows and diffusion models, while allowing sampling more than an order of magnitude faster. Moreover, to the best of our knowledge, we are the first to learn the full Boltzmann distribution of alanine dipeptide by only modeling the Cartesian positions of its atoms. Lastly, we demonstrate that our flow can be trained to approximately sample from the Boltzmann distribution of the DW4 and LJ13 particle systems using only their energy functions.
翻訳日:2024-01-16 00:03:42 公開日:2024-01-12
# akvsr: 事前学習モデルの音声知識圧縮による視覚音声認識能力の向上

AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained Model ( http://arxiv.org/abs/2308.07593v2 )

ライセンス: Link先を確認
Jeong Hun Yeo, Minsu Kim, Jeongsoo Choi, Dae Hoe Kim, and Yong Man Ro(参考訳) 視覚音声認識(VSR)は、無声唇の動きから発声語を予測するタスクである。 VSRは唇運動に関する情報が不足しているため、難しい課題とみなされている。 本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(Audio Knowledge empowered Visual Speech Recognition framework)を提案する。 従来の手法と異なり、提案されたAKVSR 1)大規模事前学習音声モデルにより符号化されたリッチオーディオ知識を利用する。 2)小型オーディオメモリにおける音声知識の言語情報は、量子化により音声から非言語情報を捨てて保存する。 3)コンパクトオーディオメモリから最適なオーディオ機能を見つけることができるオーディオブリッジモジュールが含まれており、コンパクトオーディオメモリが構成された後、オーディオ入力なしでトレーニングを行える。 提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。

Visual Speech Recognition (VSR) is the task of predicting spoken words from silent lip movements. VSR is regarded as a challenging task because of the insufficient information on lip movements. In this paper, we propose an Audio Knowledge empowered Visual Speech Recognition framework (AKVSR) to complement the insufficient speech information of visual modality by using audio modality. Different from the previous methods, the proposed AKVSR 1) utilizes rich audio knowledge encoded by a large-scale pretrained audio model, 2) saves the linguistic information of audio knowledge in compact audio memory by discarding the non-linguistic information from the audio through quantization, and 3) includes Audio Bridging Module which can find the best-matched audio features from the compact audio memory, which makes our training possible without audio inputs, once after the compact audio memory is composed. We validate the effectiveness of the proposed method through extensive experiments, and achieve new state-of-the-art performances on the widely-used LRS3 dataset.
翻訳日:2024-01-16 00:03:20 公開日:2024-01-12
# 量子不純物モデルのためのグラスマン時変行列演算子

Grassmann Time-Evolving Matrix Product Operators for Quantum Impurity Models ( http://arxiv.org/abs/2308.05279v3 )

ライセンス: Link先を確認
Ruofan Chen, Xiansong Xu, Chu Guo(参考訳) ファインマン・ヴァーノンの影響関数をフルに利用する時間発展行列積作用素(tempo)法は、ボソニック不純物問題に対する最先端テンソルネットワーク法である。 しかし、フェルミオン不純物問題に対して、グラスマン経路積分はこの方法の適用を禁止している。 我々は、グラスマン経路積分を直接操作できるTEMPOのフルフェルミオンアナログであるグラスマン時間進化行列積作用素を開発した。 さらに,1つの拡張密度テンソルを明示的に構築することなく,オンザフライで期待値を計算するzipupアルゴリズムを提案し,バニラテンポの効率を高める。 提案手法は, 既存のテンソルネットワーク法よりも複雑なスケーリングが可能であり, 単一不純物アンダーソンモデルの非平衡力学上での性能を示す。 提案手法は,Grassmannパス積分を効率的な数値アルゴリズムに変換するという長期的課題を解決し,テンソルネットワークに基づく不純物解法の適用状況を大きく変えるとともに,オープン量子物理学や凝縮物質物理学の幅広い問題にも適用することができる。

The time-evolving matrix product operators (TEMPO) method, which makes full use of the Feynman-Vernon influence functional, is the state-of-the-art tensor network method for bosonic impurity problems. However, for fermionic impurity problems the Grassmann path integral prohibits application of this method. We develop Grassmann time-evolving matrix product operators, a full fermionic analog of TEMPO, that can directly manipulates Grassmann path integrals with similar numerical cost as the bosonic counterpart. We further propose a zipup algorithm to compute expectation values on the fly without explicitly building a single large augmented density tensor, which boosts our efficiency on top of the vanilla TEMPO. Our method has a favorable complexity scaling over existing tensor network methods, and we demonstrate its performance on the non-equilibrium dynamics of the single impurity Anderson models. Our method solves the long standing problem of turning Grassmann path integrals into efficient numerical algorithms, which could significantly change the application landscape of tensor network based impurity solvers, and could also be applied for broader problems in open quantum physics and condensed matter physics.
翻訳日:2024-01-16 00:03:03 公開日:2024-01-12
# 衛星による自由空間QKDにおける各種損失下におけるQBERとキーレートの分析

Analysing QBER and secure key rate under various losses for satellite based free space QKD ( http://arxiv.org/abs/2308.01036v2 )

ライセンス: Link先を確認
Muskan, Ramniwas Meena, Subhashish Banerjee(参考訳) 量子鍵分散(quantum key distribution)は、qubitsを使用して、2つ以上の認証された参加者の間で、1回の暗号化鍵を安全に配布する鍵分散手法である。 本稿では,衛星による低軌道上のアップリンクとダウンリンクのためのBB84プロトコルとBBM92プロトコルとE91プロトコルの比較を行った。 量子ビット誤り率とキーレートの式は4つのプロトコルすべてに対して与えられる。 その結果、BB84プロトコルは、B92プロトコルと比較すると、特定の距離に対して高いセキュアなキーレートの分散を保証する。 同様に、BBM92はE91プロトコルと比較して高いキーレートを保証する。

Quantum Key Distribution is a key distribution method that uses the qubits to safely distribute one-time use encryption keys between two or more authorised participants in a way that ensures the identification of any eavesdropper. In this paper, we have done a comparison between the BB84 and B92 protocols and BBM92 and E91 entanglement based protocols for satellite based uplink and downlink in low Earth orbit. The expressions for the quantum bit error rate and the keyrate are given for all four protocols. The results indicate that, when compared to the B92 protocol, the BB84 protocol guarantees the distribution of a higher secure keyrate for a specific distance. Similarly, it is observed that BBM92 ensures higher keyrate in comparison with E91 protocol.
翻訳日:2024-01-16 00:02:43 公開日:2024-01-12
# ハミルトン固有値変換のための普遍アルゴリズム

Universal algorithm for transforming Hamiltonian eigenvalues ( http://arxiv.org/abs/2312.08848v2 )

ライセンス: Link先を確認
Tatsuki Odake, Hl\'er Kristj\'ansson, Philip Taranto, Mio Murao(参考訳) 物理系を管理するハミルトニアンを操作することは、量子化学から半導体設計まで幅広い応用を見出した。 本研究では,固有値を変化させながら固有値を変化させることで,ハミルトニアンを操作する新しい方法を提案する。 我々は、任意の未知ハミルトニアンの固有値に対して所望の(好ましくは微分可能な)関数を決定的に実装する普遍的アルゴリズムを開発し、その正時および負時ダイナミクスはブラックボックスとして与えられる。 本アルゴリズムは相関ランダム性を用いて2つのサブルーチン - 名前付き制御とフーリエ級数シミュレーション -- を効率的に組み合わせ、我々が開発する一般的なコンパイル手順を例示する。 このアルゴリズムのランタイムは、サブルーチンのna\"ive concatenationと比較してコンパイルによって大幅に削減され、量子特異値変換に基づく類似メソッドよりも優れています。 最後に、負時間ダイナミクスの必要性を回避するために、補助キュービットを追加することなく正時間から負時間ダイナミクスに変換する普遍的アルゴリズムを提案する。

Manipulating Hamiltonians governing physical systems has found a broad range of applications, from quantum chemistry to semiconductor design. In this work, we provide a new way of manipulating Hamiltonians, by transforming their eigenvalues while keeping their eigenstates unchanged. We develop a universal algorithm that deterministically implements any desired (suitably differentiable) function on the eigenvalues of any unknown Hamiltonian, whose positive-time and negative-time dynamics are given as a black box. Our algorithm uses correlated randomness to efficiently combine two subroutines -- namely controlization and Fourier series simulation -- exemplifying a general compilation procedure that we develop. The runtime of our algorithm is significantly reduced using compilation compared to a na\"ive concatenation of the subroutines and outperforms similar methods based on the quantum singular value transformation. Finally, to circumvent the need for the negative-time dynamics, we present a universal algorithm to transform positive-time to negative-time dynamics without adding an auxiliary qubit, which could also be of standalone interest.
翻訳日:2024-01-15 23:55:28 公開日:2024-01-12
# 地域説明のグローバル・アグリゲーションの加速

Accelerating the Global Aggregation of Local Explanations ( http://arxiv.org/abs/2312.07991v3 )

ライセンス: Link先を確認
Alon Mor, Yonatan Belinkov, Benny Kimelfeld(参考訳) 局所的な説明手法は、手元にある文書の分類結果に大きな影響を与える入力トークンを強調します。 例えば、アンカーアルゴリズムはトークンの変更に対する分類器の感度の統計的分析を適用する。 データセットに局所的な説明を集約することで、モデルに関するグローバルな説明を提供する。 このような集約は、最も影響力のある単語を検出し、トレーニングで学んだことや、その弱点を明らかにする敵対的な例など、モデルに関する貴重な洞察を提供する。 しかし、標準的な集約手法は計算コストが高く、na\"ive実装は各文書の各トークンにコストのかかるアルゴリズムを適用するため、短い分析セッションの範囲内で実行される単純なユーザにとっては不可能である。 %Anchorアルゴリズムのグローバルアグリゲーションを高速化する手法を考案した。 具体的には、各アグリゲーション関数に応じて、最も高いグローバルインパクトを持つ上位k$ワードの集合を計算することを目的とする。 テクニックのいくつかは無損失で、いくつかは無損失です。 私たちは、非常に穏やかな品質低下のために、計算を最大30$\times$で加速することができ、計算を数時間から数分に短縮できることを示した。 また,アンカーアルゴリズムの雑音を考慮し,頻繁かつ影響の少ない単語に対するバイアスを減少させる確率モデルを開発し,検討する。

Local explanation methods highlight the input tokens that have a considerable impact on the outcome of classifying the document at hand. For example, the Anchor algorithm applies a statistical analysis of the sensitivity of the classifier to changes in the token. Aggregating local explanations over a dataset provides a global explanation of the model. Such aggregation aims to detect words with the most impact, giving valuable insights about the model, like what it has learned in training and which adversarial examples expose its weaknesses. However, standard aggregation methods bear a high computational cost: a na\"ive implementation applies a costly algorithm to each token of each document, and hence, it is infeasible for a simple user running in the scope of a short analysis session. % We devise techniques for accelerating the global aggregation of the Anchor algorithm. Specifically, our goal is to compute a set of top-$k$ words with the highest global impact according to different aggregation functions. Some of our techniques are lossless and some are lossy. We show that for a very mild loss of quality, we are able to accelerate the computation by up to 30$\times$, reducing the computation from hours to minutes. We also devise and study a probabilistic model that accounts for noise in the Anchor algorithm and diminishes the bias toward words that are frequent yet low in impact.
翻訳日:2024-01-15 23:55:11 公開日:2024-01-12
# スマートヘルスケアを目指して - IoTとMLの課題と機会

Towards Smart Healthcare: Challenges and Opportunities in IoT and ML ( http://arxiv.org/abs/2312.05530v2 )

ライセンス: Link先を確認
Munshi Saifuzzaman and Tajkia Nuri Ananna(参考訳) 新型コロナウイルス(COVID-19)のパンデミックや他の健康危機は、世界中の医療サービスを促進する必要性を強調している。 病院や診療所を中心とした伝統的な医療システムは、このような課題に直面して不十分であることが証明されている。 現代医療の重要な部分であるインテリジェントウェアラブルデバイスは、IoT技術を活用して、環境や心理的、行動的、身体的健康に関する広範なデータを収集する。 しかし、これらのウェアラブルや他のIoTデバイスが医療で生成する実質的なデータを管理することは、意思決定プロセスを妨げる可能性がある、重大な課題となる。 近年、情報抽出や洞察の獲得、予測にデータ分析を適用することへの関心が高まっている。 さらに、さまざまなビッグデータやネットワーク上の課題に対処することで知られる機械学習は、医療におけるIoTシステムを強化するための実装が増加している。 この章は、IoTヘルスケアセクターにMLメソッドを統合する際に直面するハードルを探求することに焦点を当てている。 それは、IoTベースの、MLベースの、IoTベースのヘルスケア産業における機械学習方法論の実装の3つのシナリオに分類された、現在の研究課題と潜在的な機会に関する包括的な概要を提供する。 このコンピレーションは、最近のスマートヘルスケアの進歩に関する貴重な洞察を提供することで、将来の研究者、医療専門家、政府機関を支援する。

The COVID-19 pandemic and other ongoing health crises have underscored the need for prompt healthcare services worldwide. The traditional healthcare system, centered around hospitals and clinics, has proven inadequate in the face of such challenges. Intelligent wearable devices, a key part of modern healthcare, leverage Internet of Things technology to collect extensive data related to the environment as well as psychological, behavioral, and physical health. However, managing the substantial data generated by these wearables and other IoT devices in healthcare poses a significant challenge, potentially impeding decision-making processes. Recent interest has grown in applying data analytics for extracting information, gaining insights, and making predictions. Additionally, machine learning, known for addressing various big data and networking challenges, has seen increased implementation to enhance IoT systems in healthcare. This chapter focuses exclusively on exploring the hurdles encountered when integrating ML methods into the IoT healthcare sector. It offers a comprehensive summary of current research challenges and potential opportunities, categorized into three scenarios: IoT-based, ML-based, and the implementation of machine learning methodologies in the IoT-based healthcare industry. This compilation will assist future researchers, healthcare professionals, and government agencies by offering valuable insights into recent smart healthcare advancements.
翻訳日:2024-01-15 23:54:50 公開日:2024-01-12
# 人工知能を用いた通信システムのための生成ネットワーク層

Generative Network Layer for Communication Systems with Artificial Intelligence ( http://arxiv.org/abs/2312.05398v2 )

ライセンス: Link先を確認
Mathias Thorsager, Israel Leyva-Mayorga, Beatriz Soret, and Petar Popovski(参考訳) ネットワークレイヤの伝統的な役割は、中間ネットワークノードを介してソースから宛先へのパケットレプリカの転送である。 本稿では、中間またはエッジのネットワークノードで生成ai(genai)を使用して、そのネットワークに必要なデータレートへの影響を分析する生成ネットワーク層を提案する。 我々はGenAI支援ノードが実質的に圧縮された潜在表現からなるプロンプトから画像を生成するケーススタディを行う。 画像品質制約下でのネットワークフロー解析の結果から,生成ネットワーク層が要求されるデータレートで100%以上の改善を達成できることが示唆された。

The traditional role of the network layer is the transfer of packet replicas from source to destination through intermediate network nodes. We present a generative network layer that uses Generative AI (GenAI) at intermediate or edge network nodes and analyze its impact on the required data rates in the network. We conduct a case study where the GenAI-aided nodes generate images from prompts that consist of substantially compressed latent representations. The results from network flow analyses under image quality constraints show that the generative network layer can achieve an improvement of more than 100% in terms of the required data rate.
翻訳日:2024-01-15 23:54:33 公開日:2024-01-12
# アト秒光イオン化における量子絡み合いのベル試験

Bell test of quantum entanglement in attosecond photoionization ( http://arxiv.org/abs/2312.05036v2 )

ライセンス: Link先を確認
Marco Ruberti, Vitali Averbukh, Florian Mintert(参考訳) アト秒物理学は、光励起と光イオン化による物質の超高速コヒーレント電子動力学の研究を可能にし、ホールマイグレーションや分子内のコヒーレントオージェダイナミクスなどの壮大な効果を明らかにした。 光イオン化のシナリオでは、個々の親イオンおよび光電子系における内部量子コヒーレンスの物理的顕現性を調べることに強く焦点が当てられている。 しかし、アト秒光電離現象から生じるこれら2つのサブシステム間の量子相関は、これまでずっと解明されていない。 本研究では,ベル試験の形でのアト秒光イオン化における量子エンタングルメントの直接プローブを理論的・数値的に設計する。 ベル不等式に頑健な違反を予測できる超短パルス赤外レーザーパルスによる希ガス原子の光イオン化に関するベル試験プロトコルを第一原理からシミュレートした。 この理論的結果は、多電子系の超高速光イオン化の文脈における絡み合いの直接観察への道を開く。 本研究は,分子イオンの化学分解経路を含む,超高速コヒーレント分子動力学における絡み合いのシグネチャを解き放ち,アト秒光イオン化中に生じる系間の量子相関の検出を指向した,アト秒物理学の異なる視点を提供する。

Attosecond physics enables the study of ultrafast coherent electron dynamics in matter upon photoexcitation and photoionization, revealing spectacular effects such as hole migration and coherent Auger dynamics in molecules. In the photoionization scenario, there has been a strong focus on probing the physical manifestations of the internal quantum coherence within the individual parent ion and photoelectron systems. However, quantum correlations between these two subsystems emerging from the attosecond photoionization event have thus far remained much more elusive. In this work, we design theoretically and model numerically a direct probe of quantum entanglement in attosecond photoionization in the form of a Bell test. We simulate from first principles a Bell test protocol for the case of noble gas atoms photoionized by ultrashort, circularly polarized infrared laser pulses in the strong-field regime predicting robust violation of the Bell inequality. This theoretical result paves the way to the direct observation of entanglement in the context of ultrafast photoionization of many-electron systems. Our work provides a different perspective on attosecond physics directed towards the detection of quantum correlations between systems born during attosecond photoionization and unravelling the signatures of entanglement in the ultrafast coherent molecular dynamics, including in the chemical decomposition pathways of molecular ions.
翻訳日:2024-01-15 23:54:25 公開日:2024-01-12
# キャッシュ 可能ならば: ブロックキャッシングによる拡散モデルの高速化

Cache Me if You Can: Accelerating Diffusion Models through Block Caching ( http://arxiv.org/abs/2312.03209v2 )

ライセンス: Link先を確認
Felix Wimbauer, Bichen Wu, Edgar Schoenfeld, Xiaoliang Dai, Ji Hou, Zijian He, Artsiom Sanakoyeu, Peizhao Zhang, Sam Tsai, Jonas Kohler, Christian Rupprecht, Daniel Cremers, Peter Vajda, Jialiang Wang(参考訳) 拡散モデルは最近、フォトリアリスティックな画像を生成する能力によって画像合成の分野に革命をもたらした。 しかしながら、拡散モデルの主な欠点の一つは、画像生成プロセスがコストがかかることである。 ランダムノイズから画像を反復的に洗練するために、大規模な画像対画像ネットワークを何度も適用する必要がある。 近年の多くの研究は必要なステップ数を減らす手法を提案しているが、一般に根底にある認知ネットワークをブラックボックスとして扱う。 本研究では,ネットワーク内のレイヤの挙動を調査し,それを検出する。 1) レイヤの出力は時間とともにスムーズに変化する。 2) 層は変化の異なるパターンを示し、 3) ステップからステップへの変更は、しばしば非常に小さい。 我々はデノナイジングネットワークにおける多くの層計算が冗長であると仮定する。 これを活用して、従来のステップのレイヤブロックからの出力を再利用して推論を高速化するブロックキャッシュを導入します。 さらに,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。 実験では,FID,人体評価,定性解析により,Block Cachingは,同じ計算コストで高画質の画像を生成することができることを示した。 我々は、異なる最先端モデル(LDMとEMU)と解法(DDIMとDPM)に対してこれを実証する。

Diffusion models have recently revolutionized the field of image synthesis due to their ability to generate photorealistic images. However, one of the major drawbacks of diffusion models is that the image generation process is costly. A large image-to-image network has to be applied many times to iteratively refine an image from random noise. While many recent works propose techniques to reduce the number of required steps, they generally treat the underlying denoising network as a black box. In this work, we investigate the behavior of the layers within the network and find that 1) the layers' output changes smoothly over time, 2) the layers show distinct patterns of change, and 3) the change from step to step is often very small. We hypothesize that many layer computations in the denoising network are redundant. Leveraging this, we introduce block caching, in which we reuse outputs from layer blocks of previous steps to speed up inference. Furthermore, we propose a technique to automatically determine caching schedules based on each block's changes over timesteps. In our experiments, we show through FID, human evaluation and qualitative analysis that Block Caching allows to generate images with higher visual quality at the same computational cost. We demonstrate this for different state-of-the-art models (LDM and EMU) and solvers (DDIM and DPM).
翻訳日:2024-01-15 23:54:02 公開日:2024-01-12
# フォトニッククイディット媒介エンタングルメント生成における誤差相関

Error Correlations in Photonic Qudit-Mediated Entanglement Generation ( http://arxiv.org/abs/2312.01519v2 )

ライセンス: Link先を確認
Xiaoyu Liu, Niv Bharos, Liubov Markovich, Johannes Borregaard(参考訳) 分散ネットワークノード間の絡み合いの生成は、量子インターネットの前提条件である。 高次元フォトニックquditに基づくエンタングルメント分散プロトコルにより、複数のエンタングルペアを同時に生成することができ、クビットレジスタの必要なコヒーレンス時間を大幅に削減することができる。 しかし、現在の方式では高速光スイッチが必要であり、これは実験的に難しい。 さらに、キュービットプロトコルと比較して、quditプロトコルにおける生成した絡み合ったペア間の高い誤差相関が研究されていない。 我々は、光スイッチの必要性を完全に回避し、現在の実験システムでよりアクセスしやすいquditによる絡み合いプロトコルを提案する。 さらに、同時に生成された絡み合いペア間の誤差相関量を定量化し、絡み合い除去アルゴリズムとテレポーテーションに基づく量子誤差補正の効果を分析する。 最適化された浄化方式は相関誤差を効率よく補正できるが,ここで検討した量子誤り訂正符号は非相関誤差モデルよりも悪い性能を示す。

Generating entanglement between distributed network nodes is a prerequisite for the quantum internet. Entanglement distribution protocols based on high-dimensional photonic qudits enable the simultaneous generation of multiple entangled pairs, which can significantly reduce the required coherence time of the qubit registers. However, current schemes require fast optical switching, which is experimentally challenging. In addition, the higher degree of error correlation between the generated entangled pairs in qudit protocols compared to qubit protocols has not been studied in detail. We propose a qudit-mediated entangling protocol that completely circumvents the need for optical switches, making it more accessible for current experimental systems. Furthermore, we quantify the amount of error correlation between the simultaneously generated entangled pairs and analyze the effect on entanglement purification algorithms and teleportation-based quantum error correction. We find that optimized purification schemes can efficiently correct the correlated errors, while the quantum error correction codes studied here perform worse than for uncorrelated error models.
翻訳日:2024-01-15 23:53:41 公開日:2024-01-12
# Mergen: 拡張データを用いた最初の満州・韓国機械翻訳モデル

Mergen: The First Manchu-Korean Machine Translation Model Trained on Augmented Data ( http://arxiv.org/abs/2311.17492v2 )

ライセンス: Link先を確認
Jean Seo, Sungjoo Byun, Minha Kang, Sangah Lee(参考訳) 中国北東部の歴史的満州地方に起源を持つ満州語は現在、話者がほとんどいないため、絶滅の危機に直面している。 満州語を保護すべく,満州・朝鮮語機械翻訳(MT)モデルの最初の試みであるMergenを紹介した。 このモデルを開発するには,マンウェン・ラオダン(歴史書)や満州・朝鮮語辞書などの貴重な資料を利用する。 満州・韓国の並列データセットが不足しているため、GloVe埋め込みでガイドされた単語置換を用いて、モノリンガルテキストとパラレルテキストの両方でトレーニングすることで、データを拡張しています。 本手法は,双方向ゲートリカレントユニット(gru)層を組み込んだエンコーダ・デコーダニューラルマシン翻訳モデルを中心に構築した。 実験は有望な結果をもたらし、満州・朝鮮語訳が大幅に向上し、ブレウスコアが20-30ポイント上昇した。

The Manchu language, with its roots in the historical Manchurian region of Northeast China, is now facing a critical threat of extinction, as there are very few speakers left. In our efforts to safeguard the Manchu language, we introduce Mergen, the first-ever attempt at a Manchu-Korean Machine Translation (MT) model. To develop this model, we utilize valuable resources such as the Manwen Laodang(a historical book) and a Manchu-Korean dictionary. Due to the scarcity of a Manchu-Korean parallel dataset, we expand our data by employing word replacement guided by GloVe embeddings, trained on both monolingual and parallel texts. Our approach is built around an encoder-decoder neural machine translation model, incorporating a bi-directional Gated Recurrent Unit (GRU) layer. The experiments have yielded promising results, showcasing a significant enhancement in Manchu-Korean translation, with a remarkable 20-30 point increase in the BLEU score.
翻訳日:2024-01-15 23:53:03 公開日:2024-01-12
# 任意の階数 1 の単純リー代数の一般化コヒーレント状態の間の重なりの公式

A formula for the overlap between Generalized Coherent States of any rank one simple Lie algebra ( http://arxiv.org/abs/2311.16385v3 )

ライセンス: Link先を確認
Nicola Pranzini(参考訳) 任意のランク1の単純リー代数の2つの一般化コヒーレント状態間の重なりを計算する公式を提供する。 そして、この式をスピンコヒーレント状態(例えば、$\mathfrak{su}(2)$環)、擬スピンコヒーレント状態(すなわち、$\mathfrak{su}(1,1)$環)、および$\mathfrak{sl}(2,\mathbb{R})$ビラソーロの部分代数に適用する。 これらすべての例において、コヒーレント状態の集合から半古典的挙動の出現を示し、代数とその表現に依存するパラメータが大きくなると、それが常に起こることを検証する。

We provide a formula for computing the overlap between two Generalized Coherent States of any rank one simple Lie algebra. Then, we apply our formula to spin coherent states (i.e. $\mathfrak{su}(2)$ algebra), pseudo-spin coherent states (i.e. $\mathfrak{su}(1,1)$ algebra), and the $\mathfrak{sl}(2,\mathbb{R})$ subalgebras of Virasoro. In all these examples, we show the emergence of a semi-classical behaviour from the set of coherent states and verify that it always happens when some parameter, depending on the algebra and its representation, becomes large.
翻訳日:2024-01-15 23:52:46 公開日:2024-01-12
# 一般化量子有元ブラフトアルゴリズムとその量子情報ボトルネックへの応用

Generalized quantum Arimoto-Blahut algorithm and its application to quantum information bottleneck ( http://arxiv.org/abs/2311.11188v2 )

ライセンス: Link先を確認
Masahito Hayashi and Geng Liu(参考訳) 我々は、Ramakrishnan et al. (IEEE Trans) による量子アリーモト・ブラフトアルゴリズムを一般化する。 IT, 67, 946 (2021) は線形制約を持つ密度行列の集合上で定義される関数であり, 量子演算の最適化にアルゴリズムを適用することができる。 このアルゴリズムは適用範囲が広い。 そこで,本アルゴリズムを3つの量子システムを用いた量子情報ボトルネックに適用し,量子学習に適用する。 得られたアルゴリズムを,Grimsmo と Still (Phys) の既存アルゴリズムと比較した。 A, 94, 012338 (2016)。 数値解析の結果,我々のアルゴリズムはアルゴリズムよりも優れていることがわかった。

We generalize the quantum Arimoto-Blahut algorithm by Ramakrishnan et al. (IEEE Trans. IT, 67, 946 (2021)) to a function defined over a set of density matrices with linear constraints so that our algorithm can be applied to optimizations of quantum operations. This algorithm has wider applicability. Hence, we apply our algorithm to the quantum information bottleneck with three quantum systems, which can be used for quantum learning. We numerically compare our obtained algorithm with the existing algorithm by Grimsmo and Still (Phys. Rev. A, 94, 012338 (2016)). Our numerical analysis shows that our algorithm is better than their algorithm.
翻訳日:2024-01-15 23:52:28 公開日:2024-01-12
# 積分可能なスピン-$\frac{1}{2}$ XYZモデルにおける固有状態絡み合いエントロピー

Eigenstate entanglement entropy in the integrable spin-$\frac{1}{2}$ XYZ model ( http://arxiv.org/abs/2311.10819v2 )

ライセンス: Link先を確認
Rafa{\l} \'Swi\k{e}tek, Maksymilian Kliczkowski, Lev Vidmar and Marcos Rigol(参考訳) 我々は、積分可能な相互作用スピン-$$\frac{1}{2}$ XYZ鎖の高励起固有状態の絡み合いエントロピーの平均と標準偏差を、$U(1)$対称性と超対称性を持つ特別な直線から遠ざかる。 平均固有状態絡み合いエントロピーは量子カオス相互作用モデルよりも小さい体積-法則係数を示す。 超対称点において、縮退が計算平均に及ぼす影響を解消する。 さらに、固有状態エンタングルメントエントロピーの正規化標準偏差はシステムサイズの増加とともに多項式的に減衰し、量子カオス相互作用モデルにおける指数減衰とは対照的である。 この結果から,スピン=$\frac{1}{2}$鎖における積分性は,量子カオス相互作用モデルと比較して,高励起エネルギー固有状態の絡み合いエントロピーの標準偏差を減少させ,標準偏差を増大させることを示す。

We study the average and the standard deviation of the entanglement entropy of highly excited eigenstates of the integrable interacting spin-$\frac{1}{2}$ XYZ chain away from and at special lines with $U(1)$ symmetry and supersymmetry. We universally find that the average eigenstate entanglement entropy exhibits a volume-law coefficient that is smaller than that of quantum-chaotic interacting models. At the supersymmetric point, we resolve the effect that degeneracies have on the computed averages. We further find that the normalized standard deviation of the eigenstate entanglement entropy decays polynomially with increasing system size, which we contrast to the exponential decay in quantum-chaotic interacting models. Our results provide state-of-the art numerical evidence that integrability in spin-$\frac{1}{2}$ chains reduces the average, and increases the standard deviation, of the entanglement entropy of highly excited energy eigenstates when compared to those in quantum-chaotic interacting models.
翻訳日:2024-01-15 23:52:17 公開日:2024-01-12
# 線形補間による安定な非凸非凹トレーニング

Stable Nonconvex-Nonconcave Training via Linear Interpolation ( http://arxiv.org/abs/2310.13459v2 )

ライセンス: Link先を確認
Thomas Pethick, Wanyun Xie, Volkan Cevher(参考訳) 本稿では,線形補間理論をニューラルネットワークトレーニングの安定化(大規模)のための原理的手法として提案する。 最適化過程の不安定性はロスランドスケープの非単調性によってしばしば引き起こされ、線形補間が非拡大作用素の理論を活用してどのように役立つかを示す。 緩和近似近位点 (RAPP) と呼ばれる新しい最適化手法を構築し、これは、$\rho > -\tfrac{1}{2L}$のみを必要としながら、$\rho$-comonotone問題に対する最後の反復収束率を達成する最初の1-SCLI法である。 構成は制約付きおよび規則化された設定にまで拡張される。 RAPPにおける内部オプティマイザを置き換えることで、基底オプティマイザが勾配勾配勾配の上昇であるとしても、コヒポモノトン問題の収束を確立するLookaheadアルゴリズムの族を再発見する。 lookaheadが収束するコヒポモノトン問題の範囲は、lookaheadがベースオプティマイザの特性を継承することを利用してさらに拡大される。 RAPPとLookaheadの両方に存在する線形補間による利点を実証する、生成的対向ネットワークの実験で結果を裏付ける。

This paper presents a theoretical analysis of linear interpolation as a principled method for stabilizing (large-scale) neural network training. We argue that instabilities in the optimization process are often caused by the nonmonotonicity of the loss landscape and show how linear interpolation can help by leveraging the theory of nonexpansive operators. We construct a new optimization scheme called relaxed approximate proximal point (RAPP), which is the first 1-SCLI method to achieve last iterate convergence rates for $\rho$-comonotone problems while only requiring $\rho > -\tfrac{1}{2L}$. The construction extends to constrained and regularized settings. By replacing the inner optimizer in RAPP we rediscover the family of Lookahead algorithms for which we establish convergence in cohypomonotone problems even when the base optimizer is taken to be gradient descent ascent. The range of cohypomonotone problems in which Lookahead converges is further expanded by exploiting that Lookahead inherits the properties of the base optimizer. We corroborate the results with experiments on generative adversarial networks which demonstrates the benefits of the linear interpolation present in both RAPP and Lookahead.
翻訳日:2024-01-15 23:51:06 公開日:2024-01-12
# 金融の因果性に関する3つの考察--時間分解能、非定常性、潜在要因

On the Three Demons in Causality in Finance: Time Resolution, Nonstationarity, and Latent Factors ( http://arxiv.org/abs/2401.05414v2 )

ライセンス: Link先を確認
Xinshuai Dong, Haoyue Dai, Yewen Fan, Songyao Jin, Sathyamoorthy Rajendran, Kun Zhang(参考訳) 金融データは基本的に時系列であり、時間分解のミスマッチ、分布の時間的変動特性(非定常性)、重要だが未知の因果要因という3つの根本的な問題に苦しむ。 本稿では,金融におけるこれら3つの悪魔を体系的に調べるための因果的視点に従う。 具体的には、これらの問題を因果関係の文脈で再検討し、問題がどのように対処できるのかを新しくて刺激的な理解へと導く。 この観点から、我々はこれらの問題に対する体系的な解決策を提供し、この領域における将来の研究の基盤となることを願っている。

Financial data is generally time series in essence and thus suffers from three fundamental issues: the mismatch in time resolution, the time-varying property of the distribution - nonstationarity, and causal factors that are important but unknown/unobserved. In this paper, we follow a causal perspective to systematically look into these three demons in finance. Specifically, we reexamine these issues in the context of causality, which gives rise to a novel and inspiring understanding of how the issues can be addressed. Following this perspective, we provide systematic solutions to these problems, which hopefully would serve as a foundation for future research in the area.
翻訳日:2024-01-15 23:43:50 公開日:2024-01-12
# autovisual fusion suite: huggingfaceプラットフォームにおける画像分割と音声変換ツールの包括的評価

AutoVisual Fusion Suite: A Comprehensive Evaluation of Image Segmentation and Voice Conversion Tools on HuggingFace Platform ( http://arxiv.org/abs/2401.05379v2 )

ライセンス: Link先を確認
Amirreza Hashemi(参考訳) 本研究では,HuggingFaceプラットフォーム上で利用可能なツールについて,画像分割と音声変換の2つの重要な応用について総合評価を行った。 主な目的は、各カテゴリの上位3つのツールを特定し、その後これらのツールをLinuxシステムにインストールして設定することであった。 画像分割のためのresnet-50バックボーンと音声変換のためのso-vits-svc-forkモデルを用いたsamおよびdetrモデルなどの事前学習されたセグメンテーションモデルのパワーを活用した。 本稿では,実装プロセス中に遭遇した方法論と課題を考察し,autovisual fusion suite という統一プロジェクトにおいて,映像分割と音声変換の組み合わせが成功したことを示す。

This study presents a comprehensive evaluation of tools available on the HuggingFace platform for two pivotal applications in artificial intelligence: image segmentation and voice conversion. The primary objective was to identify the top three tools within each category and subsequently install and configure these tools on Linux systems. We leveraged the power of pre-trained segmentation models such as SAM and DETR Model with ResNet-50 backbone for image segmentation, and the so-vits-svc-fork model for voice conversion. This paper delves into the methodologies and challenges encountered during the implementation process, and showcases the successful combination of video segmentation and voice conversion in a unified project named AutoVisual Fusion Suite.
翻訳日:2024-01-15 23:43:38 公開日:2024-01-12
# 多レベルドメインアライメントによる睡眠ステージングの一般化

Generalizable Sleep Staging via Multi-Level Domain Alignment ( http://arxiv.org/abs/2401.05363v2 )

ライセンス: Link先を確認
Jiquan Wang, Sha Zhao, Haiteng Jiang, Shijian Li, Tao Li, Gang Pan(参考訳) 自動睡眠ステージングは睡眠アセスメントと障害診断に不可欠である。 既存のほとんどのメソッドは、特定のデータセットに依存しており、トレーニングデータとテストデータが同じデータセットから得られる、他の見えないデータセットに一般化するように制限されている。 本稿では,自動睡眠ステージングにドメイン一般化を導入し,データセットを認識不能にするためのモデル一般化能力の向上を目的とした一般化睡眠ステージングのタスクを提案する。 既存の領域一般化手法に着想を得て,機能アライメントの考え方を採用し,SleepDGと呼ばれるフレームワークを提案する。 睡眠のステージングには,局所的特徴と逐次的特徴の両方が重要であることを考慮し,エポックレベルとシーケンスレベルの特徴アライメントを組み合わせたマルチレベル特徴アライメントを提案し,ドメイン不変特徴表現を学習する。 具体的には,各単一睡眠期間の特徴分布を異なるドメイン間で調整するエポックレベル機能アライメントと,異なるドメイン間の逐次的特徴の差を最小限に抑えるシーケンスレベル機能アライメントを設計した。 SleepDGは5つの公開データセットで検証され、最先端のパフォーマンスを達成する。

Automatic sleep staging is essential for sleep assessment and disorder diagnosis. Most existing methods depend on one specific dataset and are limited to be generalized to other unseen datasets, for which the training data and testing data are from the same dataset. In this paper, we introduce domain generalization into automatic sleep staging and propose the task of generalizable sleep staging which aims to improve the model generalization ability to unseen datasets. Inspired by existing domain generalization methods, we adopt the feature alignment idea and propose a framework called SleepDG to solve it. Considering both of local salient features and sequential features are important for sleep staging, we propose a Multi-level Feature Alignment combining epoch-level and sequence-level feature alignment to learn domain-invariant feature representations. Specifically, we design an Epoch-level Feature Alignment to align the feature distribution of each single sleep epoch among different domains, and a Sequence-level Feature Alignment to minimize the discrepancy of sequential features among different domains. SleepDG is validated on five public datasets, achieving the state-of-the-art performance.
翻訳日:2024-01-15 23:43:23 公開日:2024-01-12
# 階層型時間論理仕様に基づく複数ロボットのタスク割当と計画

Simultaneous Task Allocation and Planning for Multi-Robots under Hierarchical Temporal Logic Specifications ( http://arxiv.org/abs/2401.04003v2 )

ライセンス: Link先を確認
Xusheng Luo and Changliu Liu(参考訳) 時間論理仕様を用いたロボット計画に関する過去の研究、特に線形時間論理(LTL)は、主に個々のロボットやグループの特異な公式に基づいていた。 しかし、タスクの複雑さが増すにつれて、ltlの公式は避けられないほど長くなり、解釈や仕様作成を複雑にし、プランナーの計算能力に負担がかかる。 タスクの本質的な構造を活用することで,構文や意味論の要件を満たすLTL仕様に階層構造を導入し,それらがフラットな仕様よりも表現力が高いことを示した。 第2に,マルチロボットシステムの計画合成に検索に基づく手法を採用し,タスク割り当てと計画の同時実行を実現している。 探索空間は緩い相互接続された部分空間によって近似され、各部分空間は1つのLTL仕様に対応する。 探索は主に1つの部分空間に限られ、ある条件下で別の部分空間に遷移し、オートマトン分解によって決定される。 さらに、複数のヒューリスティックを定式化し、探索を著しく高速化する。 完全性と最適性に関する理論的解析は、穏やかな仮定の下で行われる。 サービスタスクの既存のメソッドと比較すると、このメソッドは実行時間と同等のソリューション品質で優れています。 最後に、30のロボットのグループをテストし、適切なランタイムを達成することでスケーラビリティを評価する。

Past research into robotic planning with temporal logic specifications, notably Linear Temporal Logic (LTL), was largely based on singular formulas for individual or groups of robots. But with increasing task complexity, LTL formulas unavoidably grow lengthy, complicating interpretation and specification generation, and straining the computational capacities of the planners. By leveraging the intrinsic structure of tasks, we introduced a hierarchical structure to LTL specifications with requirements on syntax and semantics, and proved that they are more expressive than their flat counterparts. Second, we employ a search-based approach to synthesize plans for a multi-robot system, accomplishing simultaneous task allocation and planning. The search space is approximated by loosely interconnected sub-spaces, with each sub-space corresponding to one LTL specification. The search is predominantly confined to a single sub-space, transitioning to another sub-space under certain conditions, determined by the decomposition of automatons. Moreover, multiple heuristics are formulated to expedite the search significantly. A theoretical analysis concerning completeness and optimality is conducted under mild assumptions. When compared with existing methods on service tasks, our method outperforms in terms of execution times with comparable solution quality. Finally, scalability is evaluated by testing a group of 30 robots and achieving reasonable runtimes.
翻訳日:2024-01-15 23:42:35 公開日:2024-01-12
# ロバスト物理インフォームドニューラルネットワーク

Robust Physics Informed Neural Networks ( http://arxiv.org/abs/2401.02300v2 )

ライセンス: Link先を確認
Marcin {\L}o\'s, Maciej Paszy\'nski(参考訳) 偏微分方程式 (PDE) を近似するために, 物理情報ニューラルネットワーク (RPINN) のロバスト版を導入する。 標準物理情報ニューラルネットワーク(PINN)は、学習過程においてPDEが記述した物理法則を考慮に入れている。 ネットワークは、物理領域とその境界内のランダムに選択された点からなるデータセット上でトレーニングされる。 PINNは境界条件を持つPDEによって記述された様々な問題の解決に成功している。 従来のPINNの損失関数はPDEの強い残基に基づいている。 PINNにおけるこの損失関数は、一般に真の誤りに関して堅牢ではない。 PINNの損失関数は真のエラーとは程遠いため、トレーニングプロセスはより難しくなる。 特に、トレーニングプロセスが既に必要な精度でソリューションに収束したかどうかは不明です。 これは、正確な解決策がわからなければ特に当てはまるので、トレーニング中に真のエラーを見積もることはできません。 本稿では、損失関数を定義する別の方法を紹介する。 これは、エネルギーノルムを用いて計算されたグラム行列の残差と逆行列を組み込む。 2つのラプラス問題と2つの空間次元のアドベクション拡散問題に対してrpinnアルゴリズムをテストした。 rpinnはロバストな方法であると結論づける。 提案された損失は、エネルギーノルムで測定された解の真の誤りとよく一致する。 したがって、トレーニングプロセスがうまく行っているかどうかが分かっており、PDEの解のニューラルネットワーク近似を真に正確な精度の誤差で取得するためにトレーニングをいつ停止するかを知っています。

We introduce a Robust version of the Physics-Informed Neural Networks (RPINNs) to approximate the Partial Differential Equations (PDEs) solution. Standard Physics Informed Neural Networks (PINN) takes into account the governing physical laws described by PDE during the learning process. The network is trained on a data set that consists of randomly selected points in the physical domain and its boundary. PINNs have been successfully applied to solve various problems described by PDEs with boundary conditions. The loss function in traditional PINNs is based on the strong residuals of the PDEs. This loss function in PINNs is generally not robust with respect to the true error. The loss function in PINNs can be far from the true error, which makes the training process more difficult. In particular, we do not know if the training process has already converged to the solution with the required accuracy. This is especially true if we do not know the exact solution, so we cannot estimate the true error during the training. This paper introduces a different way of defining the loss function. It incorporates the residual and the inverse of the Gram matrix, computed using the energy norm. We test our RPINN algorithm on two Laplace problems and one advection-diffusion problem in two spatial dimensions. We conclude that RPINN is a robust method. The proposed loss coincides well with the true error of the solution, as measured in the energy norm. Thus, we know if our training process goes well, and we know when to stop the training to obtain the neural network approximation of the solution of the PDE with the true error of required accuracy.
翻訳日:2024-01-15 23:41:48 公開日:2024-01-12
# 電気通信Cバンドにおける電荷可変量子光源の円形フォトニック結晶格子設計

Circular photonic crystal grating design for charge-tunable quantum light sources in the telecom C-band ( http://arxiv.org/abs/2401.01447v2 )

ライセンス: Link先を確認
Chenxi Ma, Jingzhong Yang, Pengji Li, Eddy P. Rugeramigabo, Michael Zopf, Fei Ding(参考訳) テレコム波長における絡み合った光子対の効率的な生成は、長距離量子ネットワークの鍵となる要素である。 半導体量子ドットをハイブリッドな円形ブラッググレーティングに埋め込むことは効果的であることが証明されているが、より優れたコヒーレンスを提供するp$-$i$-n$ダイオードヘテロ構造と相反する。 光特性を損なうことなく, 荷電担体輸送を容易にするために, 空気孔を取り入れたハイブリッド円形フォトニック結晶格子を提案し, 解析する。 数値シミュレーションにより、エキシトンとバイエクシトンの両方の遷移が23のパーセル係数を持つ広いキャビティモードと、数値開口が0.7の目的に対して92.4%の例外的な収集効率を達成する。 さらに, 直結効率90%以上の直接結合効率を, テレコムCバンド全体に対する単モードファイバに示す。 これにより、ハイコヒーレントな偏光子対を効率的に生成するための有望な解として、ハイブリッド円形フォトニック結晶格子が出現する。

Efficient generation of entangled photon pairs at telecom wavelengths is a key ingredient for long-range quantum networks. While embedding semiconductor quantum dots into hybrid circular Bragg gratings has proven effective, it conflicts with $p$-$i$-$n$ diode heterostructures which offer superior coherence. We propose and analyze hybrid circular photonic crystal gratings, incorporating air holes to facilitate charge carrier transport without compromising optical properties. Through numerical simulations, a broad cavity mode with a Purcell factor of 23 enhancing both exciton and biexciton transitions, and exceptional collection efficiency of 92.4% into an objective with numerical aperture of 0.7 are achieved. Furthermore, our design demonstrates direct coupling efficiency over 90% into a single-mode fiber over the entire telecom C-band. The hybrid circular photonic crystal grating thereby emerges as a promising solution for the efficient generation of highly coherent, polarization-entangled photon pairs.
翻訳日:2024-01-15 23:41:24 公開日:2024-01-12
# 総合指標を用いた因子重要度ランキングと選択

Factor Importance Ranking and Selection using Total Indices ( http://arxiv.org/abs/2401.00800v2 )

ライセンス: Link先を確認
Chaofan Huang, V. Roshan Joseph(参考訳) 因子の重要性は、各特徴が出力予測精度に与える影響を測定する。 既存の多くの研究はモデルに基づく重要性に重点を置いているが、一つの学習アルゴリズムの重要な特徴は他のモデルではほとんど意味を持たないかもしれない。 したがって、特定の予測アルゴリズムに頼ることなく、特徴の予測ポテンシャルを特徴付けることが重要となる。 このようなアルゴリズムに依存しない重要性は、Williamson et al. (2023) において本質的な重要性と呼ばれるが、その推定には再びモデルフィッティングが必要である。 モデリングステップを回避し,大域的感度解析から予測可能性と総ソボル指数の等価性を示すとともに,ノイズデータから直接推定できる新しい一貫した推定器を導入する。 前方選択と後方削除を統合することで、FIRST、Facter Importance Ranking、およびTotal (Sobol')指標による選択が生まれる。 回帰および二項分類問題に対するFIRSTの有効性と、最先端手法に対する明らかな優位性を示すため、広範囲なシミュレーションが提供される。

Factor importance measures the impact of each feature on output prediction accuracy. Many existing works focus on the model-based importance, but an important feature in one learning algorithm may hold little significance in another model. Hence, a factor importance measure ought to characterize the feature's predictive potential without relying on a specific prediction algorithm. Such algorithm-agnostic importance is termed as intrinsic importance in Williamson et al. (2023), but their estimator again requires model fitting. To bypass the modeling step, we present the equivalence between predictiveness potential and total Sobol' indices from global sensitivity analysis, and introduce a novel consistent estimator that can be directly estimated from noisy data. Integrating with forward selection and backward elimination gives rise to FIRST, Factor Importance Ranking and Selection using Total (Sobol') indices. Extensive simulations are provided to demonstrate the effectiveness of FIRST on regression and binary classification problems, and a clear advantage over the state-of-the-art methods.
翻訳日:2024-01-15 23:41:06 公開日:2024-01-12
# TTP分析の強化: 検索拡張生成を伴うエンコーダオンリーおよびデコーダオンリー言語モデルの高機能化

Advancing TTP Analysis: Harnessing the Power of Encoder-Only and Decoder-Only Language Models with Retrieval Augmented Generation ( http://arxiv.org/abs/2401.00280v2 )

ライセンス: Link先を確認
Reza Fayyazi, Rozhina Taghdimi, Shanchieh Jay Yang(参考訳) TTP(Tactics, Techniques, and Procedures)は、攻撃者が脆弱性を悪用するために使用する方法の概要である。 MITRE ATT&CKフレームワークにおけるTPの解釈は、想定される専門知識、複雑な依存関係、固有の曖昧さのためにサイバーセキュリティ実践者にとって困難である。 一方、LLM(Large Language Models)による進歩は、サイバーセキュリティオペレーションにおけるその利用を探求する研究が近年急増している。 これにより、エンコーダのみ(例えばRoBERTa)とデコーダのみ(例えばGPT-3.5)のLLMが、TTPを理解・要約して、サイバー攻撃手順の意図された目的(戦術)をアナリストに通知できるかどうかを問うことができる。 最先端のLSMは、サイバーセキュリティのような重要な領域で問題となる不正確な情報を提供することによって幻覚を起こす傾向がある。 そこで,本稿では,デコーダのみのLCMに対して,関連するコンテキストを抽出するための検索拡張生成(RAG)手法を提案する。 さらに、エンコーダのみのllmの教師付き微調整(sft)に対するアプローチを対比する。 その結果,デコーダのみのLSM(事前訓練済み知識)の直接使用とエンコーダのみのLSMのSFTの両方が,サイバー攻撃手順の正確な解釈を提供することがわかった。 RAGがデコーダのみのLLMに使用される場合、特に直接関連するコンテキストが見つかった場合、重要な改善が示される。 本研究は, TTPの解釈において, LLMにRAGを用いることの限界と能力について考察する。

Tactics, Techniques, and Procedures (TTPs) outline the methods attackers use to exploit vulnerabilities. The interpretation of TTPs in the MITRE ATT&CK framework can be challenging for cybersecurity practitioners due to presumed expertise, complex dependencies, and inherent ambiguity. Meanwhile, advancements with Large Language Models (LLMs) have led to recent surge in studies exploring its uses in cybersecurity operations. This leads us to question how well encoder-only (e.g., RoBERTa) and decoder-only (e.g., GPT-3.5) LLMs can comprehend and summarize TTPs to inform analysts of the intended purposes (i.e., tactics) of a cyberattack procedure. The state-of-the-art LLMs have shown to be prone to hallucination by providing inaccurate information, which is problematic in critical domains like cybersecurity. Therefore, we propose the use of Retrieval Augmented Generation (RAG) techniques to extract relevant contexts for each cyberattack procedure for decoder-only LLMs (without fine-tuning). We further contrast such approach against supervised fine-tuning (SFT) of encoder-only LLMs. Our results reveal that both the direct-use of decoder-only LLMs (i.e., its pre-trained knowledge) and the SFT of encoder-only LLMs offer inaccurate interpretation of cyberattack procedures. Significant improvements are shown when RAG is used for decoder-only LLMs, particularly when directly relevant context is found. This study further sheds insights on the limitations and capabilities of using RAG for LLMs in interpreting TTPs.
翻訳日:2024-01-15 23:40:47 公開日:2024-01-12
# Shape-IoU: ボックス形状とスケールのバウンディングを考慮した高精度メトリック

Shape-IoU: More Accurate Metric considering Bounding Box Shape and Scale ( http://arxiv.org/abs/2312.17663v2 )

ライセンス: Link先を確認
Hao Zhang, Shuaijie Zhang(参考訳) 検出器ローカライゼーションブランチの重要な構成要素として、境界ボックス回帰損失はオブジェクト検出タスクにおいて重要な役割を果たす。 既設のバウンディングボックス回帰法は,通常,gtボックスと予測ボックスの幾何学的関係を考慮し,バウンディングボックスの相対位置と形状を用いて損失を算出し,バウンディングボックスの形状やスケールといった固有の特性がバウンディングボックス回帰に与える影響を無視する。 本稿では,既存の研究の欠点を補うために,境界箱自体の形状とスケールに着目したバウンディングボックス回帰法を提案する。 まず,境界ボックスの回帰特性を分析し,境界ボックス自体の形状とスケール係数が回帰結果に影響を及ぼすことを発見した。 以上の結論に基づいて,境界箱自体の形状とスケールに着目して損失を計算し,境界箱の回帰をより正確にする形状IoU法を提案する。 最後に,本手法を多数の比較実験により検証し,検出性能を効果的に向上し,既存の手法を上回り,異なる検出タスクで最先端のパフォーマンスを実現することを実証した。

As an important component of the detector localization branch, bounding box regression loss plays a significant role in object detection tasks. The existing bounding box regression methods usually consider the geometric relationship between the GT box and the predicted box, and calculate the loss by using the relative position and shape of the bounding boxes, while ignoring the influence of inherent properties such as the shape and scale of the bounding boxes on bounding box regression. In order to make up for the shortcomings of existing research, this article proposes a bounding box regression method that focuses on the shape and scale of the bounding box itself. Firstly, we analyzed the regression characteristics of the bounding boxes and found that the shape and scale factors of the bounding boxes themselves will have an impact on the regression results. Based on the above conclusions, we propose the Shape IoU method, which can calculate the loss by focusing on the shape and scale of the bounding box itself, thereby making the bounding box regression more accurate. Finally, we validated our method through a large number of comparative experiments, which showed that our method can effectively improve detection performance and outperform existing methods, achieving state-of-the-art performance in different detection tasks.Code is available at https://github.com/malagoutou/Shape-IoU
翻訳日:2024-01-15 23:40:19 公開日:2024-01-12
# MVPatch:現実世界の物体探知機に対する敵のカモフラージュ攻撃のより鮮明なパッチ

MVPatch: More Vivid Patch for Adversarial Camouflaged Attacks on Object Detectors in the Physical World ( http://arxiv.org/abs/2312.17431v2 )

ライセンス: Link先を確認
Zheng Zhou, Hongbo Zhao, Ju Liu, Qiaosheng Zhang, Liwei Geng, Shuchang Lyu and Wenquan Feng(参考訳) 近年の研究では、対向パッチを用いて物体検出モデルの結果を操作できることが示されている。 しかし、これらのパッチの顕著なパターンは、より注意を引き、人間の間で疑念を喚起する可能性がある。 さらに、既存の研究は、ステルス特性と転送可能性の可能性を最適化するよりも、物理領域における攻撃の有効性を高めることに重点を置いている。 これらの問題に対処するために、Mor Vivid Patch(MVPatch)として知られる敵パッチを生成するデュアルパーセプションベースのアタックフレームワークを導入する。 この枠組みは、モデル知覚劣化法と、人間知覚改善法からなる。 MVPatchを導出するために、複数の物体検出器の有効性を同時に制限し、生成した対向パッチと現実像との視覚的相関を洗練する反復過程を定式化する。 本手法では, 対象物検出器の被写体信頼度を低減し, 対向パッチの伝達性を高めるモデル認識に基づく手法を用いる。 さらに,人間の知覚に基づく枠組みでは,視覚的類似度測定のための軽量な手法が提案され,不明瞭で自然な対人パッチの開発が容易になり,新たな生成モデルへの依存がなくなる。 さらに, 自然度スコアと移動可能性スコアを, 種々の相手パッチの自然な外見と移動可能性能力の偏りのない評価指標として導入する。 拡張実験により,提案したMVPatchアルゴリズムは,デジタルドメインと物理ドメインの両方で類似したアルゴリズムよりも優れた攻撃伝達性を実現するとともに,より自然な外観を示すことを示した。 これらの結果は,提案したMVPatch攻撃アルゴリズムの顕著なステルス性と伝達性を強調した。

Recent investigations demonstrate that adversarial patches can be utilized to manipulate the result of object detection models. However, the conspicuous patterns on these patches may draw more attention and raise suspicions among humans. Moreover, existing works have primarily focused on enhancing the efficacy of attacks in the physical domain, rather than seeking to optimize their stealth attributes and transferability potential. To address these issues, we introduce a dual-perception-based attack framework that generates an adversarial patch known as the More Vivid Patch (MVPatch). The framework consists of a model-perception degradation method and a human-perception improvement method. To derive the MVPatch, we formulate an iterative process that simultaneously constrains the efficacy of multiple object detectors and refines the visual correlation between the generated adversarial patch and a realistic image. Our method employs a model-perception-based approach that reduces the object confidence scores of several object detectors to boost the transferability of adversarial patches. Further, within the human-perception-based framework, we put forward a lightweight technique for visual similarity measurement that facilitates the development of inconspicuous and natural adversarial patches and eliminates the reliance on additional generative models. Additionally, we introduce the naturalness score and transferability score as metrics for an unbiased assessment of various adversarial patches' natural appearance and transferability capacity. Extensive experiments demonstrate that the proposed MVPatch algorithm achieves superior attack transferability compared to similar algorithms in both digital and physical domains while also exhibiting a more natural appearance. These findings emphasize the remarkable stealthiness and transferability of the proposed MVPatch attack algorithm.
翻訳日:2024-01-15 23:39:56 公開日:2024-01-12
# 量子実時間発展のためのテンソル正規化群法

Tensor Renormalization Group Methods for Quantum Real-time Evolution ( http://arxiv.org/abs/2312.14825v3 )

ライセンス: Link先を確認
Michael Hite and Yannick Meurice(参考訳) 格子ゲージ理論における実時間発展のab-initio計算は、非常に興味深い応用であるが、計算の難解な側面を提示している。 ユークリッド時間格子場理論の文脈で開発されたテンソル再正規化群法は, トロタライズ展開作用素のリアルタイム計算に応用できることを示す。 本稿では,各種観測器の切断手順の最適化について検討する。 この数値解法を1次元量子イジングモデルに適用し,順序相の外部横場を用いて計算を行い,$n_{s}=4$および8サイトの普遍量子計算と比較する。

Ab-initio calculations of real-time evolution for lattice gauge theory have very interesting potential applications but present challenging computational aspects. We show that tensor renormalization group methods developed in the context of Euclidean-time lattice field theory can be applied to calculation of Trotterized evolution operators at real time. We discuss the optimization of truncation procedures for various observables. We apply the numerical methods to the 1D Quantum Ising Model with an external transverse field in the ordered phase and compare with universal quantum computing for $N_{s}=4$ and 8 sites.
翻訳日:2024-01-15 23:39:04 公開日:2024-01-12
# オペレーション研究における量子最適化アルゴリズム:方法,応用,含意

Quantum Optimization Algorithms in Operations Research: Methods, Applications, and Implications ( http://arxiv.org/abs/2312.13636v3 )

ライセンス: Link先を確認
Florian Klug(参考訳) 量子最適化アルゴリズム(QOAs)は、意思決定における最適化手法の適用を根本的に変える可能性がある。 ある種の最適化問題に対して、QOAは現在の最先端ソリューションよりも実行時のパフォーマンス上の大きな利点をもたらすと広く信じられている。 工業化段階に入る量子コンピュータの最近の進歩により、量子ベースの最適化アルゴリズムはより重要になっている。 最近のQOA分野における出版物の増加は、学術と産業の両方においてトピックの重要性が増していることを示している。 本研究の目的は次のとおりである。(1) まず, 意思決定のための量子ベース最適化アルゴリズムの主な技術について考察する。 2) adiabatic と gate-based optimization の2つの基本クラスを記述・比較し,その可能性と限界について論じる。 (3) 今後、QOAによる意思決定に大きく影響することが期待される主要な業務研究応用分野についても検討する。 (4) 最後に, 運用研究の観点からのqoaの今後の利用から生じる現在の意味について考察する。

Quantum optimization algorithms (QOAs) have the potential to fundamentally transform the application of optimization methods in decision making. For certain classes of optimization problems, it is widely believed that QOA enables significant run-time performance benefits over current state-of-the-art solutions. With the latest progress on building quantum computers entering the industrialization stage, quantum-based optimization algorithms have become more relevant. The recent extreme increase in the number of publications in the field of QOA demonstrates the growing importance of the topic in both the academia and the industry. The objectives of this paper are as follows: (1) First, we provide insight into the main techniques of quantum-based optimization algorithms for decision making. (2) We describe and compare the two basic classes of adiabatic and gate-based optimization algorithms and argue their potentials and limitations. (3) Herein, we also investigate the key operations research application areas that are expected to be considerably impacted by the use of QOA in decision making in the future. (4) Finally, current implications arising from the future use of QOA from an operations research perspective are discussed.
翻訳日:2024-01-15 23:38:40 公開日:2024-01-12
# 帰納的マルコフ圏と量子デ・フィネッティ定理

Involutive Markov categories and the quantum de Finetti theorem ( http://arxiv.org/abs/2312.09666v2 )

ライセンス: Link先を確認
Tobias Fritz and Antonio Lorenzin(参考訳) マルコフ圏は近年、確率論と理論統計の強力な高水準フレームワークとして登場している。 ここでは、インボリューティブマルコフ圏と呼ばれるこの概念の量子バージョンを研究する。 まず、これらはParzygnatの量子マルコフ圏と同値であるが、これらはより単純であると主張する。 帰納的マルコフ圏の主な例は、(任意の次元の) C*-代数を対象とし、関心の図形の射としての完全正のユニタリ写像である。 第二に、最小の C*-テンソルノルムと最大の C*-テンソルノルムの両方に対して量子デフィネッティ定理を証明し、状態空間の普遍性に相当するそのような量子デフィネッティ定理の分類学的記述を開発する。

Markov categories have recently emerged as a powerful high-level framework for probability theory and theoretical statistics. Here we study a quantum version of this concept, called involutive Markov categories. First, we show that these are equivalent to Parzygnat's quantum Markov categories but argue that they are simpler to work with. Our main examples of involutive Markov categories involve C*-algebras (of any dimension) as objects and completely positive unital maps as morphisms in the picture of interest. Second, we prove a quantum de Finetti theorem for both the minimal and the maximal C*-tensor norms, and we develop a categorical description of such quantum de Finetti theorems which amounts to a universal property of state spaces.
翻訳日:2024-01-15 23:38:23 公開日:2024-01-12
# TraffNet:What-if予測のためのトラフィック生成の因果関係の学習

TraffNet: Learning Causality of Traffic Generation for What-if Prediction ( http://arxiv.org/abs/2303.15954v5 )

ライセンス: Link先を確認
Ming Xu, Qiang Ai, Ruimin Li, Yunyi Ma, Geqi Qi, Xiangfu Meng, Haibo Jin(参考訳) インテリジェントなトラフィック管理と制御における意思決定には,リアルタイムなトラフィック予測が不可欠だ。 現在のディープラーニング手法は,トラヒック予測において有意なアドバンテージを示すが,相関性に基づくトラヒック予測には無力である。 本稿では,車両軌道データから交通発生のメカニズムを学習するTraffNetという単純なディープラーニングフレームワークを提案する。 まず,ヘテロジニアスグラフを用いて道路網を表現し,オリジン・デスティネーション(od)要求や経路といった交通の流れの因果的特徴をモデルに組み込む。 次に,道路網にod要求を割り当てるプロセスをモデル化し,セグメント表現を学習する手法を提案する。 学習セグメント表現は、交通発生の複雑な原因を効果的にカプセル化し、下流の交通予測を容易にする。 最後に,traffnetの有効性を評価するために合成データセットの実験を行った。 traffnetのコードとデータセットはhttps://github.com/mayunyi-1999/traffnet_code.gitで入手できる。

Real-time what-if traffic prediction is crucial for decision making in intelligent traffic management and control. Although current deep learning methods demonstrate significant advantages in traffic prediction, they are powerless in what-if traffic prediction due to their nature of correlation-based. Here, we present a simple deep learning framework called TraffNet that learns the mechanisms of traffic generation for what-if prediction from vehicle trajectory data. First, we use a heterogeneous graph to represent the road network, allowing the model to incorporate causal features of traffic flows, such as Origin-Destination (OD) demands and routes. Next, we propose a method for learning segment representations, which involves modeling the process of assigning OD demands onto the road network. The learned segment representations effectively encapsulate the intricate causes of traffic generation, facilitating downstream what-if traffic prediction. Finally, we conduct experiments on synthetic datasets to evaluate the effectiveness of TraffNet. The code and datasets of TraffNet is available at https://github.com/mayunyi-1999/TraffNet_code.git.
翻訳日:2024-01-15 21:55:13 公開日:2024-01-12
# スコアマッチング機能を有する製品jacobi-theta boltzmann

Product Jacobi-Theta Boltzmann machines with score matching ( http://arxiv.org/abs/2303.05910v2 )

ライセンス: Link先を確認
Andrea Pasquale, Daniel Krefl, Stefano Carrazza and Frank Nielsen(参考訳) 確率密度関数の推定は、ここ数年機械学習技術で取り組まれてきた非自明なタスクである。 成功したアプリケーションはボルツマンマシン(BM)アーキテクチャにインスパイアされたモデルで得ることができる。 この写本では、製品Jacobi-Theta Boltzmann Machine (pJTBM) が、対角的な隠れセクター接続行列を持つリーマン-Theta Boltzmann Machine (RTBM) の限定版として導入された。 Fisher の発散に基づくスコアマッチングにより,pJTBM の確率密度を元の RTBM よりも効率的に適合させることができることを示す。

The estimation of probability density functions is a non trivial task that over the last years has been tackled with machine learning techniques. Successful applications can be obtained using models inspired by the Boltzmann machine (BM) architecture. In this manuscript, the product Jacobi-Theta Boltzmann machine (pJTBM) is introduced as a restricted version of the Riemann-Theta Boltzmann machine (RTBM) with diagonal hidden sector connection matrix. We show that score matching, based on the Fisher divergence, can be used to fit probability densities with the pJTBM more efficiently than with the original RTBM.
翻訳日:2024-01-15 21:54:53 公開日:2024-01-12
# アクティブ推論と強化学習:部分観測可能性下での連続状態と行動空間の統一推論

Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partially observability ( http://arxiv.org/abs/2212.07946v2 )

ライセンス: Link先を確認
Parvin Malekzadeh and Konstantinos N. Plataniotis(参考訳) 強化学習(rl)は、完全に観察可能な環境において、外部の監督者が指定する報酬を最大化することを目的とした意思決定エージェントの開発において、大きな注目を集めている。 しかし、現実世界の多くの問題は、部分的に観測可能なマルコフ決定過程(POMDP)として定式化されている部分的な観測を含んでいる。 これまでの研究では、過去の行動や観測の記憶を取り入れたり、観測データから環境の本当の状態を推測することで、PMDPのRLに取り組みました。 しかし、観測データを時間をかけて集約することは連続空間では現実的ではない。 さらに、推論に基づくRLアプローチでは、報酬の最大化と推論状態の不確かさの無視にのみ焦点をあてるため、多くのサンプルをうまく動作させる必要があることが多い。 アクティブ推論(英: Active Inference、AIF)は、エージェントに期待自由エネルギー(EFE)と呼ばれる関数を最小化することで、選択アクションを指示するフレームワークである。 これは、rlのように、情報参照(探索)行動を伴う報酬最大化(探索)行動を提供する。 AIFの探索的な振る舞いにもかかわらず、その用途はEFEに関連する計算上の問題のために離散空間に限られている。 本稿では,AIFとRLの理論的関係を確立する統一原理を提案し,これら2つのアプローチをシームレスに統合し,上記の制約を連続空間POMDP設定で克服する。 我々は、AIFを人工エージェントの設計に活用するための新しい視点を提供する理論分析により、この知見を裏付ける。 実験の結果,連続空間を部分的に観測可能なタスクで解く方法の優れた学習能力が得られた。 特筆すべきは,情報探索を活用し,報酬のない問題を効果的に解決し,外部管理者による明示的なタスク報酬設計を任意に行うことである。

Reinforcement learning (RL) has garnered significant attention for developing decision-making agents that aim to maximize rewards, specified by an external supervisor, within fully observable environments. However, many real-world problems involve partial observations, formulated as partially observable Markov decision processes (POMDPs). Previous studies have tackled RL in POMDPs by either incorporating the memory of past actions and observations or by inferring the true state of the environment from observed data. However, aggregating observed data over time becomes impractical in continuous spaces. Moreover, inference-based RL approaches often require many samples to perform well, as they focus solely on reward maximization and neglect uncertainty in the inferred state. Active inference (AIF) is a framework formulated in POMDPs and directs agents to select actions by minimizing a function called expected free energy (EFE). This supplies reward-maximizing (exploitative) behaviour, as in RL, with information-seeking (exploratory) behaviour. Despite this exploratory behaviour of AIF, its usage is limited to discrete spaces due to the computational challenges associated with EFE. In this paper, we propose a unified principle that establishes a theoretical connection between AIF and RL, enabling seamless integration of these two approaches and overcoming their aforementioned limitations in continuous space POMDP settings. We substantiate our findings with theoretical analysis, providing novel perspectives for utilizing AIF in the design of artificial agents. Experimental results demonstrate the superior learning capabilities of our method in solving continuous space partially observable tasks. Notably, our approach harnesses information-seeking exploration, enabling it to effectively solve reward-free problems and rendering explicit task reward design by an external supervisor optional.
翻訳日:2024-01-15 21:54:43 公開日:2024-01-12
# EC-NAS:ニューラルネットワーク検索のためのタブラルベンチマークを意識したエネルギー消費

EC-NAS: Energy Consumption Aware Tabular Benchmarks for Neural Architecture Search ( http://arxiv.org/abs/2210.06015v3 )

ライセンス: Link先を確認
Pedram Bakhtiarifard, Christian Igel, Raghavendra Selvan(参考訳) ディープラーニングモデルの選択、トレーニング、デプロイによるエネルギー消費は、最近大幅に増加しています。 本研究の目的は、計算資源の少ないエネルギー効率の深層学習モデルの設計と、エネルギー消費に着目して環境持続可能性の優先順位付けを行うことである。 neural architecture search (nas)は、nas戦略を予め計算されたパフォーマンス統計を通じて効果的に評価する表型ベンチマークから恩恵を受ける。 我々はNASのさらなる性能基準としてエネルギー効率を含めることを提唱する。 この目的のために,様々なアーキテクチャのエネルギー消費に関するデータを包含する拡張表式ベンチマークを提案する。 EC-NASと命名されたこのベンチマークは、エネルギーを意識したNASの研究を進めるために、オープンソース形式で公開されている。 EC-NASは、サロゲートモデルを用いてエネルギー消費を予測し、データセット作成のエネルギー消費を減少させる。 本研究は,多目的最適化アルゴリズムを活用することでEC-NASの可能性を強調し,エネルギー使用量と精度のバランスを明らかにする。 これは、パフォーマンスの妥協がほとんどないか全くなく、エネルギ-リーンアーキテクチャを識別できることを示唆する。

Energy consumption from the selection, training, and deployment of deep learning models has seen a significant uptick recently. This work aims to facilitate the design of energy-efficient deep learning models that require less computational resources and prioritize environmental sustainability by focusing on the energy consumption. Neural architecture search (NAS) benefits from tabular benchmarks, which evaluate NAS strategies cost-effectively through precomputed performance statistics. We advocate for including energy efficiency as an additional performance criterion in NAS. To this end, we introduce an enhanced tabular benchmark encompassing data on energy consumption for varied architectures. The benchmark, designated as EC-NAS, has been made available in an open-source format to advance research in energy-conscious NAS. EC-NAS incorporates a surrogate model to predict energy consumption, aiding in diminishing the energy expenditure of the dataset creation. Our findings emphasize the potential of EC-NAS by leveraging multi-objective optimization algorithms, revealing a balance between energy usage and accuracy. This suggests the feasibility of identifying energy-lean architectures with little or no compromise in performance.
翻訳日:2024-01-15 21:54:00 公開日:2024-01-12
# nlpにおける最新技術一般化研究:分類とレビュー

State-of-the-art generalisation research in NLP: A taxonomy and review ( http://arxiv.org/abs/2210.03050v4 )

ライセンス: Link先を確認
Dieuwke Hupkes, Mario Giulianelli, Verna Dankers, Mikel Artetxe, Yanai Elazar, Tiago Pimentel, Christos Christodoulopoulos, Karim Lasri, Naomi Saphra, Arabella Sinclair, Dennis Ulmer, Florian Schottmann, Khuyagbaatar Batsuren, Kaiser Sun, Koustuv Sinha, Leila Khalatbari, Maria Ryskina, Rita Frieske, Ryan Cotterell, Zhijing Jin(参考訳) 良く一般化する能力は自然言語処理(NLP)の主要なデシラタの一つである。 しかし、「よい一般化」と、それがどのように評価されるべきかは、よく理解されておらず、また、一般化のための評価基準も存在しない。 本稿では,これら2つの問題に対処する基礎となる課題について述べる。 NLPにおける一般化研究の特徴付けと理解のための分類法を提案する。 我々の分類学は、一般化研究の広範な文献レビューに基づいており、その主な動機、調査対象とする一般化の種類、検討対象とするデータシフトの種類、データシフトの源泉、モデリングパイプライン内のシフトの軌跡の5つの軸を含む。 分類法を用いて、一般化をテストする400以上の論文を分類し、合計600以上の実験を行った。 本レビューの結果を踏まえて,nlpにおける一般化研究の現状を概説する詳細な分析を行い,今後どの分野が注目に値するかを推薦する。 本稿では,本論文とともに,レビューの結果を動的に探索するWebページを公開し,新たなNLP一般化研究の公開とともに更新する。 本研究は,NLPにおける新しいステータスクオを最先端の一般化テストに活用することを目的としている。

The ability to generalise well is one of the primary desiderata of natural language processing (NLP). Yet, what 'good generalisation' entails and how it should be evaluated is not well understood, nor are there any evaluation standards for generalisation. In this paper, we lay the groundwork to address both of these issues. We present a taxonomy for characterising and understanding generalisation research in NLP. Our taxonomy is based on an extensive literature review of generalisation research, and contains five axes along which studies can differ: their main motivation, the type of generalisation they investigate, the type of data shift they consider, the source of this data shift, and the locus of the shift within the modelling pipeline. We use our taxonomy to classify over 400 papers that test generalisation, for a total of more than 600 individual experiments. Considering the results of this review, we present an in-depth analysis that maps out the current state of generalisation research in NLP, and we make recommendations for which areas might deserve attention in the future. Along with this paper, we release a webpage where the results of our review can be dynamically explored, and which we intend to update as new NLP generalisation studies are published. With this work, we aim to take steps towards making state-of-the-art generalisation testing the new status quo in NLP.
翻訳日:2024-01-15 21:53:42 公開日:2024-01-12
# DDPM-CD:変化検出のための特徴エクストラクタとしての拡散確率モデル

DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors for Change Detection ( http://arxiv.org/abs/2206.11892v3 )

ライセンス: Link先を確認
Wele Gedara Chaminda Bandara, Nithin Gopalakrishnan Nair, Vishal M. Patel(参考訳) リモートセンシングによる変化検出は、地球表面のダイナミクスの理解、環境変化の監視、人的影響の評価、将来のトレンドの予測、意思決定の支援に不可欠である。 そこで本研究では,画像合成に使用される生成モデルであるdenoising diffusion probabilistic model (ddpm) を事前学習することにより,既成の非ラベルリモートセンシングイメージをトレーニングプロセスで活用できる,新しい変化検出手法を提案する。 DDPMは、徐々に訓練画像をマルコフ連鎖を用いてガウス分布に変換することにより、トレーニングデータ分布を学習する。 推論(サンプリング)の間、それらはトレーニング分布に近い多様なサンプルセットを生成することができ、ガウスノイズから始まり、最先端の画像合成結果が得られる。 しかし,本研究では,画像合成ではなく,変化検出の下流適用のための事前学習特徴抽出器としての利用に重点を置いている。 具体的には、事前訓練されたDDPMによって生成された特徴表現と変更ラベルを併用した軽量な変更分類器を微調整する。 LEVIR-CD, WHU-CD, DSIFN-CD, CDDデータセットを用いて行った実験により, 提案手法は, F1スコア, IoU, 全体的な精度で既存の変化検出手法よりも有意に優れており, 下流アプリケーションの特徴抽出器として, DDPMが果たす重要な役割を強調している。 コードとトレーニング済みのモデルの両方をhttps://github.com/wgcban/ddpm-cdで利用可能にしました。

Remote sensing change detection is crucial for understanding the dynamics of our planet's surface, facilitating the monitoring of environmental changes, evaluating human impact, predicting future trends, and supporting decision-making. In this work, we introduce a novel approach for change detection that can leverage off-the-shelf, unlabeled remote sensing images in the training process by pre-training a Denoising Diffusion Probabilistic Model (DDPM) - a class of generative models used in image synthesis. DDPMs learn the training data distribution by gradually converting training images into a Gaussian distribution using a Markov chain. During inference (i.e., sampling), they can generate a diverse set of samples closer to the training distribution, starting from Gaussian noise, achieving state-of-the-art image synthesis results. However, in this work, our focus is not on image synthesis but on utilizing it as a pre-trained feature extractor for the downstream application of change detection. Specifically, we fine-tune a lightweight change classifier utilizing the feature representations produced by the pre-trained DDPM alongside change labels. Experiments conducted on the LEVIR-CD, WHU-CD, DSIFN-CD, and CDD datasets demonstrate that the proposed DDPM-CD method significantly outperforms the existing state-of-the-art change detection methods in terms of F1 score, IoU, and overall accuracy, highlighting the pivotal role of pre-trained DDPM as a feature extractor for downstream applications. We have made both the code and pre-trained models available at https://github.com/wgcban/ddpm-cd
翻訳日:2024-01-15 21:53:21 公開日:2024-01-12
# FlashSyn: 対数例駆動近似によるフラッシュローン攻撃合成

FlashSyn: Flash Loan Attack Synthesis via Counter Example Driven Approximation ( http://arxiv.org/abs/2206.10708v3 )

ライセンス: Link先を確認
Zhiyang Chen, Sidi Mohamed Beillahi, Fan Long(参考訳) defi(decentralized finance)では、貸し手は借主に対してフラッシュローン、すなわちブロックチェーントランザクション内でのみ有効なローンを提供し、その取引の終了までに手数料を払い戻さなければならない。 普通ローンとは異なり、フラッシュローンは借主が担保預金なしで大きな資産を借りることを可能にする。 悪意のある敵はフラッシュローンを使って大きな資産を集め、脆弱なdefiプロトコルを悪用する。 本稿では,フラッシュローンを利用したDeFiプロトコルを利用した逆トランザクションの自動合成フレームワークを提案する。 DeFiプロトコルの複雑さを回避するため,数値的手法(多項式線形回帰法と近傍補間法)を用いてDeFiプロトコルの機能挙動を近似する手法を提案する。 次に,defiプロトコルの近似関数を用いて最適化クエリを構築し,最大利益を与える最適パラメータを持つ関数呼び出し列からなる敵攻撃を見つける。 近似の精度を向上させるために,新しい反例駆動近似補正手法を提案する。 当社のフレームワークはflashsynというツールで実装しています。 我々は,Damn Vulnerable DeFi問題からフラッシュローン攻撃を受けた16のDeFiプロトコルと2のDeFiプロトコルについてFlashSynを評価した。 FlashSynは18ベンチマークのうち16の逆攻撃を自動的に生成する。 成功した16のケースの中で、FlashSynは歴史的ハッカーが3件で採用した攻撃ベクターよりも高い利益をもたらす攻撃ベクターを特定し、10件で複数の異なる攻撃ベクターを発見し、フラッシュローン攻撃の可能性を示す。

In decentralized finance (DeFi), lenders can offer flash loans to borrowers, i.e., loans that are only valid within a blockchain transaction and must be repaid with fees by the end of that transaction. Unlike normal loans, flash loans allow borrowers to borrow large assets without upfront collaterals deposits. Malicious adversaries use flash loans to gather large assets to exploit vulnerable DeFi protocols. In this paper, we introduce a new framework for automated synthesis of adversarial transactions that exploit DeFi protocols using flash loans. To bypass the complexity of a DeFi protocol, we propose a new technique to approximate the DeFi protocol functional behaviors using numerical methods (polynomial linear regression and nearest-neighbor interpolation). We then construct an optimization query using the approximated functions of the DeFi protocol to find an adversarial attack constituted of a sequence of functions invocations with optimal parameters that gives the maximum profit. To improve the accuracy of the approximation, we propose a novel counterexample driven approximation refinement technique. We implement our framework in a tool named FlashSyn. We evaluate FlashSyn on 16 DeFi protocols that were victims to flash loan attacks and 2 DeFi protocols from Damn Vulnerable DeFi challenges. FlashSyn automatically synthesizes an adversarial attack for 16 of the 18 benchmarks. Among the 16 successful cases, FlashSyn identifies attack vectors yielding higher profits than those employed by historical hackers in 3 cases, and also discovers multiple distinct attack vectors in 10 cases, demonstrating its effectiveness in finding possible flash loan attacks.
翻訳日:2024-01-15 21:52:50 公開日:2024-01-12
# 緩やかな輝き, 確率最適化, その他の物語

Gradient Descent, Stochastic Optimization, and Other Tales ( http://arxiv.org/abs/2205.00832v2 )

ライセンス: Link先を確認
Jun Lu(参考訳) 本論文の目的は,ブラックボックスオプティマイザと確率オプティマイザの背後にある魔法を解き放つことである。 テクニックの動作方法と理由に関する強固な基盤を構築することを目的としています。 この写本は、戦略の背後にある数学である単純な直観からこの知識を結晶化する。 このチュートリアルは、勾配降下法と確率最適化法の形式的側面と非公式な側面の両方に対処することを避けない。 そうすることで、読者はこれらの技術についてより深く理解し、いつ、どのように、なぜアルゴリズムを適用するのかを理解できるようになる。 勾配降下は最適化を行う最も一般的なアルゴリズムの1つであり、機械学習タスクを最適化する最も一般的な方法である。 その確率的バージョンは近年注目を集めており、ディープニューラルネットワークの最適化には特に当てはまります。 ディープニューラルネットワークでは、計算資源を節約し、サドルポイントから逃れるために、1つのサンプルまたはサンプルのバッチが続く勾配を用いる。 1951年、robbins と monro は、新しいサンプルのバッチで局所勾配を推定する確率的最適化に関する最初の近代的手法である \textit{a stochastic approximation method} を発表した。 そして今や、確率的最適化は、主にニューラルネットワークに適合するバックプロパゲーションアルゴリズムの開発によって、機械学習のコア技術となっている。 この記事の唯一の目的は、勾配降下と確率最適化における概念と数学的ツールの自己完結した紹介を提供することです。

The goal of this paper is to debunk and dispel the magic behind black-box optimizers and stochastic optimizers. It aims to build a solid foundation on how and why the techniques work. This manuscript crystallizes this knowledge by deriving from simple intuitions, the mathematics behind the strategies. This tutorial doesn't shy away from addressing both the formal and informal aspects of gradient descent and stochastic optimization methods. By doing so, it hopes to provide readers with a deeper understanding of these techniques as well as the when, the how and the why of applying these algorithms. Gradient descent is one of the most popular algorithms to perform optimization and by far the most common way to optimize machine learning tasks. Its stochastic version receives attention in recent years, and this is particularly true for optimizing deep neural networks. In deep neural networks, the gradient followed by a single sample or a batch of samples is employed to save computational resources and escape from saddle points. In 1951, Robbins and Monro published \textit{A stochastic approximation method}, one of the first modern treatments on stochastic optimization that estimates local gradients with a new batch of samples. And now, stochastic optimization has become a core technology in machine learning, largely due to the development of the back propagation algorithm in fitting a neural network. The sole aim of this article is to give a self-contained introduction to concepts and mathematical tools in gradient descent and stochastic optimization.
翻訳日:2024-01-15 21:52:25 公開日:2024-01-12
# NAAQA: 音響質問応答のためのニューラルネットワーク

NAAQA: A Neural Architecture for Acoustic Question Answering ( http://arxiv.org/abs/2106.06147v3 )

ライセンス: Link先を確認
Jerome Abdelnour, Jean Rouat, Giampiero Salvi(参考訳) aqa(a acoustic question answering)タスクの目標は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。 VQA(Visual Question Answering)タスクにインスパイアされたものだ。 本稿では,従来導入されていたCLEARデータセットに基づいて,音響入力の具体的な課題を強調するAQA,すなわちCLEAR2のベンチマークを提案する。 これには、可変時間シーンの処理や、トレーニングとテストセットの異なる基本音で構築されたシーンが含まれる。 また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。 1次元畳み込みの時間と周波数による音響コンテンツの2次元分光時間表現の処理は、有望な結果を示し、モデルの複雑さの低減を可能にする。 時間座標マップは,ネットワークの性能を約17ポイント向上する時間的局所化機能を増強することを示した。 一方、周波数座標写像はこの課題にはほとんど影響を与えない。 NAAQAは以前のVQAモデルの約4倍のパラメータで、AQAタスクで79.5%の精度を達成する。 DAQAから再構成した独立データセットを用いてNAAQAの持続性を評価する。 また、CLEAR2とDAQAの両方のモデルでMALiMoモジュールの追加をテストする。 本報告では,異なる質問タイプに対する結果の詳細な分析を行う。 我々は、新たな機械学習タスクの研究を促進するために、CLEAR2とNAAQAを生成するコードをリリースした。

The goal of the Acoustic Question Answering (AQA) task is to answer a free-form text question about the content of an acoustic scene. It was inspired by the Visual Question Answering (VQA) task. In this paper, based on the previously introduced CLEAR dataset, we propose a new benchmark for AQA, namely CLEAR2, that emphasizes the specific challenges of acoustic inputs. These include handling of variable duration scenes, and scenes built with elementary sounds that differ between training and test set. We also introduce NAAQA, a neural architecture that leverages specific properties of acoustic inputs. The use of 1D convolutions in time and frequency to process 2D spectro-temporal representations of acoustic content shows promising results and enables reductions in model complexity. We show that time coordinate maps augment temporal localization capabilities which enhance performance of the network by ~17 percentage points. On the other hand, frequency coordinate maps have little influence on this task. NAAQA achieves 79.5% of accuracy on the AQA task with ~4 times fewer parameters than the previously explored VQA model. We evaluate the perfomance of NAAQA on an independent data set reconstructed from DAQA. We also test the addition of a MALiMo module in our model on both CLEAR2 and DAQA. We provide a detailed analysis of the results for the different question types. We release the code to produce CLEAR2 as well as NAAQA to foster research in this newly emerging machine learning task.
翻訳日:2024-01-15 21:51:58 公開日:2024-01-12
# リッジ関数推定のための良性過剰フィッティング現象の有限サンプル解析

A finite sample analysis of the benign overfitting phenomenon for ridge function estimation ( http://arxiv.org/abs/2007.12882v5 )

ライセンス: Link先を確認
Emmanuel Caron and Stephane Chretien(参考訳) 近年、機械学習における大規模な数値実験により、サンプルサイズとモデルのパラメータ数との比の関数として、非常に直観的な位相遷移が明らかになった。 パラメータ数$p$がサンプルサイズ$n$に近づくと、一般化エラーは増加するが、驚くべきことに、閾値$p=n$を越えて再び減少し始める。 This phenomenon, brought to the theoretical community attention in \cite{belkin2019reconciling}, has been thoroughly investigated lately, more specifically for simpler models than deep neural networks, such as the linear model when the parameter is taken to be the minimum norm solution to the least-squares problem, firstly in the asymptotic regime when $p$ and $n$ tend to infinity, see e.g. \cite{hastie2019surprises}, and recently in the finite dimensional regime and more specifically for linear models \cite{bartlett2020benign}, \cite{tsigler2020benign}, \cite{lecue2022geometrical}. そこで,本論文では,2重降下現象の「textit{overparametrised regime}」と「textit{prediction}」の両問題に対する「textit{overparametrised regime}」の非線形モデルの有限サンプル解析を提案する。 この結果は、真パラメータから最適推定器の距離を正確に解析し、また、近年の \cite{bartlett2020benign} と \cite{chinot2020benign} を補完する一般化境界を与える。 我々の分析は、連続ニュートン法であるcite{neuberger2007continuous} と、最小$$\ell_2$-normの解の予測における性能の精密な定量的解析に基づく。

Recent extensive numerical experiments in high scale machine learning have allowed to uncover a quite counterintuitive phase transition, as a function of the ratio between the sample size and the number of parameters in the model. As the number of parameters $p$ approaches the sample size $n$, the generalisation error increases, but surprisingly, it starts decreasing again past the threshold $p=n$. This phenomenon, brought to the theoretical community attention in \cite{belkin2019reconciling}, has been thoroughly investigated lately, more specifically for simpler models than deep neural networks, such as the linear model when the parameter is taken to be the minimum norm solution to the least-squares problem, firstly in the asymptotic regime when $p$ and $n$ tend to infinity, see e.g. \cite{hastie2019surprises}, and recently in the finite dimensional regime and more specifically for linear models \cite{bartlett2020benign}, \cite{tsigler2020benign}, \cite{lecue2022geometrical}. In the present paper, we propose a finite sample analysis of non-linear models of \textit{ridge} type, where we investigate the \textit{overparametrised regime} of the double descent phenomenon for both the \textit{estimation problem} and the \textit{prediction} problem. Our results provide a precise analysis of the distance of the best estimator from the true parameter as well as a generalisation bound which complements recent works of \cite{bartlett2020benign} and \cite{chinot2020benign}. Our analysis is based on tools closely related to the continuous Newton method \cite{neuberger2007continuous} and a refined quantitative analysis of the performance in prediction of the minimum $\ell_2$-norm solution.
翻訳日:2024-01-15 21:51:40 公開日:2024-01-12
# コードモデルにおける記憶の公開

Unveiling Memorization in Code Models ( http://arxiv.org/abs/2308.09932v2 )

ライセンス: Link先を確認
Zhou Yang, Zhipeng Zhao, Chenyu Wang, Jieke Shi, Dongsun Kim, DongGyun Han, David Lo(参考訳) 大規模なデータセット、高度なアーキテクチャ、強力な計算リソースが利用可能になったことで、さまざまなソフトウェアエンジニアリング活動を自動化する効果的なコードモデルが生まれました。 データセットは通常、オープンソースとプライベート両方のリポジトリから数十億行のコードで構成される。 コードモデルは、脆弱性、機密情報、あるいは厳格なライセンスを持つコードを含む可能性のあるソースコードを記憶し、生成し、潜在的なセキュリティとプライバシの問題を引き起こす。 本稿では,コードモデルがどの程度トレーニングデータを記憶しているかという問題について検討する。 我々は、大規模な事前学習されたコードモデルにおける記憶の探索を経験的研究する。 コードモデルから2万のアウトプット(それぞれ512のトークンを持つ)を抽出するだけで,トレーニングデータから40,125以上のコードスニペットを生成することができる。 より理解を深めるため、3つのカテゴリと14のサブカテゴリからなる記憶コンテンツの分類法を構築した。 その結果、コードモデルに送信されたプロンプトが記憶されたコンテンツの分布に影響を与えることがわかった。 記憶の鍵となる要素がいくつかある。 特に、同じアーキテクチャを考えると、より大きなモデルは記憶の問題に苦しむ。 コードモデルは、より長い出力を生成することができると、より記憶力を高める。 また, 学習データにおける出力数と生成した出力との間には正の相関が強く, 記憶を減少させる潜在的な方法は学習データの重複を取り除くことである。 そして、そのアウトプットが記憶を正確に含むかどうかを推測する効果的な指標を特定する。 暗記を扱うための提案も行います。

The availability of large-scale datasets, advanced architectures, and powerful computational resources have led to effective code models that automate diverse software engineering activities. The datasets usually consist of billions of lines of code from both open-source and private repositories. A code model memorizes and produces source code verbatim, which potentially contains vulnerabilities, sensitive information, or code with strict licenses, leading to potential security and privacy issues. This paper investigates an important problem: to what extent do code models memorize their training data? We conduct an empirical study to explore memorization in large pre-trained code models. Our study highlights that simply extracting 20,000 outputs (each having 512 tokens) from a code model can produce over 40,125 code snippets that are memorized from the training data. To provide a better understanding, we build a taxonomy of memorized contents with 3 categories and 14 subcategories. The results show that the prompts sent to the code models affect the distribution of memorized contents. We identify several key factors of memorization. Specifically, given the same architecture, larger models suffer more from memorization problems. A code model produces more memorization when it is allowed to generate longer outputs. We also find a strong positive correlation between the number of an output's occurrences in the training data and that in the generated outputs, which indicates that a potential way to reduce memorization is to remove duplicates in the training data. We then identify effective metrics that infer whether an output contains memorization accurately. We also make suggestions to deal with memorization.
翻訳日:2024-01-15 21:45:47 公開日:2024-01-12
# 一般言語知識と言語特化知識の学習と組み合わせによる低リソース言語への読解

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge ( http://arxiv.org/abs/2308.09311v2 )

ライセンス: Link先を確認
Minsu Kim, Jeong Hun Yeo, Jeongsoo Choi, and Yong Man Ro(参考訳) 本稿では,特に,従来の文献ではうまく扱っていない低リソース言語を対象とした,新しい唇読解フレームワークを提案する。 低リソース言語は、唇の動きや言語をモデル化するのに十分なパワーを持つような十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。 課題を緩和するために,我々は,音声単位の予測を通じて,高リソース言語から一般音声知識,唇の動きをモデル化する能力などを学ぶことを試みる。 異なる言語が共通の音素を共有していることが知られているため、ある言語から学べる一般的な言語知識は、他の言語にも拡張することができる。 次に、言語固有のメモリ拡張デコーダ(LMDecoder)を提案することにより、言語固有の知識、言語をモデル化する能力を学ぶ。 LMDecoderは、言語固有のオーディオ機能をメモリバンクに保存し、ビデオテキストペアデータよりも容易にアクセス可能なオーディオテキストペアデータでトレーニングすることができる。 そこでLMDecoderでは,入力音声単位を言語固有の音声特徴に変換し,学習したリッチ言語知識を利用してテキストに変換する。 最後に,一般言語知識と言語固有の知識を組み合わせることで,低資源言語においても口唇読解モデルの開発を効率的に行うことができる。 英語,スペイン語,フランス語,イタリア語,ポルトガル語の5言語を用いた広範な実験を行い,提案手法の有効性を評価した。

This paper proposes a novel lip reading framework, especially for low-resource languages, which has not been well addressed in the previous literature. Since low-resource languages do not have enough video-text paired data to train the model to have sufficient power to model lip movements and language, it is regarded as challenging to develop lip reading models for low-resource languages. In order to mitigate the challenge, we try to learn general speech knowledge, the ability to model lip movements, from a high-resource language through the prediction of speech units. It is known that different languages partially share common phonemes, thus general speech knowledge learned from one language can be extended to other languages. Then, we try to learn language-specific knowledge, the ability to model language, by proposing Language-specific Memory-augmented Decoder (LMDecoder). LMDecoder saves language-specific audio features into memory banks and can be trained on audio-text paired data which is more easily accessible than video-text paired data. Therefore, with LMDecoder, we can transform the input speech units into language-specific audio features and translate them into texts by utilizing the learned rich language knowledge. Finally, by combining general speech knowledge and language-specific knowledge, we can efficiently develop lip reading models even for low-resource languages. Through extensive experiments using five languages, English, Spanish, French, Italian, and Portuguese, the effectiveness of the proposed method is evaluated.
翻訳日:2024-01-15 21:45:24 公開日:2024-01-12
# 非線形メタラーニングは速い速度を保証できる

Nonlinear Meta-Learning Can Guarantee Faster Rates ( http://arxiv.org/abs/2307.10870v3 )

ライセンス: Link先を確認
Dimitri Meunier, Zhu Li, Arthur Gretton, Samory Kpotufe(参考訳) 近年のemph{meta-learning}に関する多くの理論的研究は、類似した表象構造を目的タスクから簡易化するための保証を達成することを目的としている。 重要なのは、理論の主要な目的は、共通表現の学習において、収束率が、タスク数(およびタスク当たりのサンプル数)とともに、\emph{may scale with the number $n$ of tasks} の程度を理解することである。 この設定の最初のステップは、タスク間の共有表現とタスク固有の回帰関数の両方が線形であるときにこの特性を示す。 この線形設定は、例えば平均的な引数を通じてタスクを集約する利点をすぐに明らかにする。 しかし実際には、表現はしばしば非常に非線形であり、線形の場合のように容易に評価できない各タスクに非自明なバイアスを導入する。 本研究では,非線形表現を用いたメタラーニングの理論的保証を導出する。 特に、共有非線形性写像を無限次元 RKHS に仮定すると、タスク固有回帰関数の滑らかさを利用する注意的な正則化により、さらなるバイアスを緩和できることが示される。

Many recent theoretical works on \emph{meta-learning} aim to achieve guarantees in leveraging similar representational structures from related tasks towards simplifying a target task. Importantly, the main aim in theory works on the subject is to understand the extent to which convergence rates -- in learning a common representation -- \emph{may scale with the number $N$ of tasks} (as well as the number of samples per task). First steps in this setting demonstrate this property when both the shared representation amongst tasks, and task-specific regression functions, are linear. This linear setting readily reveals the benefits of aggregating tasks, e.g., via averaging arguments. In practice, however, the representation is often highly nonlinear, introducing nontrivial biases in each task that cannot easily be averaged out as in the linear case. In the present work, we derive theoretical guarantees for meta-learning with nonlinear representations. In particular, assuming the shared nonlinearity maps to an infinite-dimensional RKHS, we show that additional biases can be mitigated with careful regularization that leverages the smoothness of task-specific regression functions,
翻訳日:2024-01-15 21:44:56 公開日:2024-01-12
# アクティブフォーミングによる事前学習による言語可塑性の向上

Improving Language Plasticity via Pretraining with Active Forgetting ( http://arxiv.org/abs/2307.01163v3 )

ライセンス: Link先を確認
Yihong Chen, Kelly Marchisio, Roberta Raileanu, David Ifeoluwa Adelani, Pontus Stenetorp, Sebastian Riedel, Mikel Artetxe(参考訳) プリトレーニング言語モデル(plm)は現在、自然言語処理の主要なモデルである。 ダウンストリームのパフォーマンスは印象的なものですが、新しい言語にplmを適用するのは困難です。 以前の作業では、新しい言語用の新しい埋め込みレイヤを学ぶことでこの問題に対処できることが示されているが、データと計算非効率の両方がそうである。 本稿では,新しい言語に迅速に適応できるPLMの作成方法として,事前学習中に能動的に忘れる機構を提案する。 具体的には、プレトレーニング中のK更新毎に埋め込み層をリセットすることで、メタ学習効果と同様に、限られた数の更新で新しい埋め込みを学習する能力を改善することをPLMに推奨する。 RoBERTaを用いた実験では、言語適応の高速化だけでなく、特に英語から離れた言語において、低データ方式の標準モデルよりも優れていることが示されている。

Pretrained language models (PLMs) are today the primary model for natural language processing. Despite their impressive downstream performance, it can be difficult to apply PLMs to new languages, a barrier to making their capabilities universally accessible. While prior work has shown it possible to address this issue by learning a new embedding layer for the new language, doing so is both data and compute inefficient. We propose to use an active forgetting mechanism during pretraining, as a simple way of creating PLMs that can quickly adapt to new languages. Concretely, by resetting the embedding layer every K updates during pretraining, we encourage the PLM to improve its ability of learning new embeddings within a limited number of updates, similar to a meta-learning effect. Experiments with RoBERTa show that models pretrained with our forgetting mechanism not only demonstrate faster convergence during language adaptation but also outperform standard ones in a low-data regime, particularly for languages that are distant from English.
翻訳日:2024-01-15 21:44:23 公開日:2024-01-12
# milli Flow:人間のモーションセンシングのためのミリ波レーダ点雲のシーンフロー推定

milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing ( http://arxiv.org/abs/2306.17010v4 )

ライセンス: Link先を確認
Fangqiang Ding, Zhen Luo, Peijun Zhao, Chris Xiaoxuan Lu(参考訳) ユビキタスコンピューティングの時代に近づいているヒューマンモーションセンシングは、意思決定、ユーザインタラクション、パーソナライズサービスといったスマートシステムにおいて重要な役割を果たす。 人間の追跡、ポーズ推定、ジェスチャー認識、行動認識に関する大規模な研究が行われ、従来の方法では主にカメラに基づく。 しかし、カメラの侵入性は、スマートホームアプリケーションでの使用を制限する。 これに対処するため、mmwaveレーダーはプライバシーに優しい機能のために人気を集めている。 本研究では,mmWave 点雲の相補的な動き情報として,シーンフロー推定のための新しい深層学習手法 MilliFlow を提案する。 実験の結果,平均3dエンドポイント誤差が4.6cmで,本手法の優れた性能を示すことができた。 さらに,シーンフロー情報を組み込むことにより,人間の行動認識,解析,身体部位追跡の大幅な改善を実現する。 この分野のさらなる研究を促進するため、受け入れ時にオープンアクセスするためのコードベースとデータセットを提供します。

Approaching the era of ubiquitous computing, human motion sensing plays a crucial role in smart systems for decision making, user interaction, and personalized services. Extensive research has been conducted on human tracking, pose estimation, gesture recognition, and activity recognition, which are predominantly based on cameras in traditional methods. However, the intrusive nature of cameras limits their use in smart home applications. To address this, mmWave radars have gained popularity due to their privacy-friendly features. In this work, we propose milliFlow, a novel deep learning method for scene flow estimation as a complementary motion information for mmWave point cloud, serving as an intermediate level of features and directly benefiting downstream human motion sensing tasks. Experimental results demonstrate the superior performance of our method with an average 3D endpoint error of 4.6cm, significantly surpassing the competing approaches. Furthermore, by incorporating scene flow information, we achieve remarkable improvements in human activity recognition, human parsing, and human body part tracking. To foster further research in this area, we will provide our codebase and dataset for open access upon acceptance.
翻訳日:2024-01-15 21:44:06 公開日:2024-01-12
# コサイクルを用いた非同期アルゴリズムアライメント

Asynchronous Algorithmic Alignment with Cocycles ( http://arxiv.org/abs/2306.15632v3 )

ライセンス: Link先を確認
Andrew Dudzik, Tamara von Glehn, Razvan Pascanu, Petar Veli\v{c}kovi\'c(参考訳) 最先端のニューラルネットワーク推論器は、グラフニューラルネットワーク(GNN)でメッセージパッシングを利用する。 しかし、典型的なgnnはメッセージ関数の定義と呼び出しの区別を曖昧にし、ノードが各レイヤの近隣にメッセージを同期的に送らなければならない。 しかし、動的プログラミングアルゴリズムの実行を学ぶためにGNNを適用する場合、ほとんどのステップでは、送信すべき意味のあるアップデートはノードのごく一部に限られる。 したがって、グラフ全体に無関係なデータを送ることで、非効率なリスクを負う。 しかし、より重要なのは、多くの中間的なGNNステップがアイデンティティ関数を学習する必要があります。 この作業では、ノードの状態更新とメッセージ関数呼び出しの概念を明示的に分離します。 この分離により、アルゴリズムとニューラルネットワークの両方で非同期計算を推論できる数学的定式化が得られる。 本解析は,様々な形態の非同期性の下で実現可能不変な同期型スケーラブルgnn層を実用的に実装する。

State-of-the-art neural algorithmic reasoners make use of message passing in graph neural networks (GNNs). But typical GNNs blur the distinction between the definition and invocation of the message function, forcing a node to send messages to its neighbours at every layer, synchronously. When applying GNNs to learn to execute dynamic programming algorithms, however, on most steps only a handful of the nodes would have meaningful updates to send. One, hence, runs the risk of inefficiencies by sending too much irrelevant data across the graph. But more importantly, many intermediate GNN steps have to learn the identity functions, which is a non-trivial learning problem. In this work, we explicitly separate the concepts of node state update and message function invocation. With this separation, we obtain a mathematical formulation that allows us to reason about asynchronous computation in both algorithms and neural networks. Our analysis yields several practical implementations of synchronous scalable GNN layers that are provably invariant under various forms of asynchrony.
翻訳日:2024-01-15 21:43:46 公開日:2024-01-12
# labelbench:適応ラベル効率学習をベンチマークするための包括的なフレームワーク

LabelBench: A Comprehensive Framework for Benchmarking Adaptive Label-Efficient Learning ( http://arxiv.org/abs/2306.09910v3 )

ライセンス: Link先を確認
Jifan Zhang, Yifang Chen, Gregory Canal, Stephen Mussmann, Arnav M. Das, Gantavya Bhatt, Yinglun Zhu, Jeffrey Bilmes, Simon Shaolei Du, Kevin Jamieson, Robert D Nowak(参考訳) ラベル付きデータは現代の機械学習アプリケーションには不可欠だが、ラベルの取得には費用がかかる。 このコストを軽減するために、転送学習、半教師付き学習、アクティブラーニングなどの機械学習手法はラベル効率を目標とし、比較的少数のラベル付き例から高い予測性能を達成する。 実際に最高のラベル効率を得るには、これらのテクニックの組み合わせを必要とすることが多いが、既存のベンチマークと評価フレームワークは、これらすべてのテクニックの併用を捉えていない。 本稿では,複数のラベル効率学習手法を共同評価するための新しい計算効率の高いフレームワークである labelbench を導入することで,この不足に対処する。 LabelBench の応用として,手動学習と半教師あり学習を組み合わせた最新の能動学習手法のベンチマークを導入する。 我々のベンチマークでは, これまでに報告されたアクティブラーニングよりも優れたラベル効率を示す。 labelbenchのモジュラーコードベースは、より広いコミュニティがラベル効率のよい学習方法とベンチマークを提供するためにオープンソースである。 リポジトリは、https://github.com/EfficientTraining/LabelBench.comで見ることができる。

Labeled data are critical to modern machine learning applications, but obtaining labels can be expensive. To mitigate this cost, machine learning methods, such as transfer learning, semi-supervised learning and active learning, aim to be label-efficient: achieving high predictive performance from relatively few labeled examples. While obtaining the best label-efficiency in practice often requires combinations of these techniques, existing benchmark and evaluation frameworks do not capture a concerted combination of all such techniques. This paper addresses this deficiency by introducing LabelBench, a new computationally-efficient framework for joint evaluation of multiple label-efficient learning techniques. As an application of LabelBench, we introduce a novel benchmark of state-of-the-art active learning methods in combination with semi-supervised learning for fine-tuning pretrained vision transformers. Our benchmark demonstrates better label-efficiencies than previously reported in active learning. LabelBench's modular codebase is open-sourced for the broader community to contribute label-efficient learning methods and benchmarks. The repository can be found at: https://github.com/EfficientTraining/LabelBench.
翻訳日:2024-01-15 21:42:45 公開日:2024-01-12
# 無線アクセスネットワークにおけるモデル一般化とスケーラブルAI統合のための設計原理

Design Principles for Model Generalization and Scalable AI Integration in Radio Access Networks ( http://arxiv.org/abs/2306.06251v2 )

ライセンス: Link先を確認
Pablo Soldati, Euhanna Ghadimi, Burak Demirel, Yu Wang, Raimundas Gaigalas and Mathias Sintorn(参考訳) 人工知能(ai)は、無線通信システムにおける複雑で動的なタスクに対処する強力なツールとして登場した。 しかし、この分野の研究は、特定の限られた条件に対するAIソリューションに焦点を当て、学習からモデルが妨げられ、無線通信システムにまたがるような一般的な状況に適応する。 本稿では,無線通信におけるスケーラブルなai統合を実現する上で,モデル一般化を実現する上で重要な役割を強調する。 我々は,モデル一般化のための設計原則を,頑健性のための環境,システム目標への適応性のための意図,ai駆動制御ループを減らすための制御タスクという3つの重要な領域で概説する。 これらの原則を実装することで、デプロイされたモデル数を減らし、多様な無線通信環境での適応性を高めることができる。 コミュニケーションシステムにおけるモデル一般化の課題に対処するために,トレーニングとデータ管理機能の集中化と分散データ生成を併用した学習アーキテクチャを提案する。 これらの概念を一般化リンク適応アルゴリズムの設計により説明し,提案手法の利点を示す。

Artificial intelligence (AI) has emerged as a powerful tool for addressing complex and dynamic tasks in radio communication systems. Research in this area, however, focused on AI solutions for specific, limited conditions, hindering models from learning and adapting to generic situations, such as those met across radio communication systems. This paper emphasizes the pivotal role of achieving model generalization in enhancing performance and enabling scalable AI integration within radio communications. We outline design principles for model generalization in three key domains: environment for robustness, intents for adaptability to system objectives, and control tasks for reducing AI-driven control loops. Implementing these principles can decrease the number of models deployed and increase adaptability in diverse radio communication environments. To address the challenges of model generalization in communication systems, we propose a learning architecture that leverages centralization of training and data management functionalities, combined with distributed data generation. We illustrate these concepts by designing a generalized link adaptation algorithm, demonstrating the benefits of our proposed approach.
翻訳日:2024-01-15 21:42:27 公開日:2024-01-12
# 出現する共分散を伴う確率計算と不確実性定量化

Probabilistic computation and uncertainty quantification with emerging covariance ( http://arxiv.org/abs/2305.19265v3 )

ライセンス: Link先を確認
Hengyuan Ma, Yang Qi, Li Zhang, Wenlian Lu, Jianfeng Feng(参考訳) 堅牢で解釈可能なセキュアなAIシステムを構築するには、人間の認知能力を模倣する確率論的視点の下で不確実性を定量化し、表現する必要がある。 しかし、確率計算は基本的に決定論的に実装されているため、従来のニューラルネットワークの多くにとって大きな課題となっている。 本稿では,神経活性化の確率的表現を平均まで切り換え,共分散し,基礎となる確率的ネットワークの平均と共分散の非線形結合を包含するモーメントニューラルネットワークを構築することにより,効率的な確率的計算フレームワークを開発した。 勾配に基づく学習中に共分散が教師ありでない場合のみ、教師なし共分散は自発的に平均との非線形結合から現れ、モデル予測に関連する不確かさを忠実に捉える。 モデル予測に不確実性をシームレスに組み込んで,大規模AIシステムに組み込むことで,確率計算の本質的な単純さを強調した。

Building robust, interpretable, and secure AI system requires quantifying and representing uncertainty under a probabilistic perspective to mimic human cognitive abilities. However, probabilistic computation presents significant challenges for most conventional artificial neural network, as they are essentially implemented in a deterministic manner. In this paper, we develop an efficient probabilistic computation framework by truncating the probabilistic representation of neural activation up to its mean and covariance and construct a moment neural network that encapsulates the nonlinear coupling between the mean and covariance of the underlying stochastic network. We reveal that when only the mean but not the covariance is supervised during gradient-based learning, the unsupervised covariance spontaneously emerges from its nonlinear coupling with the mean and faithfully captures the uncertainty associated with model predictions. Our findings highlight the inherent simplicity of probabilistic computation by seamlessly incorporating uncertainty into model prediction, paving the way for integrating it into large-scale AI systems.
翻訳日:2024-01-15 21:42:08 公開日:2024-01-12
# 連続DR-部分モジュラ関数の最大化のための統一的アプローチ

A Unified Approach for Maximizing Continuous DR-submodular Functions ( http://arxiv.org/abs/2305.16671v3 )

ライセンス: Link先を確認
Mohammad Pedramfar and Christopher John Quinn and Vaneet Aggarwal(参考訳) 本稿では,さまざまな設定と oracle アクセスタイプを包含する連続的な dr-submodular 関数を最大化する統一的アプローチを提案する。 我々のアプローチは、一般凸集合に対する異なる制約を持つ単調関数と非単調関数の両方に対するフランク・ウルフ型オフラインアルゴリズムを含む。 私たちは、oracleが関数の勾配または関数値のみへのアクセスを提供し、oracleアクセスが決定論的または確率的であるような設定を検討する。 すべてのケースで必要なoracleアクセスの数を決定します。 提案手法は,16例中9例に新しい/改善結果を与え,計算コストの高い投射を2例で回避し,残りの5例で最先端手法の性能にマッチするフレームワークを提案する。 特に、確率関数値に基づくオラクルに対する我々のアプローチは、確率DR-部分モジュラ関数に対する帯域フィードバックによる最初の後悔のバウンドを可能にする。

This paper presents a unified approach for maximizing continuous DR-submodular functions that encompasses a range of settings and oracle access types. Our approach includes a Frank-Wolfe type offline algorithm for both monotone and non-monotone functions, with different restrictions on the general convex set. We consider settings where the oracle provides access to either the gradient of the function or only the function value, and where the oracle access is either deterministic or stochastic. We determine the number of required oracle accesses in all cases. Our approach gives new/improved results for nine out of the sixteen considered cases, avoids computationally expensive projections in two cases, with the proposed framework matching performance of state-of-the-art approaches in the remaining five cases. Notably, our approach for the stochastic function value-based oracle enables the first regret bounds with bandit feedback for stochastic DR-submodular functions.
翻訳日:2024-01-15 21:41:49 公開日:2024-01-12
# フェデレーション・トランスファー・ラーニングによる基礎モデル:汎用フレームワーク

Grounding Foundation Models through Federated Transfer Learning: A General Framework ( http://arxiv.org/abs/2311.17431v8 )

ライセンス: Link先を確認
Yan Kang, Tao Fan, Hanlin Gu, Xiaojin Zhang, Lixin Fan, Qiang Yang(参考訳) 膨大な知識と強力な創発能力を備えたGPT-4のような基礎モデル(FM)は、様々な自然言語処理やコンピュータビジョンタスクにおいて大きな成功を収めている。 FMをドメイン固有のタスクに適応させたり、ドメイン固有の知識で拡張することで、FMの潜在能力を最大限活用することができる。 しかし、基盤となるFMは、主に制約のあるコンピューティングリソース、データプライバシ、モデルの不均一性、モデルオーナシップなど、いくつかの課題に直面している。 フェデレーション・トランスファー・ラーニング(FTL)は、フェデレーション・ラーニングとトランスファー・ラーニングを組み合わせたもので、これらの課題に対処するための有望なソリューションを提供する。 近年、FTL-FMと呼ばれるFTLを利用したFMの接地の必要性が、学術と産業の両方で強く現れている。 本研究では,FTL-FM研究の高度化とFTL-FMの産業的応用への影響を背景として,FTL-FMフレームワークの構築,FTL-FMフレームワークに基づく詳細な分類法の構築,最先端のFTL-FM作品の分類,提案した分類法に基づくFTL-FM作品の包括的概要について述べる。 また、FTL-FMと従来のFM適応フェーズの対応性を確立し、FM実践者がFTL-FMと研究作業を整合させることができるようにした。 さらに、FTL-FMにおいて効率とプライバシーが重要となるため、高度な効率改善とプライバシー保護技術の概要を述べる。 最後に,FTL-FMの今後の研究の方向性について述べる。

Foundation Models (FMs) such as GPT-4 encoded with vast knowledge and powerful emergent abilities have achieved remarkable success in various natural language processing and computer vision tasks. Grounding FMs by adapting them to domain-specific tasks or augmenting them with domain-specific knowledge enables us to exploit the full potential of FMs. However, grounding FMs faces several challenges, stemming primarily from constrained computing resources, data privacy, model heterogeneity, and model ownership. Federated Transfer Learning (FTL), the combination of federated learning and transfer learning, provides promising solutions to address these challenges. In recent years, the need for grounding FMs leveraging FTL, coined FTL-FM, has arisen strongly in both academia and industry. Motivated by the strong growth in FTL-FM research and the potential impact of FTL-FM on industrial applications, we propose an FTL-FM framework that formulates problems of grounding FMs in the federated learning setting, construct a detailed taxonomy based on the FTL-FM framework to categorize state-of-the-art FTL-FM works, and comprehensively overview FTL-FM works based on the proposed taxonomy. We also establish correspondences between FTL-FM and conventional phases of adapting FM so that FM practitioners can align their research works with FTL-FM. In addition, we overview advanced efficiency-improving and privacy-preserving techniques because efficiency and privacy are critical concerns in FTL-FM. Last, we discuss opportunities and future research directions of FTL-FM.
翻訳日:2024-01-15 21:35:40 公開日:2024-01-12
# 半教師付き系列生成のための大規模言語モデルからの多段階協調知識蒸留

Multistage Collaborative Knowledge Distillation from Large Language Models for Semi-Supervised Sequence Generation ( http://arxiv.org/abs/2311.08640v2 )

ライセンス: Link先を確認
Jiachen Zhao, Wenlong Zhao, Andrew Drozdov, Benjamin Rozonoyer, Md Arafat Sultan, Jay-Yoon Lee, Mohit Iyyer, Andrew McCallum(参考訳) 本研究では,ラベル付きデータではモデルの細粒化が効果的にできない場合と,大規模言語モデル(llm)の少数のプロンプトが最適ではない場合の半教師付きシーケンス生成タスクについて検討する。 これは、構文解析のようなタスクがアノテートするのに高価であり、事前訓練されたLLMに馴染みのない場合に発生する。 本稿では,学習したLLMから抽出した学生モデルが,教師よりもよく一般化できることを示す。 そこで本研究では, LLM (MCKD) を用いた多段階共同知識蒸留法を提案する。 MCKDの最初の数発は、LLMにラベルなしデータの擬似ラベルを作成するよう促す。 各中間知識蒸留(KD)段階において、疑似ラベル付きデータの解離分割について、新しい一対の学生を訓練する。 それぞれの学生は、蒸留の次の段階で使われる見知らぬ分割のために、新しく改良された疑似ラベルを生成する。 複数の構文解析および意味解析タスクにおいて,多段階間ラベリングの利点を示す。 例えば、CRAFTのバイオメディカル解析では、50のラベル付き例を持つ3段階のMCKDは、誘導されたLLMとバニラKDをそれぞれ7.5%、そして3.7%のパーシングF1より優れており、監督された微調整のパフォーマンスと500の例とが一致している。

We study semi-supervised sequence generation tasks where labeled data are too scarce to effectively finetune a model and at the same time few-shot prompting of a large language model (LLM) has suboptimal performance. This happens when a task, such as parsing, is expensive to annotate and also unfamiliar to a pretrained LLM. In this paper, we present a discovery that student models distilled from an in-context learned LLM can often generalize better than their teacher on such tasks. Leveraging this finding, we present a new method -- multistage collaborative knowledge distillation from an LLM (MCKD) -- for such tasks. MCKD first few-shot prompts an LLM to produce pseudolabels for unlabeled data. At each intermediate knowledge distillation (KD) stage, a new pair of students is trained on disjoint partitions of the pseudolabeled data. Each student then produces new and improved pseudolabels for its unseen partition to be used in the next stage of distillation. We demonstrate the advantage of multistage cross-partition labeling on several syntactic and semantic parsing tasks. On CRAFT biomedical parsing, for example, 3-stage MCKD with 50 labeled examples outperforms the prompted LLM and vanilla KD by 7.5% and 3.7% parsing F1, respectively, and matches the performance of supervised finetuning with 500 examples.
翻訳日:2024-01-15 21:35:07 公開日:2024-01-12
# プライバシにフェアネス:メンバーシップ推論攻撃を通じて、公正なバイナリ分類器でプライバシーの脅威を探る

When Fairness Meets Privacy: Exploring Privacy Threats in Fair Binary Classifiers through Membership Inference Attacks ( http://arxiv.org/abs/2311.03865v2 )

ライセンス: Link先を確認
Huan Tian, Guangsheng Zhang, Bo Liu, Tianqing Zhu, Ming Ding, Wanlei Zhou(参考訳) これまでの研究は、特定の部分群に対する差別的行動を示すバイアスモデルに対する公平性法を開発した。 これらのモデルは、公正な予測を達成する上で有望であるが、最近の研究では、スコアベースのメンバーシップ推論攻撃(MIA)に対する潜在的な脆弱性を特定している。 これらの攻撃では、モデルの予測スコアを分析して、特定のデータサンプルがトレーニング中に使用されたかどうかを推測することができる。 しかし,これらのスコアベースMIAは,二項分類における公平性向上モデルを対象としている場合,有効ではないことが明らかとなった。 miasを発射する訓練を受けた攻撃モデルは、単純なしきい値モデルに分解され、攻撃性能が低下する。 一方,公平性はトレーニングデータの多数部分群に対する予測性能の低下につながることがしばしば観測された。 これにより、攻撃の成功への障壁が高まり、メンバーデータと非メンバーデータの間の予測ギャップが拡大する。 これらの知見に基づいて、フェアネス差分結果(FD-MIA)に基づくフェアネス強化モデルに対する効率的なMIA手法を提案する。 オリジナルモデルとフェアネスエンハンスモデルの両方からの予測の違いを活用し、観測された予測ギャップを攻撃の手がかりとして活用する。 また、プライバシー漏洩を緩和するための潜在的戦略についても検討する。 広範な実験を行い,提案手法の有効性を実証した。

Previous studies have developed fairness methods for biased models that exhibit discriminatory behaviors towards specific subgroups. While these models have shown promise in achieving fair predictions, recent research has identified their potential vulnerability to score-based membership inference attacks (MIAs). In these attacks, adversaries can infer whether a particular data sample was used during training by analyzing the model's prediction scores. However, our investigations reveal that these score-based MIAs are ineffective when targeting fairness-enhanced models in binary classifications. The attack models trained to launch the MIAs degrade into simplistic threshold models, resulting in lower attack performance. Meanwhile, we observe that fairness methods often lead to prediction performance degradation for the majority subgroups of the training data. This raises the barrier to successful attacks and widens the prediction gaps between member and non-member data. Building upon these insights, we propose an efficient MIA method against fairness-enhanced models based on fairness discrepancy results (FD-MIA). It leverages the difference in the predictions from both the original and fairness-enhanced models and exploits the observed prediction gaps as attack clues. We also explore potential strategies for mitigating privacy leakages. Extensive experiments validate our findings and demonstrate the efficacy of the proposed method.
翻訳日:2024-01-15 21:34:42 公開日:2024-01-12
# diffdub: 拡散オートエンコーダを用いたインペインティングレンダラを用いたパーソナライズドボッキング

DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoder ( http://arxiv.org/abs/2311.01811v2 )

ライセンス: Link先を確認
Tao Liu, Chenpeng Du, Shuai Fan, Feilong Chen, Kai Yu(参考訳) 高品質でパーソナライズされたビジュアルドビングの生成は依然として課題である。 近年のイノベーションでは、2段階のパラダイムが出現し、中間表現を導管として促進するレンダリングとリップ同期プロセスが分離された。 それでも、従来の方法論は荒いランドマークに依存しているか、単一の話者に限定されているため、パフォーマンスが制限されている。 本稿ではDiffDub: Diffusion-based dubbingを提案する。 まず,マスクを組み込んだ塗装レンダラを用いて拡散オートエンコーダを作成し,編集可能領域と未変更領域を画定する。 これにより、残りの部分を保持しながら下面領域をシームレスに充填することができる。 実験を通して、いくつかの課題に遭遇した。 主にセマンティックエンコーダは堅牢性に欠けており、高レベルの機能をキャプチャする能力を制限している。 さらに、モデリングは顔の位置を無視し、口や鼻がフレームに散らばった。 これらの問題に対処するために,我々はデータ拡張や補足眼指導など多彩な戦略を採用している。 さらに,クロスアテンション機構によって強化されたコンフォーメータベースの参照エンコーダとモーションジェネレータをカプセル化した。 これにより、異なる参照で個人固有のテクスチャを学習し、ペア化された音声視覚データへの依存を減らすことができる。 我々の厳密な実験は、我々の画期的なアプローチが既存の手法をかなり上回り、シームレスで分かりやすい動画を個人や多言語のシナリオで提供することを包括的に強調しています。

Generating high-quality and person-generic visual dubbing remains a challenge. Recent innovation has seen the advent of a two-stage paradigm, decoupling the rendering and lip synchronization process facilitated by intermediate representation as a conduit. Still, previous methodologies rely on rough landmarks or are confined to a single speaker, thus limiting their performance. In this paper, we propose DiffDub: Diffusion-based dubbing. We first craft the Diffusion auto-encoder by an inpainting renderer incorporating a mask to delineate editable zones and unaltered regions. This allows for seamless filling of the lower-face region while preserving the remaining parts. Throughout our experiments, we encountered several challenges. Primarily, the semantic encoder lacks robustness, constricting its ability to capture high-level features. Besides, the modeling ignored facial positioning, causing mouth or nose jitters across frames. To tackle these issues, we employ versatile strategies, including data augmentation and supplementary eye guidance. Moreover, we encapsulated a conformer-based reference encoder and motion generator fortified by a cross-attention mechanism. This enables our model to learn person-specific textures with varying references and reduces reliance on paired audio-visual data. Our rigorous experiments comprehensively highlight that our ground-breaking approach outpaces existing methods with considerable margins and delivers seamless, intelligible videos in person-generic and multilingual scenarios.
翻訳日:2024-01-15 21:34:20 公開日:2024-01-12
# 拡散モデルの一般化特性について

On the Generalization Properties of Diffusion Models ( http://arxiv.org/abs/2311.01797v3 )

ライセンス: Link先を確認
Puheng Li, Zhong Li, Huishuai Zhang, Jiang Bian(参考訳) 拡散モデル(英: diffusion model)は、経験的に観測されるが未知な対象分布と既知の事前の間の確率的輸送写像を確立するのに役立つ生成モデルの一種である。 実世界の応用において顕著な成功を収めたにもかかわらず、その一般化能力に関する理論的理解は未開発である。 本研究は拡散モデルの一般化特性の包括的理論的探究に着手する。 スコアベース拡散モデルのトレーニングダイナミクスと相まって進化する一般化ギャップの理論的な推定を定め、サンプルサイズ$n$ とモデル容量 $m$ の両方において多項式的に小さい一般化誤差 (o(n^{-2/5}+m^{-4/5}) を示唆し、早期停止時の次元の呪い(すなわち、データ次元の指数的に大きいものではない)を回避した。 さらに,定量的解析をデータ依存シナリオに拡張し,対象の分布をモード間の距離を徐々に増加させる密度の連続として表現する。 これは、モデル一般化に対する「モードシフト」の地平における悪影響を正確に解明する。 さらに、これらの推定は理論的な構成だけでなく、数値シミュレーションによっても確認されている。 本研究は拡散モデルの一般化特性の厳密な理解に寄与し,実用的応用の指針となる洞察を提供する。

Diffusion models are a class of generative models that serve to establish a stochastic transport map between an empirically observed, yet unknown, target distribution and a known prior. Despite their remarkable success in real-world applications, a theoretical understanding of their generalization capabilities remains underdeveloped. This work embarks on a comprehensive theoretical exploration of the generalization attributes of diffusion models. We establish theoretical estimates of the generalization gap that evolves in tandem with the training dynamics of score-based diffusion models, suggesting a polynomially small generalization error ($O(n^{-2/5}+m^{-4/5})$) on both the sample size $n$ and the model capacity $m$, evading the curse of dimensionality (i.e., not exponentially large in the data dimension) when early-stopped. Furthermore, we extend our quantitative analysis to a data-dependent scenario, wherein target distributions are portrayed as a succession of densities with progressively increasing distances between modes. This precisely elucidates the adverse effect of "modes shift" in ground truths on the model generalization. Moreover, these estimates are not solely theoretical constructs but have also been confirmed through numerical simulations. Our findings contribute to the rigorous understanding of diffusion models' generalization properties and provide insights that may guide practical applications.
翻訳日:2024-01-15 21:33:55 公開日:2024-01-12
# テキスト属性グラフのための大規模言語モデルを用いた乱れ表現学習

Disentangled Representation Learning with Large Language Models for Text-Attributed Graphs ( http://arxiv.org/abs/2310.18152v3 )

ライセンス: Link先を確認
Yijian Qin, Xin Wang, Ziwei Zhang, Wenwu Zhu(参考訳) テキスト分散グラフ(TAG)はウェブ上で広く普及しており、引用ネットワークやeコマースネットワーク、ソーシャルネットワークといったTAGに関する調査がWebコミュニティで注目されている。 近年,大規模言語モデル (LLM) は,幅広いタスクにまたがる例外的な機能を示している。 しかし、既存の研究は、グラフ構造情報をLSMに伝達するプロンプトにのみ依存しているため、TAG内の複雑な構造関係の理解が不十分である。 本稿では,この問題を解決するために,タグに対するllmの推論と予測能力を向上させるためのdgtl(disentangled graph-text learner)モデルを提案する。 提案するdgtlモデルは,gnn(tailored disentangled graph neural network)層を介してグラフ構造情報を取り込み,複数の構造要素からテキスト属性グラフに隠された複雑な関係をllmでキャプチャする。 さらに、DGTLはフリーズされたLLMで動作し、計算コストを削減し、異なるLLMモデルと組み合わせる際の柔軟性をより高めている。 実験により,提案したDGTLモデルにより,最先端のベースラインよりも優れた性能,あるいは同等の性能が得られることを示した。 さらに,dgtlモデルが予測のための自然言語説明を提供することにより,モデル解釈可能性を大幅に向上できることを実証した。

Text-attributed graphs (TAGs) are prevalent on the web and research over TAGs such as citation networks, e-commerce networks and social networks has attracted considerable attention in the web community. Recently, large language models (LLMs) have demonstrated exceptional capabilities across a wide range of tasks. However, the existing works focus on harnessing the potential of LLMs solely relying on prompts to convey graph structure information to LLMs, thus suffering from insufficient understanding of the complex structural relationships within TAGs. To address this problem, in this paper we present the Disentangled Graph-Text Learner (DGTL) model, which is able to enhance the reasoning and predicting capabilities of LLMs for TAGs. Our proposed DGTL model incorporates graph structure information through tailored disentangled graph neural network (GNN) layers, enabling LLMs to capture the intricate relationships hidden in text-attributed graphs from multiple structural factors. Furthermore, DGTL operates with frozen pre-trained LLMs, reducing computational costs and allowing much more flexibility in combining with different LLM models. Experimental evaluations demonstrate the effectiveness of the proposed DGTL model on achieving superior or comparable performance over state-of-the-art baselines. Additionally, we also demonstrate that our DGTL model can offer natural language explanations for predictions, thereby significantly enhancing model interpretability.
翻訳日:2024-01-15 21:33:14 公開日:2024-01-12
# O3D:大規模言語モデルを用いた逐次決定処理のためのオフラインデータ駆動探索と蒸留

O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models ( http://arxiv.org/abs/2310.14403v3 )

ライセンス: Link先を確認
Yuchen Xiao, Yanchao Sun, Mengda Xu, Udari Madhushani, Jared Vann, Deepeka Garg, Sumitra Ganesh(参考訳) 大規模言語モデル(LLM)の最近の進歩は、逐次意思決定問題を解決する上で有望な性能を示した。 プロンプト(インコンテキストラーニング)で提供される少数の例を模倣することで、LLMエージェントは外部環境と対話し、追加のトレーニングなしでタスクを完了させることができる。 しかし、このような少数の例は複雑で長い水平タスクの高品質な解を生成するには不十分であるが、限られた文脈長はより大規模な実演を消費することができない。 そこで本研究では,大規模なオフラインデータ(例えば人間との対話ログ)を利用して,LLMエージェントのテキスト内学習性能を向上させるオフライン学習フレームワークを提案する。 テキストベースのアプローチとコードベースのアプローチの両方で,LSMによるポリシーを正式に定義する。 次に、細調整なしでLCMによるポリシーを改善するために、オフラインデータ駆動型ディスカバリー・蒸留(O3D)フレームワークを導入する。 O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて複数のタスクにまたがる一般化可能な知識を蒸留し、下流タスクを解く能力を向上させる。 2つの対話型意思決定ベンチマーク(ALFWorldとWebShop)による実証的な結果から、O3Dはオフラインの発見と蒸留プロセスを通じてLCMの意思決定能力を顕著に向上し、テキストベースのポリティクスとコードベースのポリティクスの両方で、様々なLCMのベースラインを一貫して上回ることを示した。

Recent advancements in large language models (LLMs) have exhibited promising performance in solving sequential decision-making problems. By imitating few-shot examples provided in the prompts (i.e., in-context learning), an LLM agent can interact with an external environment and complete given tasks without additional training. However, such few-shot examples are often insufficient to generate high-quality solutions for complex and long-horizon tasks, while the limited context length cannot consume larger-scale demonstrations. To this end, we propose an offline learning framework that utilizes offline data at scale (e.g, logs of human interactions) to facilitate the in-context learning performance of LLM agents. We formally define LLM-powered policies with both text-based approaches and code-based approaches. We then introduce an Offline Data-driven Discovery and Distillation (O3D) framework to improve LLM-powered policies without finetuning. O3D automatically discovers reusable skills and distills generalizable knowledge across multiple tasks based on offline interaction data, advancing the capability of solving downstream tasks. Empirical results under two interactive decision-making benchmarks (ALFWorld and WebShop) demonstrate that O3D can notably enhance the decision-making capabilities of LLMs through the offline discovery and distillation process, and consistently outperform baselines across various LLMs with both text-based-policy and code-based-policy.
翻訳日:2024-01-15 21:32:09 公開日:2024-01-12
# スパイキングニューラルネットワークの効果的なトレーニングのためのスパイク累積フォワード

Spike Accumulation Forwarding for Effective Training of Spiking Neural Networks ( http://arxiv.org/abs/2310.02772v4 )

ライセンス: Link先を確認
Ryuji Saiin, Tomoya Shirakawa, Sota Yoshihara, Yoshihide Sawada and Hiroyuki Kusumoto(参考訳) 本稿では、スパイキングニューラルネットワーク(SNN)、スパイク累積フォワード(SAF)をトレーニングするための新しいパラダイムを提案する。 SNNはエネルギー効率が高いが、訓練が難しいことが知られている。 その結果、多くの研究者がこの問題を解決するための様々な方法を提案しており、そのうちの1つは、時間によるオンライントレーニング(OTTT)が、メモリコストを抑えながら各ステップで推論できる方法である。 しかし、GPU上で効率よく計算するためには、OTTTはスパイク列車とフォワード中のスパイク列車の重み付け総和で操作する必要がある。 加えて、otttはスパイク表現との理論的一致が証明されていないが、代替訓練法であるスパイク表現との関係を示した。 提案手法は,SAFが前処理中の操作数を半減し,SAFがSpike RepresentationとOTTTと整合性があることを理論的に証明できる。 さらに,上記の内容を実験により確認し,精度を維持しつつ記憶時間とトレーニング時間を短縮できることを示した。

In this article, we propose a new paradigm for training spiking neural networks (SNNs), spike accumulation forwarding (SAF). It is known that SNNs are energy-efficient but difficult to train. Consequently, many researchers have proposed various methods to solve this problem, among which online training through time (OTTT) is a method that allows inferring at each time step while suppressing the memory cost. However, to compute efficiently on GPUs, OTTT requires operations with spike trains and weighted summation of spike trains during forwarding. In addition, OTTT has shown a relationship with the Spike Representation, an alternative training method, though theoretical agreement with Spike Representation has yet to be proven. Our proposed method can solve these problems; namely, SAF can halve the number of operations during the forward process, and it can be theoretically proven that SAF is consistent with the Spike Representation and OTTT, respectively. Furthermore, we confirmed the above contents through experiments and showed that it is possible to reduce memory and training time while maintaining accuracy.
翻訳日:2024-01-15 21:31:24 公開日:2024-01-12
# FeCAM: 連続学習におけるクラス分布の不均一性の爆発

FeCAM: Exploiting the Heterogeneity of Class Distributions in Exemplar-Free Continual Learning ( http://arxiv.org/abs/2309.14062v3 )

ライセンス: Link先を確認
Dipam Goswami, Yuyang Liu, Bart{\l}omiej Twardowski, Joost van de Weijer(参考訳) exemplar-free class-incremental learning (cil)は、以前のタスクからのデータのリハーサルを禁止し、破滅的な忘れに苦しむため、いくつかの課題を提起する。 最初のタスクの後に特徴抽出器を凍結することで分類器を段階的に学習する最近のアプローチが注目を集めている。 本稿では,凍結した特徴抽出器を用いて新しいクラスプロトタイプを生成するCILのプロトタイプネットワークを探索し,プロトタイプとのユークリッド距離に基づいて特徴を分類する。 授業の特徴分布の分析において、ユークリッド指標に基づく分類が共同で訓練された特徴に対して成功することを示す。 しかし、非定常データから学習すると、ユークリッド計量は最適以下であり、特徴分布は不均一である。 この課題に対処するために、CILに対する異方性マハラノビス距離を再検討する。 さらに,特徴共分散関係のモデル化は,正規分布から特徴をサンプリングし線形分類器を訓練する以前の試みよりも優れていることを示す。 既存の方法とは異なり、当社のアプローチでは多点および少数ショットのcil設定とドメインインクリメンタル設定の両方に一般化しています。 興味深いことに、backboneネットワークを更新せずに、いくつかの標準連続学習ベンチマークで最先端の結果を得る。 コードはhttps://github.com/dipamgoswami/FeCAMで入手できる。

Exemplar-free class-incremental learning (CIL) poses several challenges since it prohibits the rehearsal of data from previous tasks and thus suffers from catastrophic forgetting. Recent approaches to incrementally learning the classifier by freezing the feature extractor after the first task have gained much attention. In this paper, we explore prototypical networks for CIL, which generate new class prototypes using the frozen feature extractor and classify the features based on the Euclidean distance to the prototypes. In an analysis of the feature distributions of classes, we show that classification based on Euclidean metrics is successful for jointly trained features. However, when learning from non-stationary data, we observe that the Euclidean metric is suboptimal and that feature distributions are heterogeneous. To address this challenge, we revisit the anisotropic Mahalanobis distance for CIL. In addition, we empirically show that modeling the feature covariance relations is better than previous attempts at sampling features from normal distributions and training a linear classifier. Unlike existing methods, our approach generalizes to both many- and few-shot CIL settings, as well as to domain-incremental settings. Interestingly, without updating the backbone network, our method obtains state-of-the-art results on several standard continual learning benchmarks. Code is available at https://github.com/dipamgoswami/FeCAM.
翻訳日:2024-01-15 21:31:04 公開日:2024-01-12
# ロボットワイヤハーネスアセンブリにおけるコンピュータビジョン技術の概要:現状と将来の可能性

Overview of Computer Vision Techniques in Robotized Wire Harness Assembly: Current State and Future Opportunities ( http://arxiv.org/abs/2309.13745v3 )

ライセンス: Link先を確認
Hao Wang, Omkar Salunkhe, Walter Quadrini, Dan L\"amkull, Fredrik Ore, Bj\"orn Johansson, Johan Stahre(参考訳) ワイヤーハーネスは現代の自動車における電子システムにとって必須のハードウェアである。 自動車産業の電気化と自動運転へのシフトに伴い、ますます多くの自動車エレクトロニクスがエネルギー伝達と、操縦、運転支援、安全システムといった安全上重要な機能を担っている。 このパラダイムシフトは安全の観点から自動車用ワイヤハーネスの需要を増加させ、車両における高品質ワイヤハーネスアセンブリの重要性を強調する。 しかし、現在のワイヤハーネス組立作業のほとんどは熟練労働者によって手作業で行われており、手作業は品質管理や人間工学の面で問題となっている。 また、競争力を高め市場シェアを獲得するよう業界に常に要求されている。 したがって、エルゴノミクスを改善し、労働コストを最適化しながら組立品質を確保することが望まれる。 ロボットや人間とロボットのコラボレーションによって実現されたロボットアセンブリは、完全な手作業よりもレプリカで透明で理解しやすいプロセスを可能にするため、ますます要求される品質と安全性を達成するための重要な実現手段である。 しかしながら、変形可能な物体の柔軟性のため、実用環境では、ワイヤハーネスのロボット化は困難であるが、工業的構成の単純化により、多くの予備的な自動化ソリューションが提案されている。 従来の研究では、コンピュータビジョン技術を用いてワイヤハーネス組立のロボット自動化を促進することを提案しており、ロボットは柔軟ワイヤハーネスをよりよく知覚し操作することができる。 本稿では、ロボット化されたワイヤハーネス組立のためのコンピュータビジョン技術の概要と、より実用的なワイヤハーネス組立を促進するためにさらなる研究を必要とする研究ギャップの導出について述べる。

Wire harnesses are essential hardware for electronic systems in modern automotive vehicles. With a shift in the automotive industry towards electrification and autonomous driving, more and more automotive electronics are responsible for energy transmission and safety-critical functions such as maneuvering, driver assistance, and safety system. This paradigm shift places more demand on automotive wire harnesses from the safety perspective and stresses the greater importance of high-quality wire harness assembly in vehicles. However, most of the current operations of wire harness assembly are still performed manually by skilled workers, and some of the manual processes are problematic in terms of quality control and ergonomics. There is also a persistent demand in the industry to increase competitiveness and gain market share. Hence, assuring assembly quality while improving ergonomics and optimizing labor costs is desired. Robotized assembly, accomplished by robots or in human-robot collaboration, is a key enabler for fulfilling the increasingly demanding quality and safety as it enables more replicable, transparent, and comprehensible processes than completely manual operations. However, robotized assembly of wire harnesses is challenging in practical environments due to the flexibility of the deformable objects, though many preliminary automation solutions have been proposed under simplified industrial configurations. Previous research efforts have proposed the use of computer vision technology to facilitate robotized automation of wire harness assembly, enabling the robots to better perceive and manipulate the flexible wire harness. This article presents an overview of computer vision technology proposed for robotized wire harness assembly and derives research gaps that require further study to facilitate a more practical robotized assembly of wire harnesses.
翻訳日:2024-01-15 21:30:33 公開日:2024-01-12
# ウィスパーからの自動ラベルを用いた限定ラベル付き言語に対する視覚音声認識

Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper ( http://arxiv.org/abs/2309.08535v2 )

ライセンス: Link先を確認
Jeong Hun Yeo, Minsu Kim, Shinji Watanabe, Yong Man Ro(参考訳) 本稿では,複数の言語,特にラベル付きデータの少ない低リソース言語に対して,強力な視覚音声認識(vsr)手法を提案する。 他言語から学んだ知識を用いて,対象言語に対するVSR性能を向上しようとする従来の手法とは異なり,人間の介入なしに,異なる言語に対するトレーニングデータ自体の量を増やすことができるかを検討する。 この目的のために,言語識別と音声に基づく音声認識を両立可能なささやきモデルを採用する。 望まれる言語のデータをフィルタリングし、注釈のない多言語音声視覚データプールからラベルを転写する。 自動ラベルと人称ラベルで訓練されたVSRモデルの性能を比較することで、人間のアノテーションを使わずに、人称ラベルと似たVSR性能を実現できることを示す。 自動ラベリングプロセスを通じて、voxceleb2とavspeechという多言語データベースを大規模にラベル付けし、フランス語、イタリア語、スペイン語、ポルトガル語の4つの低vsrリソース言語に対して1,002時間分のデータを生成する。 自動ラベルにより,mtedxにおける最新の性能を4つの言語で達成し,従来の手法を大きく上回っている。 自動ラベルはオンラインで入手できる。 https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages

This paper proposes a powerful Visual Speech Recognition (VSR) method for multiple languages, especially for low-resource languages that have a limited number of labeled data. Different from previous methods that tried to improve the VSR performance for the target language by using knowledge learned from other languages, we explore whether we can increase the amount of training data itself for the different languages without human intervention. To this end, we employ a Whisper model which can conduct both language identification and audio-based speech recognition. It serves to filter data of the desired languages and transcribe labels from the unannotated, multilingual audio-visual data pool. By comparing the performances of VSR models trained on automatic labels and the human-annotated labels, we show that we can achieve similar VSR performance to that of human-annotated labels even without utilizing human annotations. Through the automated labeling process, we label large-scale unlabeled multilingual databases, VoxCeleb2 and AVSpeech, producing 1,002 hours of data for four low VSR resource languages, French, Italian, Spanish, and Portuguese. With the automatic labels, we achieve new state-of-the-art performance on mTEDx in four languages, significantly surpassing the previous methods. The automatic labels are available online: https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages
翻訳日:2024-01-15 21:30:03 公開日:2024-01-12
# コードの大規模言語モデルの緑化

Greening Large Language Models of Code ( http://arxiv.org/abs/2309.04076v3 )

ライセンス: Link先を確認
Jieke Shi, Zhou Yang, Hong Jin Kang, Bowen Xu, Junda He, David Lo(参考訳) コードの大規模な言語モデルは、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。 これらの強力なモデル上に構築された多くのクラウドサービスが利用可能であるにも関わらず、制限されたあるいは信頼性の低いインターネットアクセスや、サードパーティベンダへのコードの外部送信を禁じる制度的なプライバシポリシなど、開発者がそれをフルに活用できないいくつかのシナリオが残っている。 したがって、開発者のデバイスに配置するためのコンパクトで効率的な省エネルギーモデルの開発が不可欠である。 そこで本研究では, モデルサイズ, 推論遅延, エネルギー消費, 炭素フットプリントを最適化し, 同等の効率性を維持しながら, 大規模言語モデルからデプロイ可能なモデルを構築する新しいアプローチであるAvatarを提案する。 アバターの重要な考え方は、言語モデルの最適化を多目的構成チューニング問題として定式化し、満足性モジュラー理論(smt)解法と最適化アルゴリズムの助けを借りて解くことである。 SMTソルバは適切な構成空間を形成するために使用され、最適化アルゴリズムは知識蒸留を用いて最適化されたモデルのトレーニングのためのパレート最適構成を識別する。 我々は、脆弱性予測とクローン検出という2つの一般的なタスクにおいて、AvatarをCodeBERTとGraphCodeBERTの2つの人気のある言語モデルで評価する。 私たちはAvatarを使って、小さなサイズ(3MB)で最適化されたモデルを作ります。 2つのタスクでは、最適化されたモデルによってエネルギー消費量(最大184$\times$以下)、カーボンフットプリント(最大157$\times$以下)、推論レイテンシ(最大76$\times$高速)が大幅に削減され、有効性が低下する(平均1.67\%)。

Large language models of code have shown remarkable effectiveness across various software engineering tasks. Despite the availability of many cloud services built upon these powerful models, there remain several scenarios where developers cannot take full advantage of them, stemming from factors such as restricted or unreliable internet access, institutional privacy policies that prohibit external transmission of code to third-party vendors, and more. Therefore, developing a compact, efficient, and yet energy-saving model for deployment on developers' devices becomes essential. To this aim, we propose Avatar, a novel approach that crafts a deployable model from a large language model of code by optimizing it in terms of model size, inference latency, energy consumption, and carbon footprint while maintaining a comparable level of effectiveness. The key idea of Avatar is to formulate the optimization of language models as a multi-objective configuration tuning problem and solve it with the help of a Satisfiability Modulo Theories (SMT) solver and a tailored optimization algorithm. The SMT solver is used to form an appropriate configuration space, while the optimization algorithm identifies the Pareto-optimal set of configurations for training the optimized models using knowledge distillation. We evaluate Avatar with two popular language models of code, i.e., CodeBERT and GraphCodeBERT, on two popular tasks, i.e., vulnerability prediction and clone detection. We use Avatar to produce optimized models with a small size (3 MB), which is 160$\times$ smaller than the original large models. On the two tasks, the optimized models significantly reduce the energy consumption (up to 184$\times$ less), carbon footprint (up to 157$\times$ less), and inference latency (up to 76$\times$ faster), with only a negligible loss in effectiveness (1.67\% on average).
翻訳日:2024-01-15 21:29:39 公開日:2024-01-12
# TIDE:分類と言語モデルの評価と拡張のためのテキストアイデンティティ検出

TIDE: Textual Identity Detection for Evaluating and Augmenting Classification and Language Models ( http://arxiv.org/abs/2309.04027v2 )

ライセンス: Link先を確認
Emmanuel Klu and Sameer Sethi(参考訳) 機械学習モデルは、不公平で不均衡なデータセットから意図しないバイアスを永続することができる。 人種、性別、性的指向などのセンシティブな属性が利用できないテキストデータセットでは、これらのデータセットとモデルの評価とデバイアスが特に難しい。 これらのモデルが社会に展開されると、歴史的に過小評価されたグループに対して不公平な結果をもたらす可能性がある。 本稿では,分類器と言語モデルにおけるテキストの公平性を向上する手法と組み合わせたデータセットを提案する。 私たちは、3つのカテゴリにわたる15,123のアイデンティティ用語と関連するセンスコンテキストを含む、より包括的なアイデンティティレキシコンであるtidalを作成します。 我々はTIDALを利用して、識別コンテキストの可用性とMLフェアネス手法の有効性を向上させるために使用できる識別アノテーションと拡張ツールを開発する。 人間のコントリビュータを用いてアプローチを評価し、データセットとモデルのデバイアスに着目した実験も行います。 提案手法により,ループ内作業の信頼性と速度が向上することを示す。 我々のデータセットと手法は、評価中により多くの格差を明らかにし、修復中により公平なモデルを生成する。 これらのアプローチは、現実世界の設定で分類器と生成モデルフェアネスをスケーリングするための実用的なパスを提供する。

Machine learning models can perpetuate unintended biases from unfair and imbalanced datasets. Evaluating and debiasing these datasets and models is especially hard in text datasets where sensitive attributes such as race, gender, and sexual orientation may not be available. When these models are deployed into society, they can lead to unfair outcomes for historically underrepresented groups. In this paper, we present a dataset coupled with an approach to improve text fairness in classifiers and language models. We create a new, more comprehensive identity lexicon, TIDAL, which includes 15,123 identity terms and associated sense context across three demographic categories. We leverage TIDAL to develop an identity annotation and augmentation tool that can be used to improve the availability of identity context and the effectiveness of ML fairness techniques. We evaluate our approaches using human contributors, and additionally run experiments focused on dataset and model debiasing. Results show our assistive annotation technique improves the reliability and velocity of human-in-the-loop processes. Our dataset and methods uncover more disparities during evaluation, and also produce more fair models during remediation. These approaches provide a practical path forward for scaling classifier and generative model fairness in real-world settings.
翻訳日:2024-01-15 21:29:02 公開日:2024-01-12
# 仲介者のフィードバックによる純粋探査

Pure Exploration under Mediators' Feedback ( http://arxiv.org/abs/2308.15552v2 )

ライセンス: Link先を確認
Riccardo Poiani, Alberto Maria Metelli, Marcello Restelli(参考訳) 確率的マルチアームバンディット(Stochastic multi-armed bandits)は、各インタラクションステップにおいて、学習者がアームを選択し、確率的報酬を観察するシーケンシャル意思決定フレームワークである。 最善の腕識別問題(bai)の文脈において、エージェントの目標は最適な腕(即ち最も期待された報酬を持つもの)を可能な限り正確かつ効率的に見つけることである。 それでも、エージェントが各ラウンドで引き出される腕を完全に制御する古典的BAI問題のシーケンシャルな相互作用プロトコルは、関心のある意思決定問題(例えば、非政治学習、部分的に制御可能な環境、人間からのフィードバック)を効果的にモデル化しない。 そこで,本研究では,仲介者のフィードバック(bai-mf)の下でのベストアーム識別と呼ぶ,古典bai問題の新たな厳密な一般化を提案する。 より具体的には、学習者が一組の仲介者にアクセスし、それぞれが確率的かつおそらく未知の方針に従ってエージェントの代理の腕を選択するシナリオを考える。 仲介者は、観察した報酬と共に、引き抜かれた腕とエージェントと通信する。 この設定では、エージェントの目標は、どのメディエーターに問い合わせて最適なアームを高い確率で識別するかを順次選択し、識別時間、すなわちサンプル複雑性を最小化することである。 この目的のために、我々はまず、一般的なメディエータフィードバックシナリオに特有のサンプルの複雑さの統計的下限を導出し分析する。 そこで我々は,仲介者の方針が学習者に知られていると仮定して,最良のアームを見つけるための逐次的意思決定戦略を提案する。 我々の理論が検証する通り、このアルゴリズムは下限とほぼ確実に一致する。 最後に、比較結果を得る学習者に対して、仲介者の方針が不明な場合に、これらの結果を拡張する。

Stochastic multi-armed bandits are a sequential-decision-making framework, where, at each interaction step, the learner selects an arm and observes a stochastic reward. Within the context of best-arm identification (BAI) problems, the goal of the agent lies in finding the optimal arm, i.e., the one with highest expected reward, as accurately and efficiently as possible. Nevertheless, the sequential interaction protocol of classical BAI problems, where the agent has complete control over the arm being pulled at each round, does not effectively model several decision-making problems of interest (e.g., off-policy learning, partially controllable environments, and human feedback). For this reason, in this work, we propose a novel strict generalization of the classical BAI problem that we refer to as best-arm identification under mediators' feedback (BAI-MF). More specifically, we consider the scenario in which the learner has access to a set of mediators, each of which selects the arms on the agent's behalf according to a stochastic and possibly unknown policy. The mediator, then, communicates back to the agent the pulled arm together with the observed reward. In this setting, the agent's goal lies in sequentially choosing which mediator to query to identify with high probability the optimal arm while minimizing the identification time, i.e., the sample complexity. To this end, we first derive and analyze a statistical lower bound on the sample complexity specific to our general mediator feedback scenario. Then, we propose a sequential decision-making strategy for discovering the best arm under the assumption that the mediators' policies are known to the learner. As our theory verifies, this algorithm matches the lower bound both almost surely and in expectation. Finally, we extend these results to cases where the mediators' policies are unknown to the learner obtaining comparable results.
翻訳日:2024-01-15 21:28:47 公開日:2024-01-12
# promptmrg: 診断駆動型医療報告書作成プロンプト

PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation ( http://arxiv.org/abs/2308.12604v2 )

ライセンス: Link先を確認
Haibo Jin, Haoxuan Che, Yi Lin, Hao Chen(参考訳) 医療報告自動生成(MRG)は, 放射線科医が報告書作成の負担を軽減できる可能性が高く, 研究価値が高い。 近年の進歩にもかかわらず、正確な臨床的理解と疾患の同定が必要であるため、正確なMRGは依然として困難である。 さらに、疾患の不均衡分布は、希少な疾患がトレーニングデータに不足しているため、診断性能の信頼性が低下するため、より顕著な課題となっている。 これらの課題に対処するために,診断対応プロンプトを用いてMRGの診断精度を向上させることを目的とした,医療報告生成のための診断駆動プロンプト(PromptMRG)を提案する。 具体的には、PromptMRGは、追加の疾患分類ブランチを持つエンコーダデコーダアーキテクチャに基づいている。 レポート生成時には、分類ブランチからの診断結果をトークンプロンプトに変換して、生成プロセスを明示的にガイドする。 診断精度をさらに向上するため,事前学習したCLIPの知識を活用して,データベースから類似したレポートを検索し,クエリ画像の診断を支援するクロスモーダル機能拡張を設計する。 さらに、各疾患の個別学習状況に基づいて分類枝に適応的ロジット調整損失を適用することで、テキストデコーダの疾患分布操作不能の障壁を克服し、疾患の不均衡問題に対処する。 2つのmrgベンチマークを用いた実験では, 両データセットで最新の臨床効果が得られるように, 提案手法の有効性が示された。 コードはhttps://github.com/jhb86253817/promptmrgで入手できる。

Automatic medical report generation (MRG) is of great research value as it has the potential to relieve radiologists from the heavy burden of report writing. Despite recent advancements, accurate MRG remains challenging due to the need for precise clinical understanding and disease identification. Moreover, the imbalanced distribution of diseases makes the challenge even more pronounced, as rare diseases are underrepresented in training data, making their diagnostic performance unreliable. To address these challenges, we propose diagnosis-driven prompts for medical report generation (PromptMRG), a novel framework that aims to improve the diagnostic accuracy of MRG with the guidance of diagnosis-aware prompts. Specifically, PromptMRG is based on encoder-decoder architecture with an extra disease classification branch. When generating reports, the diagnostic results from the classification branch are converted into token prompts to explicitly guide the generation process. To further improve the diagnostic accuracy, we design cross-modal feature enhancement, which retrieves similar reports from the database to assist the diagnosis of a query image by leveraging the knowledge from a pre-trained CLIP. Moreover, the disease imbalanced issue is addressed by applying an adaptive logit-adjusted loss to the classification branch based on the individual learning status of each disease, which overcomes the barrier of text decoder's inability to manipulate disease distributions. Experiments on two MRG benchmarks show the effectiveness of the proposed method, where it obtains state-of-the-art clinical efficacy performance on both datasets. The code is available at https://github.com/jhb86253817/PromptMRG.
翻訳日:2024-01-15 21:28:18 公開日:2024-01-12
# 関数型グラフィカルモデル: オフラインデータ駆動最適化を可能にする構造

Functional Graphical Models: Structure Enables Offline Data-Driven Optimization ( http://arxiv.org/abs/2401.05442v2 )

ライセンス: Link先を確認
Jakub Grudzien Kuba, Masatoshi Uehara, Pieter Abbeel, Sergey Levine(参考訳) 機械学習モデルは一般的に予測問題を解決するために訓練されているが、最適化問題に使用する場合が多い。 例えば、タンパク質のデータセットとその蛍光レベルを考えると、最も高い蛍光率を持つ新しいタンパク質を最適化したいかもしれません。 この種のデータ駆動最適化(DDO)は、トレーニングセットで見られる最高の設計よりも優れた新しい設計の性能を予測できるモデルが必要であるため、標準的な予測問題以外の様々な課題を提示します。 理論的には、既存のアプローチがデータセットで最適な設計を単純に選択するナイーブなアプローチよりもうまく機能するかどうかは明確ではない。 本稿では,サンプル効率のよいデータ駆動最適化手法を提案する。 構造の概念を定式化するために,関数型グラフィカルモデル(FGM)を導入し,元の高次元最適化問題をより小さなサブプロブレムに分解することにより,データ駆動最適化の原理を理論的に示す。 これにより、より実用的なDDO境界を導出することが可能となり、結果として、オフラインデータのカバー不足により単純なアプローチが失敗する状況において、FGMを持つDDOは、ほぼ最適な設計を実現できることが示唆される。 さらに、FGM構造自体を推定するデータ駆動最適化アルゴリズムを、元の入力変数または入力の潜在変数表現に対して提案する。

While machine learning models are typically trained to solve prediction problems, we might often want to use them for optimization problems. For example, given a dataset of proteins and their corresponding fluorescence levels, we might want to optimize for a new protein with the highest possible fluorescence. This kind of data-driven optimization (DDO) presents a range of challenges beyond those in standard prediction problems, since we need models that successfully predict the performance of new designs that are better than the best designs seen in the training set. It is not clear theoretically when existing approaches can even perform better than the naive approach that simply selects the best design in the dataset. In this paper, we study how structure can enable sample-efficient data-driven optimization. To formalize the notion of structure, we introduce functional graphical models (FGMs) and show theoretically how they can provide for principled data-driven optimization by decomposing the original high-dimensional optimization problem into smaller sub-problems. This allows us to derive much more practical regret bounds for DDO, and the result implies that DDO with FGMs can achieve nearly optimal designs in situations where naive approaches fail due to insufficient coverage of the offline data. We further present a data-driven optimization algorithm that inferes the FGM structure itself, either over the original input variables or a latent variable representation of the inputs.
翻訳日:2024-01-15 21:20:05 公開日:2024-01-12
# 不足データを用いたウェアラブルアプリケーションのための表現学習

Representation Learning for Wearable-Based Applications in the Case of Missing Data ( http://arxiv.org/abs/2401.05437v2 )

ライセンス: Link先を確認
Janosch Jungo, Yutong Xiang, Shkurta Gashi, Christian Holz(参考訳) ウェアラブルデバイスは、継続的にセンサーデータを収集し、睡眠、身体活動、感情などの個人の行動を推測するためにそれを使用する。 この分野における大きな関心と進歩にもかかわらず、実環境におけるマルチモーダルセンサデータのモデリングは、データ品質の低下とデータアノテーションの制限のため、依然として困難である。 本研究では,ウェアラブルデータの欠落を示唆する表現学習を,最先端統計手法と比較する。 マスク比の異なる10種類の生理的・行動的信号に対する変圧器モデルの性能について検討した。 以上の結果から,トランスフォーマーは単調信号ではなく,より頻繁に変化する信号の欠落データ計算において,ベースラインよりも優れていた。 さらに, 下流分類課題におけるインプテーション戦略とマスキング率の影響について検討した。 本研究は,マスキングに基づく自己教師付き学習タスクの設計と開発のための洞察を提供し,ウェアラブルデバイスにおけるデータ不足の課題に対処するためのハイブリッド型インプテーション戦略の採用を提唱する。

Wearable devices continuously collect sensor data and use it to infer an individual's behavior, such as sleep, physical activity, and emotions. Despite the significant interest and advancements in this field, modeling multimodal sensor data in real-world environments is still challenging due to low data quality and limited data annotations. In this work, we investigate representation learning for imputing missing wearable data and compare it with state-of-the-art statistical approaches. We investigate the performance of the transformer model on 10 physiological and behavioral signals with different masking ratios. Our results show that transformers outperform baselines for missing data imputation of signals that change more frequently, but not for monotonic signals. We further investigate the impact of imputation strategies and masking rations on downstream classification tasks. Our study provides insights for the design and development of masking-based self-supervised learning tasks and advocates the adoption of hybrid-based imputation strategies to address the challenge of missing data in wearable devices.
翻訳日:2024-01-15 21:19:40 公開日:2024-01-12
# MERA:ロシアにおける総合的なLCM評価

MERA: A Comprehensive LLM Evaluation in Russian ( http://arxiv.org/abs/2401.04531v2 )

ライセンス: Link先を確認
Alena Fenogenova, Artem Chervyakov, Nikita Martynov, Anastasia Kozlova, Maria Tikhonova, Albina Akhmetgareeva, Anton Emelyanov, Denis Shevelev, Pavel Lebedev, Leonid Sinev, Ulyana Isaeva, Katerina Kolomeytseva, Daniil Moskovskiy, Elizaveta Goncharova, Nikita Savushkin, Polina Mikhailova, Denis Dimitrov, Alexander Panchenko, Sergei Markov(参考訳) 過去数年間、AI研究の最も顕著な進歩の1つは、基礎モデル(FM)であり、言語モデル(LM)の台頭に基づいている。 モデルのサイズが大きくなるにつれて、LMは測定可能な側面の強化と新しい定性的特徴の開発を示す。 しかし、研究者の注意とLM応用の急速な成長にもかかわらず、その能力、限界、関連するリスクをよりよく理解する必要がある。 これらの課題に対処するために,ロシア語を指向した基礎モデルを評価するための新しい指導ベンチマークである,ロシア語アーキテクチャのマルチモーダル評価(MERA)を導入する。 このベンチマークは、11のスキルドメインで生成モデルを評価する21のタスクを含み、データ漏洩の排除を保証するブラックボックステストとして設計されている。 本稿では,FMとLMを,他のモードに拡張可能なゼロおよび少数ショットの固定命令設定で評価する手法を提案する。 本研究では,評価手法,mera評価のためのオープンソースコードベース,提出システムを備えたリーダボードを提案する。 オープンなLMをベースラインとして評価し,人間のレベルをはるかに下回っていることを確認した。 我々はMERAを公開し、今後の研究をガイドし、グラウンディングモデルの特徴を予測し、評価手順を標準化し、潜在的な社会的欠点に対処する。

Over the past few years, one of the most notable advancements in AI research has been in foundation models (FMs), headlined by the rise of language models (LMs). As the models' size increases, LMs demonstrate enhancements in measurable aspects and the development of new qualitative features. However, despite researchers' attention and the rapid growth in LM application, the capabilities, limitations, and associated risks still need to be better understood. To address these issues, we introduce an open Multimodal Evaluation of Russian-language Architectures (MERA), a new instruction benchmark for evaluating foundation models oriented towards the Russian language. The benchmark encompasses 21 evaluation tasks for generative models in 11 skill domains and is designed as a black-box test to ensure the exclusion of data leakage. The paper introduces a methodology to evaluate FMs and LMs in zero- and few-shot fixed instruction settings that can be extended to other modalities. We propose an evaluation methodology, an open-source code base for the MERA assessment, and a leaderboard with a submission system. We evaluate open LMs as baselines and find that they are still far behind the human level. We publicly release MERA to guide forthcoming research, anticipate groundbreaking model features, standardize the evaluation procedure, and address potential societal drawbacks.
翻訳日:2024-01-15 21:19:22 公開日:2024-01-12
# AIは人間と同じくらい創造的か?

Can AI Be as Creative as Humans? ( http://arxiv.org/abs/2401.01623v3 )

ライセンス: Link先を確認
Haonan Wang, James Zou, Michael Mozer, Anirudh Goyal, Alex Lamb, Linjun Zhang, Weijie J Su, Zhun Deng, Michael Qizhe Xie, Hannah Brown, Kenji Kawaguchi(参考訳) 創造性は社会的進歩とイノベーションの基盤となる。 人間の創造性に留まったタスクが可能な高度な生成型aiモデルの台頭に伴い、aiの創造性の研究は、その責任ある開発と応用に不可欠となる。 本稿では,AIが創造的かどうかという問題に対する理論的回答を提供する。 理論的には、AIが人間の創造者によって生成された既存のデータに適合できるという条件の下で、AIは人間と同じくらい創造的になれることを証明しています。 したがって、aiの創造性に関する議論は、膨大な量のデータに適合する能力の問題に還元される。 この結論に到達するために,本稿では,創造性の定義における複雑さについて,相対的創造性という新しい概念を導入することで論じる。 創造性を普遍的に定義するのではなく、aiが仮想人間の創造能力にマッチするかどうかに焦点を移す。 この視点はチューリングテストからインスピレーションを得て、クリエイティビティの評価に固有の課題と主観性に対処するために拡張される。 この方法論的なシフトは、統計的に定量化されたAIの創造性の評価につながる。 この概念は、AIの創造能力と特定の人間グループの比較を可能にし、AIの創造能力の理論的な発見を促進する。 この基礎を基礎として,即時条件付き自己回帰モデルにおける統計的創造性の適用について論じ,大規模言語モデル(llm)のような現代aiモデルの創造性を評価するための実用的な手段を提供する。 創造性の定義と分析に加えて,創造性の理論的定量化と実践モデルトレーニングのギャップを効果的に埋める,実行可能なトレーニングガイドラインを導入する。

Creativity serves as a cornerstone for societal progress and innovation. With the rise of advanced generative AI models capable of tasks once reserved for human creativity, the study of AI's creative potential becomes imperative for its responsible development and application. In this paper, we provide a theoretical answer to the question of whether AI can be creative. We prove in theory that AI can be as creative as humans under the condition that AI can fit the existing data generated by human creators. Therefore, the debate on AI's creativity is reduced into the question of its ability of fitting a massive amount of data. To arrive at this conclusion, this paper first addresses the complexities in defining creativity by introducing a new concept called Relative Creativity. Instead of trying to define creativity universally, we shift the focus to whether AI can match the creative abilities of a hypothetical human. This perspective draws inspiration from the Turing Test, expanding upon it to address the challenges and subjectivities inherent in assessing creativity. This methodological shift leads to a statistically quantifiable assessment of AI's creativity, which we term Statistical Creativity. This concept allows for comparisons of AI's creative abilities with those of specific human groups, and facilitates the theoretical findings of AI's creative potential. Building on this foundation, we discuss the application of statistical creativity in prompt-conditioned autoregressive models, providing a practical means for evaluating creative abilities of contemporary AI models, such as Large Language Models (LLMs). In addition to defining and analyzing creativity, we introduce an actionable training guideline, effectively bridging the gap between theoretical quantification of creativity and practical model training.
翻訳日:2024-01-15 21:19:00 公開日:2024-01-12
# LLaMA Beyond English: 言語の能力伝達に関する実証的研究

LLaMA Beyond English: An Empirical Study on Language Capability Transfer ( http://arxiv.org/abs/2401.01055v2 )

ライセンス: Link先を確認
Jun Zhao, Zhihao Zhang, Luhui Gao, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) 近年、ChatGPTによって実証された大規模言語モデル(LLM)では、様々な複雑なタスクにおいて顕著な習熟度を示している。 しかし、LLaMA のような多くの主要な LLM は、英語以外の言語での性能を制限する英語に支配的なコーパスで事前訓練されている。 本稿では,非英語の言語に対して,言語生成と従属命令の機能を効果的に伝達する方法に着目する。 この疑問に答えるために、LLaMAに基づいて1440時間以上のGPU時間を蓄積し、広範な実証調査を行う。 本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響を分析する。 モデルの知識レベルを正確に評価するために, C-Eval, MMLU, AGI-Eval, GAokao-Benchの4つの標準テストベンチマークを用いた。 さらに, llm-eval に基づいて, 精度, フラレンシ, 情報性, 論理的コヒーレンス, および無害性などの側面を考慮して, モデルの応答品質の包括的評価を行った。 評価結果は,知識アライメントと応答品質の両面で,事前学習データの1%未満で,最先端の転送モデルに匹敵する性能を達成できることを実証した。 さらに、13の低リソース言語に対する実験結果も同様の傾向を示した。 実験の結果から得られた結論が,非英語 LLM 開発におけるコミュニティの助けとなることを期待する。

In recent times, substantial advancements have been witnessed in large language models (LLMs), exemplified by ChatGPT, showcasing remarkable proficiency across a range of complex tasks. However, many mainstream LLMs (e.g. LLaMA) are pretrained on English-dominant corpus, which limits their performance in other non-English languages. In this paper, we focus on how to effectively transfer the capabilities of language generation and following instructions to a non-English language. To answer this question, we conduct an extensive empirical investigation based on LLaMA, accumulating over 1440 GPU hours. We analyze the impact of key factors such as vocabulary extension, further pretraining, and instruction tuning on transfer. To accurately assess the model's level of knowledge, we employ four widely used standardized testing benchmarks: C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench. Furthermore, a comprehensive evaluation of the model's response quality is conducted, considering aspects such as accuracy, fluency, informativeness, logical coherence, and harmlessness, based on LLM-Eval, a benchmarks consisting instruction tasks from 17 diverse categories. Our evaluation results demonstrate that comparable performance to state-of-the-art transfer models can be achieved with less than 1% of the pretraining data, both in terms of knowledge alignment and response quality. Furthermore, the experimental outcomes across the thirteen low-resource languages also exhibit similar trends. We anticipate that the conclusions revealed by the experiments will aid the community in developing non-English LLMs.
翻訳日:2024-01-15 21:18:32 公開日:2024-01-12
# 勧告システムの評価手法に関する総合的調査

A Comprehensive Survey of Evaluation Techniques for Recommendation Systems ( http://arxiv.org/abs/2312.16015v2 )

ライセンス: Link先を確認
Aryan Jadon and Avinash Patil(参考訳) 推薦システムの有効性は、オンラインプラットフォームにおけるユーザのエンゲージメントと満足度に大きく寄与する。 これらのレコメンデーションシステムはユーザーの選択にますます影響を与え、その評価は単なる技術的パフォーマンスを超越し、ビジネスの成功の中心となる。 本稿では,レコメンデーションシステム評価の多面的性質を,システム性能の異なる側面を捉えるために調整された総合的なメトリクススイートを導入することで解決する。 類似度指標:コンテンツベースのフィルタリング機構の精度を定量化し,協調フィルタリング手法の精度を評価する。 * 候補生成メトリクス: システムがどの程度広く関連する項目を効果的に識別するかを評価する。 ※予測基準:予測されたユーザの好みの精度を評価する。 ※格付け基準:勧告が提示される順序の有効性を評価する。 ※ビジネスメトリクス:レコメンデーションシステムのパフォーマンスを経済的目的と整合させる。 我々のアプローチは、これらのメトリクスとその相互依存性の文脈的適用を強調する。 本稿では,現在の評価手法の強みと限界を明らかにし,異なる指標にまたがるレコメンデーションシステムを最適化する際に生じる微妙なトレードオフを強調する。 本論文は,これらの指標の選択と解釈のためのフレームワークを提案し,システム性能の向上だけでなく,ビジネス目標の達成にも寄与する。 この研究は、研究者や実践者がレコメンデーションシステムを批判的に評価し、よりニュアンスで効果的で経済的に実行可能なパーソナライズ戦略の開発を促進することを目的としている。 私たちのコードはGitHubhttps://github.com/aryan-jadon/Evaluation-Metrics-for-Recommendation-Systemsで利用可能です。

The effectiveness of recommendation systems is pivotal to user engagement and satisfaction in online platforms. As these recommendation systems increasingly influence user choices, their evaluation transcends mere technical performance and becomes central to business success. This paper addresses the multifaceted nature of recommendations system evaluation by introducing a comprehensive suite of metrics, each tailored to capture a distinct aspect of system performance. We discuss * Similarity Metrics: to quantify the precision of content-based filtering mechanisms and assess the accuracy of collaborative filtering techniques. * Candidate Generation Metrics: to evaluate how effectively the system identifies a broad yet relevant range of items. * Predictive Metrics: to assess the accuracy of forecasted user preferences. * Ranking Metrics: to evaluate the effectiveness of the order in which recommendations are presented. * Business Metrics: to align the performance of the recommendation system with economic objectives. Our approach emphasizes the contextual application of these metrics and their interdependencies. In this paper, we identify the strengths and limitations of current evaluation practices and highlight the nuanced trade-offs that emerge when optimizing recommendation systems across different metrics. The paper concludes by proposing a framework for selecting and interpreting these metrics to not only improve system performance but also to advance business goals. This work is to aid researchers and practitioners in critically assessing recommendation systems and fosters the development of more nuanced, effective, and economically viable personalization strategies. Our code is available at GitHub - https://github.com/aryan-jadon/Evaluation-Metrics-for-Recommendation-Systems.
翻訳日:2024-01-15 21:18:05 公開日:2024-01-12
# NPHardEval: 複雑性クラスによる大規模言語モデルの推論能力の動的ベンチマーク

NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes ( http://arxiv.org/abs/2312.14890v3 )

ライセンス: Link先を確認
Lizhou Fan, Wenyue Hua, Lingyao Li, Haoyang Ling, Yongfeng Zhang(参考訳) 複雑な推論能力は、現在のLLMの最も重要な特徴の1つであり、複雑な意思決定タスクにおいて重要な役割を果たすために利用されてきた。 したがって,LLMの推論能力を評価するために,大規模言語モデル (LLM) の推論能力に関する多くのベンチマークが確立されている。 しかし、現在のベンチマークはLLMが達成できる推論能力の全範囲を厳格に評価する上で不十分である。 これらのベンチマークは公開アクセス可能で静的であるため、モデルが特定のベンチマークメトリクスに対する応答を調整できる可能性があり、その結果、パフォーマンスが増大する。 これらの制限に対処するため、我々の研究は NPHardEval という新しいベンチマークを導入した。 このベンチマークは、900のアルゴリズム質問の範囲でLLMの推論能力を評価し、NP-Hard複雑性クラスまで拡張するように設計されている。 これらの質問は、NPハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選ばれ、LLMの推論能力の厳密な測度を提供する。 本研究では,LLMにおける推論の現況に光を当て,複雑なクラス間でのLLMの性能の比較を通して,客観的かつ厳密な視点を提供する。 さらに、このベンチマークは動的更新メカニズムで設計されており、データポイントは毎月更新される。 このような定期的な更新は、ベンチマークに過剰に適合するllmのリスクを緩和し、より正確で信頼性の高い推論能力の評価を促進する上で、重要な役割を果たす。 NPHardEvalのベンチマークデータセットとコードはhttps://github.com/casmlab/NPHardEvalで公開されている。

Complex reasoning ability is one of the most important features of current LLMs, which has also been leveraged to play an integral role in complex decision-making tasks. Therefore, the investigation into the reasoning capabilities of Large Language Models (LLMs) is critical: numerous benchmarks have been established to assess the reasoning abilities of LLMs. However, current benchmarks are inadequate in offering a rigorous evaluation of the full extent of reasoning abilities that LLMs are capable of achieving. They are also prone to the risk of overfitting, as these benchmarks, being publicly accessible and static, allow models to potentially tailor their responses to specific benchmark metrics, thereby inflating their performance. Addressing these limitations, our research introduces a new benchmark, named NPHardEval. This benchmark is designed to evaluate the reasoning abilities of LLMs across a broad spectrum of 900 algorithmic questions, extending up to the NP-Hard complexity class. These questions are meticulously chosen to represent a wide range of complexity class below the NP-hard complexity class, offering a rigorous measure of the reasoning ability of LLMs. Through this study, we shed light on the current state of reasoning in LLMs, providing an objective and rigorous perspective through the comparison of LLMs' performance across complex classes. Moreover, this benchmark is designed with a dynamic update mechanism, where the datapoints are refreshed on a monthly basis. Such regular updates play a crucial role in mitigating the risk of LLMs overfitting to the benchmark, promoting a more accurate and reliable assessment of their reasoning capabilities. The benchmark dataset and code of NPHardEval are available at https://github.com/casmlab/NPHardEval.
翻訳日:2024-01-15 21:17:39 公開日:2024-01-12
# ps$^3$:セマンティックシンボリックシグネチャに基づく精密パッチ存在試験

PS$^3$: Precise Patch Presence Test based on Semantic Symbolic Signature ( http://arxiv.org/abs/2312.03393v4 )

ライセンス: Link先を確認
Qi Zhan, Xing Hu, Zhiyang Li, Xin Xia, David Lo, and Shanping Li(参考訳) ソフトウェア開発中、脆弱性はユーザにとって大きな脅威となった。 パッチは脆弱性に対処する最も効果的な方法です。 大規模ソフトウェアシステムでは,影響のあるバイナリ毎にセキュリティパッチをテストすることは,システムのセキュリティを確保する上で極めて重要である。 既知の脆弱性に対してバイナリがパッチされているかどうかを特定することは難しい。 既存のアプローチは主に、同じコンパイラオプションでコンパイルされるパッチの検出に重点を置いている。 しかし、開発者は異なる状況で異なるコンパイラオプションでプログラムをコンパイルすることが一般的であり、既存のメソッドでは不正確である。 本稿では,ps3と呼ばれる新しい手法を提案する。 PS3はシンボルエミュレーションを利用して、異なるコンパイラオプションの下で安定なシグネチャを抽出する。 そしてPS3は、参照とターゲットの署名をセマンティックレベルで比較することで、パッチの存在を正確にテストできる。 提案手法の有効性を評価するため、4つのC/C++プロジェクトにおいて,最新のCVEの3,631対(CVE,バイナリ)からなるデータセットを構築した。 実験の結果,PS3は精度,リコール,F1のスコアでそれぞれ0.82,0.97,0.89を得た。 PS3は、F1スコアの33%を改善して最先端のベースラインを上回り、異なるコンパイラオプションで安定している。

During software development, vulnerabilities have posed a significant threat to users. Patches are the most effective way to combat vulnerabilities. In a large-scale software system, testing the presence of a security patch in every affected binary is crucial to ensure system security. Identifying whether a binary has been patched for a known vulnerability is challenging, as there may only be small differences between patched and vulnerable versions. Existing approaches mainly focus on detecting patches that are compiled in the same compiler options. However, it is common for developers to compile programs with very different compiler options in different situations, which causes inaccuracy for existing methods. In this paper, we propose a new approach named PS3, referring to precise patch presence test based on semantic-level symbolic signature. PS3 exploits symbolic emulation to extract signatures that are stable under different compiler options. Then PS3 can precisely test the presence of the patch by comparing the signatures between the reference and the target at semantic level. To evaluate the effectiveness of our approach, we constructed a dataset consisting of 3,631 (CVE, binary) pairs of 62 recent CVEs in four C/C++ projects. The experimental results show that PS3 achieves scores of 0.82, 0.97, and 0.89 in terms of precision, recall, and F1 score, respectively. PS3 outperforms the state-of-the-art baselines by improving 33% in terms of F1 score and remains stable in different compiler options.
翻訳日:2024-01-15 21:17:12 公開日:2024-01-12
# TTSにおけるフロントエンドテキスト処理のためのマルチタスク学習

Multi-Task Learning for Front-End Text Processing in TTS ( http://arxiv.org/abs/2401.06321v1 )

ライセンス: Link先を確認
Wonjune Kang, Yun Wang, Shun Zhang, Arthur Hinsvark, Qing He(参考訳) 本稿では,tts(text-to-speech)フロントエンド(text normalization),pos(part-of-speech)タグ付け(part-of-speech),hd(homograph disambiguation)の3つのタスクを共同で行うマルチタスク学習モデルを提案する。 私たちのフレームワークは、共有表現を学習するトランクと、タスク固有のヘッドを分離したツリーのような構造を利用します。 さらに,組込み語彙と文脈の知識を活用するための事前学習された言語モデルも取り入れて,組込みを最大限に活用して,マルチタスクモデルに最も効果的なメリットを享受する方法について検討しています。 タスク・ワイド・アブリケーションを通じて、我々の3つのタスクで訓練されたフルモデルが、タスクの個別またはサブコンビネーションで訓練されたモデルと比較して最も高い総合的なパフォーマンスを達成することを示す。 最後に,様々なホモグラフとその発音の多様な文脈において,バランスのとれた文数を含む新しいhdデータセットを提案する。 このデータセットをトレーニングに組み込むことで、一般的に使われているが、既存の非バランスなデータセットよりもHDパフォーマンスが大幅に向上することを示した。

We propose a multi-task learning (MTL) model for jointly performing three tasks that are commonly solved in a text-to-speech (TTS) front-end: text normalization (TN), part-of-speech (POS) tagging, and homograph disambiguation (HD). Our framework utilizes a tree-like structure with a trunk that learns shared representations, followed by separate task-specific heads. We further incorporate a pre-trained language model to utilize its built-in lexical and contextual knowledge, and study how to best use its embeddings so as to most effectively benefit our multi-task model. Through task-wise ablations, we show that our full model trained on all three tasks achieves the strongest overall performance compared to models trained on individual or sub-combinations of tasks, confirming the advantages of our MTL framework. Finally, we introduce a new HD dataset containing a balanced number of sentences in diverse contexts for a variety of homographs and their pronunciations. We demonstrate that incorporating this dataset into training significantly improves HD performance over only using a commonly used, but imbalanced, pre-existing dataset.
翻訳日:2024-01-15 20:46:43 公開日:2024-01-12
# レビュー自動化のためのゼロショット大言語モデル

Zero-shot Generative Large Language Models for Systematic Review Screening Automation ( http://arxiv.org/abs/2401.06320v1 )

ライセンス: Link先を確認
Shuai Wang, Harrisen Scells, Shengyao Zhuang, Martin Potthast, Bevan Koopman, Guido Zuccon(参考訳) 体系的レビューは、特定の質問に関する研究成果を包括的に分析する上で、エビデンスベースの医療にとって不可欠である。 このようなレビューの実施は、特にレビューに含めるために出版物の要約を評価するスクリーニングフェーズにおいて、リソースと時間に重きを置くことが多い。 本研究では,ゼロショット大言語モデル~(LLM)を用いた自動スクリーニングの有効性を検討した。 我々は,8種類のLCMの有効性を評価し,事前定義されたリコール閾値を用いて,出版物を体系的なレビューに含めるべきかどうかを判定する校正手法を検討した。 5つの標準テストコレクションを用いた包括的評価により,指示の微調整がスクリーニングにおいて重要な役割を担っていること,キャリブレーションが目標リコールを達成するためにllmを実用的なものにすること,ゼロショットモデルのアンサンブルと組み合わせることで,最先端のアプローチに比べて大きなスクリーニング時間を節約できることが確認された。

Systematic reviews are crucial for evidence-based medicine as they comprehensively analyse published research findings on specific questions. Conducting such reviews is often resource- and time-intensive, especially in the screening phase, where abstracts of publications are assessed for inclusion in a review. This study investigates the effectiveness of using zero-shot large language models~(LLMs) for automatic screening. We evaluate the effectiveness of eight different LLMs and investigate a calibration technique that uses a predefined recall threshold to determine whether a publication should be included in a systematic review. Our comprehensive evaluation using five standard test collections shows that instruction fine-tuning plays an important role in screening, that calibration renders LLMs practical for achieving a targeted recall, and that combining both with an ensemble of zero-shot models saves significant screening time compared to state-of-the-art approaches.
翻訳日:2024-01-15 20:46:20 公開日:2024-01-12
# 強化学習による動的システムの公平さのバランスを取る

Striking a Balance in Fairness for Dynamic Systems Through Reinforcement Learning ( http://arxiv.org/abs/2401.06318v1 )

ライセンス: Link先を確認
Yaowei Hu, Jacob Lear, Lu Zhang(参考訳) 公正な機械学習の分野では大きな進歩があったが、ほとんどの研究は決定モデルが静的な人口に作用するシナリオに焦点を当てている。 本稿では,逐次決定を行う動的システムの公平性について検討する。 各決定は、基本となる機能分布やユーザの振る舞いを変える可能性がある。 我々はマルコフ決定プロセス(MDP)を用いて動的システムをモデル化する。 従来のフェアネスの概念と長期フェアネスが必ずしも一致しないような異なる要件であることを認め、前処理と内処理の両方を用いた強化学習と様々なフェアネスを考慮したアルゴリズム的枠組みを提案する。 3つのケーススタディにより,従来の公正観念,長期公正観,実用性とのバランスが得られた。

While significant advancements have been made in the field of fair machine learning, the majority of studies focus on scenarios where the decision model operates on a static population. In this paper, we study fairness in dynamic systems where sequential decisions are made. Each decision may shift the underlying distribution of features or user behavior. We model the dynamic system through a Markov Decision Process (MDP). By acknowledging that traditional fairness notions and long-term fairness are distinct requirements that may not necessarily align with one another, we propose an algorithmic framework to integrate various fairness considerations with reinforcement learning using both pre-processing and in-processing approaches. Three case studies show that our method can strike a balance between traditional fairness notions, long-term fairness, and utility.
翻訳日:2024-01-15 20:46:02 公開日:2024-01-12
# Masked Inter-Intra-Frame Attention を用いた超解像変換器

Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention ( http://arxiv.org/abs/2401.06312v1 )

ライセンス: Link先を確認
Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu(参考訳) Recently, Vision Transformer has achieved great success in recovering missing details in low-resolution sequences, i.e., the video super-resolution (VSR) task.Despite its superiority in VSR accuracy, the heavy computational burden as well as the large memory footprint hinder the deployment of Transformer-based VSR models on constrained devices.In this paper, we address the above issue by proposing a novel feature-level masked processing framework: VSR with Masked Intra and inter frame Attention (MIA-VSR). MIA-VSRのコアは、隣接するフレーム間の特徴レベルの時間的連続性を利用して冗長な計算を減らし、以前拡張されたSR特徴をより合理的に活用することである。 具体的には,過去の特徴と入力特徴のそれぞれの役割を考慮に入れたフレーム内およびフレーム間アテンションブロックを提案する。 また,隣接フレーム間の特徴類似性に応じて重要でない計算をスキップする適応型ブロックワイズマスク予測モジュールを開発した。 我々は,提案手法を最近の最先端のVSR手法と比較するため,詳細なアブレーション研究を行っている。 実験の結果,MIA-VSRはPSNR精度を落とさずに,最先端手法よりもメモリと計算効率を向上することが示された。 コードはhttps://github.com/LabShuHangGU/MIA-VSRで公開されている。

Recently, Vision Transformer has achieved great success in recovering missing details in low-resolution sequences, i.e., the video super-resolution (VSR) task.Despite its superiority in VSR accuracy, the heavy computational burden as well as the large memory footprint hinder the deployment of Transformer-based VSR models on constrained devices.In this paper, we address the above issue by proposing a novel feature-level masked processing framework: VSR with Masked Intra and inter frame Attention (MIA-VSR).The core of MIA-VSR is leveraging feature-level temporal continuity between adjacent frames to reduce redundant computations and make more rational use of previously enhanced SR features. Concretely, we propose an intra-frame and inter-frame attention block which takes the respective roles of past features and input features into consideration and only exploits previously enhanced features to provide supplementary information. In addition, an adaptive block-wise mask prediction module is developed to skip unimportant computations according to feature similarity between adjacent frames. We conduct detailed ablation studies to validate our contributions and compare the proposed method with recent state-of-the-art VSR approaches. The experimental results demonstrate that MIA-VSR improves the memory and computation efficiency over state-of-the-art methods, without trading off PSNR accuracy. The code is available at https://github.com/LabShuHangGU/MIA-VSR.
翻訳日:2024-01-15 20:45:48 公開日:2024-01-12
# 表面を超えて:テキスト・画像生成における視覚ステレオタイプの分析

Beyond the Surface: A Global-Scale Analysis of Visual Stereotypes in Text-to-Image Generation ( http://arxiv.org/abs/2401.06310v1 )

ライセンス: Link先を確認
Akshita Jha, Vinodkumar Prabhakaran, Remi Denton, Sarah Laszlo, Shachi Dave, Rida Qadri, Chandan K. Reddy, Sunipa Dev(参考訳) 最近の研究では、テキスト・ツー・イメージ(t2i)モデル世代における異なるアイデンティティグループの人々のためのステレオタイプ描写の問題が強調されている。 しかしながら、これらの既存のアプローチには、評価におけるグローバルアイデンティティグループの範囲の顕著な欠如や、関連するステレオタイプの範囲など、いくつかの重要な制限がある。 さらに、それらは「アンダーウェイト」や「ソンブレロ」のような本質的に視覚的なステレオタイプと、「魅力」や「テロ主義者」のような文化的に依存するステレオタイプとを区別しないことが多い。 本稿では,t2iモデルから生成した画像における地理文化的ステレオタイプの評価を行うために,既存のテクスト資源を活用する多面的手法を用いて,これらの制約に対処する。 我々は既存のステレオタイプベンチマークを用いて、世界規模で視覚ステレオタイプを特定し評価し、国籍に基づくアイデンティティグループ135にまたがる。 ステレオタイプ属性は,他の属性と比較して,これらの特徴のイメージに存在する可能性が示唆された。 さらに、生成した画像の描写が、異なる国籍に対してどう異なるかについて検討する。 最後に、詳細なケーススタディを通じて、すべての同一性群の「デフォルト」表現がどのようにステレオタイプ的外観を持つかを明らかにする。 さらに、グローバル・サウスでは、異なる属性にまたがるイメージが視覚的に類似している。 Content WARNING: 攻撃的なステレオタイプを含む場合もある。

Recent studies have highlighted the issue of stereotypical depictions for people of different identity groups in Text-to-Image (T2I) model generations. However, these existing approaches have several key limitations, including a noticeable lack of coverage of global identity groups in their evaluation, and the range of their associated stereotypes. Additionally, they often lack a critical distinction between inherently visual stereotypes, such as `underweight' or `sombrero', and culturally dependent stereotypes like `attractive' or `terrorist'. In this work, we address these limitations with a multifaceted approach that leverages existing textual resources to ground our evaluation of geo-cultural stereotypes in the generated images from T2I models. We employ existing stereotype benchmarks to identify and evaluate visual stereotypes at a global scale, spanning 135 nationality-based identity groups. We demonstrate that stereotypical attributes are thrice as likely to be present in images of these identities as compared to other attributes. We further investigate how disparately offensive the depictions of generated images are for different nationalities. Finally, through a detailed case study, we reveal how the 'default' representations of all identity groups have a stereotypical appearance. Moreover, for the Global South, images across different attributes are visually similar, even when explicitly prompted otherwise. CONTENT WARNING: Some examples may contain offensive stereotypes.
翻訳日:2024-01-15 20:45:27 公開日:2024-01-12
# 分散型動的6Gアプリケーションのためのセマンティック・アウェア多重アクセス方式

A Semantic-Aware Multiple Access Scheme for Distributed, Dynamic 6G-Based Applications ( http://arxiv.org/abs/2401.06308v1 )

ライセンス: Link先を確認
Hamidreza Mazandarani, Masoud Shokrnezhad, and Tarik Taleb(参考訳) セマンティック・アウェア・パラダイムの出現は、特に6Gベースのアプリケーションにおいて、革新的なサービスの可能性を示す。 セマンティック抽出技術は大きな進歩を遂げているが,資源配分決定へのセマンティック情報の導入はまだ初期段階であり,今後のシステム要件や特性は考慮されていない。 そこで本研究では,無線スペクトルへの多重アクセス問題に対する新しい定式化を提案する。 自己と補助スループットの概念を導入することによって、ユーザデータの相関を考慮しつつ、$\alpha$-fairnessメトリックを使用して、利用と公正のトレードオフを最適化することを目的としている。 当初、問題は最適解を特定するために分析される。 その後,Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL)技術を提案する。 本手法はモデルフリーのマルチエージェント深層強化学習(madrl)を基盤とし,ユーザ機器が局所的な観測のみに基づいて無線帯域アクセスに関する意思決定を自律的に行うことができる。 提案手法の効率は,シングルチャネルとマルチチャネルの2つのシナリオで評価した。 この結果は、$\alpha$値、関連行列、チャネルのスペクトルにおいて、SAMA-D3QLは代替アプローチよりも一貫して優れていることを示している。 これにより、将来の連合アプリケーションや動的に進化するアプリケーションの実現を促進する有望な候補として確立される。

The emergence of the semantic-aware paradigm presents opportunities for innovative services, especially in the context of 6G-based applications. Although significant progress has been made in semantic extraction techniques, the incorporation of semantic information into resource allocation decision-making is still in its early stages, lacking consideration of the requirements and characteristics of future systems. In response, this paper introduces a novel formulation for the problem of multiple access to the wireless spectrum. It aims to optimize the utilization-fairness trade-off, using the $\alpha$-fairness metric, while accounting for user data correlation by introducing the concepts of self- and assisted throughputs. Initially, the problem is analyzed to identify its optimal solution. Subsequently, a Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL) technique is proposed. This method is grounded in Model-free Multi-Agent Deep Reinforcement Learning (MADRL), enabling the user equipment to autonomously make decisions regarding wireless spectrum access based solely on their local individual observations. The efficiency of the proposed technique is evaluated through two scenarios: single-channel and multi-channel. The findings illustrate that, across a spectrum of $\alpha$ values, association matrices, and channels, SAMA-D3QL consistently outperforms alternative approaches. This establishes it as a promising candidate for facilitating the realization of future federated, dynamically evolving applications.
翻訳日:2024-01-15 20:45:03 公開日:2024-01-12
# 混合置換チャネルとその量子コヒーレンス推定への応用

Mixed-permutation channel with its application to estimate quantum coherence ( http://arxiv.org/abs/2401.06302v1 )

ライセンス: Link先を確認
Lin Zhang, and Ming-Jing Zhao(参考訳) 情報伝達器としての量子チャネルは、量子情報理論において必須のツールである。 本稿では,混合置換チャネルと呼ばれる特殊な量子チャネルのクラスについて検討する。 これらのチャネルの特性は特徴的である。 混合置換チャネルは任意のコヒーレンス測度に対して低い量子コヒーレンスを与えるために適用することができる。 特に、l1-ノルムコヒーレンスに対する解析下限とコヒーレンスの相対エントロピーをそれぞれ示す。 2成分系の拡張は、混合置換チャネルの作用のために提示される。

Quantum channel, as the information transmitter, is an indispensable tool in quantum information theory. In this paper, we study a class of special quantum channels named the mixed-permutation channels. The properties of these channels are characterized. The mixedpermutation channels can be applied to give a lower bound of quantum coherence with respect to any coherence measure. In particular, the analytical lower bounds for l1-norm coherence and the relative entropy of coherence are shown respectively. The extension to bipartite systems is presented for the actions of the mixed-permutation channels.
翻訳日:2024-01-15 20:44:41 公開日:2024-01-12
# LLMインコンテキスト学習のためのミス信頼に基づくデモ選択

Misconfidence-based Demonstration Selection for LLM In-Context Learning ( http://arxiv.org/abs/2401.06301v1 )

ライセンス: Link先を確認
Shangqing Xu, Chao Zhang (Georgia Institute of Technology)(参考訳) 大規模言語モデル(LLM)を用いたインコンテキスト学習は、様々なタスクに迅速に適応する上で優れている。 しかし、その成功はデモを慎重に選択することにかかっている。 この問題に対する現在のアプローチは、難しい外部監視に依存するか、LLMとの頻繁な相互作用を必要とするかのいずれかであり、結果としてコストが高い。 In-Context Reflection (ICR) と呼ばれる新しい手法を提案する。 ICRは、LSMの出力と実際の入出力マッピングとの差を減らすために、戦略的にデモを選択する。 具体的には、icrはランダムな初期デモから始まり、反復的に洗練します。 各ステップにおいて、候補となるサンプルのプールを分析し、不信という新しい指標によって測定されたLLMの現在の理解に最も挑戦する可能性のあるものを特定する。 これらの最も紛らわしい例が選択され、現在のセットのより情報に乏しいデモを置き換える。 13のサブタスクを含む5つの多様なデータセットの総合的な評価は、ICCの有効性を示している。 既存の方法と比較して、icrは平均的なパフォーマンス向上を4%達成し、優れたクロスタスク一般化能力を示している。

In-context learning with large language models (LLMs) excels at adapting to various tasks rapidly. However, its success hinges on carefully selecting demonstrations, which remains an obstacle in practice. Current approaches to this problem either rely on hard-to-acquire external supervision or require frequent interactions with LLMs, resulting in high costs. We propose a new method called In-Context Reflection (ICR) to overcome these challenges. ICR strategically selects demonstrations to reduce the discrepancy between the LLM's outputs and the actual input-output mappings. Specifically, ICR starts with a random set of initial demonstrations, then iteratively refines it. In each step, it analyzes a pool of candidate examples and identifies the ones most likely to challenge the LLM's current understanding, measured by a new metric called misconfidence. These most confusing examples are then selected to replace the less informative demonstrations in the current set. Our comprehensive evaluation across five diverse datasets encompassing 13 subtasks shows the efficacy of ICR. Compared to existing methods, ICR achieves an average performance boost of 4%, while demonstrating remarkable cross-task generalization capabilities.
翻訳日:2024-01-15 20:44:34 公開日:2024-01-12
# samlp: ライセンスプレート検出のためのsegment anythingモデル

SamLP: A Customized Segment Anything Model for License Plate Detection ( http://arxiv.org/abs/2401.06374v1 )

ライセンス: Link先を確認
Haoxuan Ding, Junyu Gao, Yuan Yuan, Qi Wang(参考訳) 基礎モデルの出現に伴い、このディープラーニングの新しいパラダイムは、自然言語処理とコンピュータビジョンにおける多くの強力な成果を後押ししてきた。 ファンデーションモデルには、優れた機能抽出能力、強力な一般化能力、優れた少数ショット学習能力、ゼロショット学習能力など、視覚タスクに有用な多くの利点がある。 車両の独特なアイデンティティとして、異なる国や地域は異なるライセンスプレート(LP)スタイルと外観を持ち、異なる種類の車両でさえ異なるLPを持っている。 しかし、最近のディープラーニングベースのライセンスプレート検出器は、主に特定のデータセットに基づいて訓練されており、これらの制限されたデータセットはLP検出器の有効性と堅牢性を制限する。 制限データによる負の影響を軽減するため,本論文では基礎モデルの利点を活用する試みを行っている。 lp検出タスクのための視覚基盤モデルであるsegment anything model(sam)をカスタマイズし,視覚基盤モデルに基づく最初のlp検出器であるsamlpを提案する。 具体的には,Low-Rank Adaptation (LoRA)ファインチューニング戦略を設計し,SAMに余分なパラメータを注入し,SAMをLP検出タスクに転送する。 さらに,SamLPにセグメンテーション能力を持たせるために,高速化可能な微調整手順を提案する。 実験の結果,SamLPは他のLP検出器と比較して有望な検出性能が得られた。 一方,提案するSamLPは,視覚基盤モデルへの移行の可能性を示す,少数ショットとゼロショットの学習能力を有する。 コードはhttps://github.com/Dinghaoxuan/SamLPで公開されている。

With the emergence of foundation model, this novel paradigm of deep learning has encouraged many powerful achievements in natural language processing and computer vision. There are many advantages of foundation model, such as excellent feature extraction power, mighty generalization ability, great few-shot and zero-shot learning capacity, etc. which are beneficial to vision tasks. As the unique identity of vehicle, different countries and regions have diverse license plate (LP) styles and appearances, and even different types of vehicles have different LPs. However, recent deep learning based license plate detectors are mainly trained on specific datasets, and these limited datasets constrain the effectiveness and robustness of LP detectors. To alleviate the negative impact of limited data, an attempt to exploit the advantages of foundation model is implement in this paper. We customize a vision foundation model, i.e. Segment Anything Model (SAM), for LP detection task and propose the first LP detector based on vision foundation model, named SamLP. Specifically, we design a Low-Rank Adaptation (LoRA) fine-tuning strategy to inject extra parameters into SAM and transfer SAM into LP detection task. And then, we further propose a promptable fine-tuning step to provide SamLP with prompatable segmentation capacity. The experiments show that our proposed SamLP achieves promising detection performance compared to other LP detectors. Meanwhile, the proposed SamLP has great few-shot and zero-shot learning ability, which shows the potential of transferring vision foundation model. The code is available at https://github.com/Dinghaoxuan/SamLP
翻訳日:2024-01-15 20:35:15 公開日:2024-01-12
# ジェイルブレイクのテーマ:LLMを人間化することでAIの安全性に挑戦するための説得を再考する

How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs ( http://arxiv.org/abs/2401.06373v1 )

ライセンス: Link先を確認
Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi(参考訳) 従来のAI安全研究は、AIモデルを機械としてアプローチし、セキュリティ専門家によって開発されたアルゴリズムにフォーカスした攻撃に集中してきた。 大規模言語モデル(LLM)がますます一般的で有能になるにつれて、非専門家のユーザは日々の対話中にリスクを課すこともある。 本稿では, 日常的な言語相互作用とAIの安全性の相違点を探るため, ジェイルブレイク LLM を人間のようなコミュニケーション者として, 新たな視点で紹介する。 具体的には, LLM の脱獄を説得する方法について検討する。 まず,社会科学研究の数十年から派生した説得分類法を提案する。 次に,この分類法を適用し,解釈可能な説得的敵対的プロンプト(PAP)をjailbreak LLMに自動生成する。 PAPはLlama 2-7b Chat, GPT-3.5, GPT-4の攻撃成功率を10ドルで一貫して達成し, アルゴリズムに焦点をあてた最近の攻撃を上回っている。 防衛面では、PAPに対する様々なメカニズムを探求し、既存の防衛に重大なギャップを見出し、高度にインタラクティブなLLMのより基本的な緩和を提唱する。

Most traditional AI safety research has approached AI models as machines and centered on algorithm-focused attacks developed by security experts. As large language models (LLMs) become increasingly common and competent, non-expert users can also impose risks during daily interactions. This paper introduces a new perspective to jailbreak LLMs as human-like communicators, to explore this overlooked intersection between everyday language interaction and AI safety. Specifically, we study how to persuade LLMs to jailbreak them. First, we propose a persuasion taxonomy derived from decades of social science research. Then, we apply the taxonomy to automatically generate interpretable persuasive adversarial prompts (PAP) to jailbreak LLMs. Results show that persuasion significantly increases the jailbreak performance across all risk categories: PAP consistently achieves an attack success rate of over $92\%$ on Llama 2-7b Chat, GPT-3.5, and GPT-4 in $10$ trials, surpassing recent algorithm-focused attacks. On the defense side, we explore various mechanisms against PAP and, found a significant gap in existing defenses, and advocate for more fundamental mitigation for highly interactive LLMs
翻訳日:2024-01-15 20:34:49 公開日:2024-01-12
# 効率的なバイオメディカルインスタンスセグメンテーションのためのグラフ関係蒸留法

Graph Relation Distillation for Efficient Biomedical Instance Segmentation ( http://arxiv.org/abs/2401.06370v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Yueyi Zhang, Zhiwei Xiong, Wei Huang, Bo Hu, Xiaoyan Sun, Feng Wu(参考訳) ディープニューラルネットワークによって予測されるインスタンス認識の埋め込みは、バイオメディカルなインスタンスセグメンテーションに革命をもたらしたが、そのリソース要求はかなり大きい。 知識蒸留は、重い教師ネットワークからの蒸留知識を軽量で高性能な学生ネットワークに移すことで解決策を提供する。 しかし, 既存の知識蒸留法では, インスタンスを識別する知識の抽出に苦慮し, グローバルな関係情報を見落としている。 これらの課題に対処するために,我々は,インスタンスレベルの特徴,インスタンス関係,ピクセルレベルの境界という3つの基本的な知識を考慮した,効率的な生物医学的インスタンス分割のためのグラフ関係蒸留手法を提案する。 画像内レベルと画像間レベルの両方に展開する2つのグラフ蒸留スキームを導入する:インスタンスグラフ蒸留(igd)とアフィニティグラフ蒸留(agd)。 IGDは、インスタンスの特徴と関係を表すグラフを構築し、これらの2種類の知識をインスタンスグラフの一貫性を強制することによって転送する。 AGDは、画素関係を表す親和性グラフを構築し、インスタンス境界の構造化された知識をキャプチャし、画素親和性整合性を保証することによって境界関連知識を転送する。 多くのバイオメディカルデータセットによる実験結果から, 提案手法の有効性を検証し, 教師モデルと比較して有望な性能を達成しつつ, 1 %$パラメータ未満, 10 %$推論時間未満の学生モデルを実現することができた。

Instance-aware embeddings predicted by deep neural networks have revolutionized biomedical instance segmentation, but its resource requirements are substantial. Knowledge distillation offers a solution by transferring distilled knowledge from heavy teacher networks to lightweight yet high-performance student networks. However, existing knowledge distillation methods struggle to extract knowledge for distinguishing instances and overlook global relation information. To address these challenges, we propose a graph relation distillation approach for efficient biomedical instance segmentation, which considers three essential types of knowledge: instance-level features, instance relations, and pixel-level boundaries. We introduce two graph distillation schemes deployed at both the intra-image level and the inter-image level: instance graph distillation (IGD) and affinity graph distillation (AGD). IGD constructs a graph representing instance features and relations, transferring these two types of knowledge by enforcing instance graph consistency. AGD constructs an affinity graph representing pixel relations to capture structured knowledge of instance boundaries, transferring boundary-related knowledge by ensuring pixel affinity consistency. Experimental results on a number of biomedical datasets validate the effectiveness of our approach, enabling student models with less than $ 1\%$ parameters and less than $10\%$ inference time while achieving promising performance compared to teacher models.
翻訳日:2024-01-15 20:34:26 公開日:2024-01-12
# フォトニック量子情報処理用低損失偏光保持光ルータ

Low-Loss Polarization-Maintaining Optical Router for Photonic Quantum Information Processing ( http://arxiv.org/abs/2401.06369v1 )

ライセンス: Link先を確認
Pengfei Wang, Soyoung Baek, Keiichi Edamatsu, and Fumihiro Kaneda(参考訳) 光量子応用においては、光ルータは低損失、高速、量子状態の保存を伴う単一光子を扱う必要がある。 偏光状態を維持した単一光子ルーティングは、量子ビットとして利用するために特に重要である。 ここでは、単一光子と互換性のある偏光維持型電気光学ルータを示す。 独自の電気光学変調器は、各光学成分が偏光維持動作を実現するマッハ・ツェンダー干渉計の構成に組み込まれている。 我々は,2-4%の損失,20dB切替消滅率,2.9nsの上昇時間,および99%の偏光プロセス忠実度を理想的なアイデンティティ操作に設定したルータの性能を観察した。

In photonic quantum applications, optical routers are required to handle single photons with low loss, high speed, and preservation of their quantum states. Single-photon routing with maintained polarization states is particularly important for utilizing them as qubits. Here, we demonstrate a polarization-maintaining electro-optic router compatible with single photons. Our custom electro-optic modulator is embedded in a configuration of a Mach-Zehnder interferometer, where each optical component achieves polarization-maintaining operation. We observe the performance of the router with 2-4% loss, 20 dB switching extinction ratio, 2.9 ns rise time, and $>$ 99% polarization process fidelity to an ideal identity operation.
翻訳日:2024-01-15 20:34:00 公開日:2024-01-12
# 画像ノイズ低減のための量子近似最適化アルゴリズムによる畳み込みオートエンコーダの高速化

Enhancing a Convolutional Autoencoder with a Quantum Approximate Optimization Algorithm for Image Noise Reduction ( http://arxiv.org/abs/2401.06367v1 )

ライセンス: Link先を確認
Kimleang Kea, Won-Du Chang, Hee Chul Park and Youngsun Han(参考訳) 画像取得時の電気機器の故障やその他の要因による画像ノイズの除去には画像ノイズ除去が不可欠である。 画質と解釈を維持するのに役立ちます。 多くの畳み込みオートエンコーダアルゴリズムは画像の復調に有効であることが証明されている。 その有望な効率により、量子コンピュータの人気が高まった。 本研究では,量子畳み込みオートエンコーダ(qcae)法を提案する。 この手法は、オートエンコーダの代表潜在空間を量子回路で置換することによって開発された。 そこで我々は,量子近似最適化アルゴリズム(QAOA)を組み込んだパラメータシフトルールの利点を利用して,最適化コスト関数を同定し,データからの効果的な学習と実際の量子コンピュータ上の勾配計算を容易にする。 提案手法は, トレーニング損失が低く, 構造類似度指数(SSIM)が高いため, 従来の手法よりも優れていた。 QCAEはまた、MNISTデータセットをSSIM値で最大40%デノベートし、現実世界のアプリケーションで拡張された機能を確認するという点で、従来のものよりも優れていた。 異なる回路構成および層間におけるQAOA性能の評価により,本手法が他の回路設計よりも25%高い性能を示した。

Image denoising is essential for removing noise in images caused by electric device malfunctions or other factors during image acquisition. It helps preserve image quality and interpretation. Many convolutional autoencoder algorithms have proven effective in image denoising. Owing to their promising efficiency, quantum computers have gained popularity. This study introduces a quantum convolutional autoencoder (QCAE) method for improved image denoising. This method was developed by substituting the representative latent space of the autoencoder with a quantum circuit. To enhance efficiency, we leveraged the advantages of the quantum approximate optimization algorithm (QAOA)-incorporated parameter-shift rule to identify an optimized cost function, facilitating effective learning from data and gradient computation on an actual quantum computer. The proposed QCAE method outperformed its classical counterpart as it exhibited lower training loss and a higher structural similarity index (SSIM) value. QCAE also outperformed its classical counterpart in denoising the MNIST dataset by up to 40% in terms of SSIM value, confirming its enhanced capabilities in real-world applications. Evaluation of QAOA performance across different circuit configurations and layer variations showed that our technique outperformed other circuit designs by 25% on average.
翻訳日:2024-01-15 20:33:47 公開日:2024-01-12
# 知識蒸留におけるパラメータ選択の影響に関する実証的研究

An Empirical Investigation into the Effect of Parameter Choices in Knowledge Distillation ( http://arxiv.org/abs/2401.06356v1 )

ライセンス: Link先を確認
Md Arafat Sultan, Aashka Trivedi, Parul Awasthy, Avirup Sil(参考訳) 本稿では,知識蒸留(kd)におけるコンフィグレーションパラメータの選択が性能に与える影響に関する大規模実証研究を行う。 そのようなkdパラメータの例としては、教師と生徒の予測の間の距離の測定があり、平均二乗誤差 (mse) と kl-ダイバージェンス (kl-divergence) を含む一般的な選択がある。 このような選択肢の違いを理解するために散在的な努力がなされているが、kd文学は学生のパフォーマンスに対する一般的な影響に関する体系的な研究をいまだに欠いている。 本論文では,4つのNLPタスクと3つの学生サイズから,13のデータセットにおいて,これらの選択が学生のパフォーマンスにどの程度影響するかを調査する。 最適以下の選択を行うことのコストを定量化し、ボード全体でうまく機能する単一の構成を特定する。

We present a large-scale empirical study of how choices of configuration parameters affect performance in knowledge distillation (KD). An example of such a KD parameter is the measure of distance between the predictions of the teacher and the student, common choices for which include the mean squared error (MSE) and the KL-divergence. Although scattered efforts have been made to understand the differences between such options, the KD literature still lacks a systematic study on their general effect on student performance. We take an empirical approach to this question in this paper, seeking to find out the extent to which such choices influence student performance across 13 datasets from 4 NLP tasks and 3 student sizes. We quantify the cost of making sub-optimal choices and identify a single configuration that performs well across the board.
翻訳日:2024-01-15 20:33:26 公開日:2024-01-12
# MedTransformer:2次元視覚変換器による3次元MRI画像の正確なAD診断

MedTransformer: Accurate AD Diagnosis for 3D MRI Images through 2D Vision Transformers ( http://arxiv.org/abs/2401.06349v1 )

ライセンス: Link先を確認
Yifeng Wang, Ke Chen, Yihan Zhang and Haohan Wang(参考訳) 脳画像中のadの自動診断は、正確かつ効率的な診断および治療計画を支援する臨床的に重要な技術になりつつある。 3次元CNNを用いたMRIでADを自動的に診断する試みがいくつか行われている。 しかし、3Dモデルの複雑さのため、精度と効率の両面ではまだ性能が不十分である。 本研究では, 3次元画像と3次元モデルの複雑さを克服するために, 2次元視覚トランスフォーマーを用いてこの問題に取り組むことを目的とする。 3次元MRI画像中のADを複数の2次元スライスに切り離して診断する2次元トランスフォーマーに基づく医用画像モデルを提案し,そのモデルは,3次元にわたる共有エンコーダ,次元固有のエンコーダ,同一次元からの注目,3次元にわたる注目の4つの主成分から構成される。 異なる次元(軸、コロナ、矢状)と複数のスライスから複数の配列間の注意関係を得るのに使用される。 また,AD画像と正常画像の構造差を増大させるために,エロージョンと拡張に基づく形態改善法を提案する。 この実験では、ADNI、AIBL、MIRAID、OASISの複数のデータセットを用いて、モデルの性能を示す。 提案するMedTransformerはADを診断する強力な能力を示す。 これらの結果は、より小さなモデルを用いて3Dデータから学習する上でのMedTransformerの有効性と、医師がADを簡易に診断するのに役立つ様々な医療タスクを一般化する能力を示す。

Automated diagnosis of AD in brain images is becoming a clinically important technique to support precision and efficient diagnosis and treatment planning. A few efforts have been made to automatically diagnose AD in magnetic resonance imaging (MRI) using three-dimensional CNNs. However, due to the complexity of 3D models, the performance is still unsatisfactory, both in terms of accuracy and efficiency. To overcome the complexities of 3D images and 3D models, in this study, we aim to attack this problem with 2D vision Transformers. We propose a 2D transformer-based medical image model with various transformer attention encoders to diagnose AD in 3D MRI images, by cutting the 3D images into multiple 2D slices.The model consists of four main components: shared encoders across three dimensions, dimension-specific encoders, attention across images from the same dimension, and attention across three dimensions. It is used to obtain attention relationships among multiple sequences from different dimensions (axial, coronal, and sagittal) and multiple slices. We also propose morphology augmentation, an erosion and dilation based method to increase the structural difference between AD and normal images. In this experiment, we use multiple datasets from ADNI, AIBL, MIRAID, OASIS to show the performance of our model. Our proposed MedTransformer demonstrates a strong ability in diagnosing AD. These results demonstrate the effectiveness of MedTransformer in learning from 3D data using a much smaller model and its capability to generalize among different medical tasks, which provides a possibility to help doctors diagnose AD in a simpler way.
翻訳日:2024-01-15 20:33:11 公開日:2024-01-12
# インセンテーションを探る:プロンプト工学による正確なテキスト・画像拡散合成を目指して

Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering ( http://arxiv.org/abs/2401.06345v1 )

ライセンス: Link先を確認
Chang Yu, Junran Peng, Xiangyu Zhu, Zhaoxiang Zhang, Qi Tian, Zhen Lei(参考訳) 拡散モデルによるテキストから画像への合成は、最近、高品質な画像の生成において顕著な性能を示している。 単純なテキストに対してうまく機能するが、複数のオブジェクトや空間的関係を含む複雑なテキストに直面すると、モデルは混乱する。 望まれる画像を得るためには、手動でテキスト記述、すなわちテキストのナレーションやいくつかの単語の追加を調整し、作業に費やしている。 本稿では,素早い学習を通じて拡散モデルの適切なテキスト記述を学ぶための枠組みを提案する。 本手法は,事前学習した拡散モデルから得られた品質指導と意味指導を利用することで,入力テキストと生成画像とのマッチングを改善するプロンプトを効果的に学習することができる。 広範な実験と解析により,提案手法の有効性が検証された。

The text-to-image synthesis by diffusion models has recently shown remarkable performance in generating high-quality images. Although performs well for simple texts, the models may get confused when faced with complex texts that contain multiple objects or spatial relationships. To get the desired images, a feasible way is to manually adjust the textual descriptions, i.e., narrating the texts or adding some words, which is labor-consuming. In this paper, we propose a framework to learn the proper textual descriptions for diffusion models through prompt learning. By utilizing the quality guidance and the semantic guidance derived from the pre-trained diffusion model, our method can effectively learn the prompts to improve the matches between the input text and the generated images. Extensive experiments and analyses have validated the effectiveness of the proposed method.
翻訳日:2024-01-15 20:32:43 公開日:2024-01-12
# Hyper-STTN:ハイパーグラフ推論を用いた人軌道予測のためのソーシャルグループ対応時空間変圧器ネットワーク

Hyper-STTN: Social Group-aware Spatial-Temporal Transformer Network for Human Trajectory Prediction with Hypergraph Reasoning ( http://arxiv.org/abs/2401.06344v1 )

ライセンス: Link先を確認
Weizheng Wang, Le Mao, Baijian Yang, Guohua Chen, and Byung-Cheol Min(参考訳) 混み合った意図や軌道の予測は、サービスロボットや自動運転車を含む現実世界の応用において不可欠だ。 環境力学の理解は、対空間的相互作用と時間的相互作用のモデル化の複雑さだけでなく、群的相互作用の多様な影響によって困難である。 混み合ったシナリオにおける包括的ペアワイドとグループワイドの相互作用をデコードするために,ハイパーグラフベースの空間時間変換ネットワークHyper-STTNを導入する。 Hyper-STTNでは、ランダムウォークロビビリティに基づくハイパーグラフスペクトル畳み込みにより、様々なグループサイズを持つマルチスケールハイパーグラフの集合を用いて、群ワイド相関を構築する。 さらに、空間時間変換器は、歩行者の空間時間次元における一対の相対的相互作用を捉えるように適応される。 これらの不均一な群と対を融合し、マルチモーダル変圧器ネットワークで整列する。 hyper-sttnは他の最先端のベースラインやアブレーションモデルよりも優れている。

Predicting crowded intents and trajectories is crucial in varouls real-world applications, including service robots and autonomous vehicles. Understanding environmental dynamics is challenging, not only due to the complexities of modeling pair-wise spatial and temporal interactions but also the diverse influence of group-wise interactions. To decode the comprehensive pair-wise and group-wise interactions in crowded scenarios, we introduce Hyper-STTN, a Hypergraph-based Spatial-Temporal Transformer Network for crowd trajectory prediction. In Hyper-STTN, crowded group-wise correlations are constructed using a set of multi-scale hypergraphs with varying group sizes, captured through random-walk robability-based hypergraph spectral convolution. Additionally, a spatial-temporal transformer is adapted to capture pedestrians' pair-wise latent interactions in spatial-temporal dimensions. These heterogeneous group-wise and pair-wise are then fused and aligned though a multimodal transformer network. Hyper-STTN outperformes other state-of-the-art baselines and ablation models on 5 real-world pedestrian motion datasets.
翻訳日:2024-01-15 20:32:29 公開日:2024-01-12
# affordancellm: 視覚言語モデルによるアプライアンスの基礎

AffordanceLLM: Grounding Affordance from Vision Language Models ( http://arxiv.org/abs/2401.06341v1 )

ライセンス: Link先を確認
Shengyi Qian, Weifeng Chen, Min Bai, Xiong Zhou, Zhuowen Tu, Li Erran Li(参考訳) 対価接地(英: affordance grounding)とは、自分が相互作用できる対象の領域を見つけること。 成功したソリューションは、その部分による物体の検出、ローカライズ、認識、シーンの地理空間的構成/レイアウト、3d形状と物理学、そして物体と人間の機能と潜在的な相互作用といった様々な側面において、シーンを包括的に理解する必要があるため、根本的な挑戦的なタスクである。 知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。 本稿では、事前訓練された大規模視覚言語モデルから、豊かな世界、抽象的、人間とオブジェクトの相互作用の知識を生かして、現在の余裕基盤の一般化能力の向上を試みる。 提案手法はAGD20Kベンチマークにおいて,提案手法よりも高い性能を示す。 さらに、トレーニング中にオブジェクトとアクションの両方が見えない場合でも、ランダムなインターネット画像からオブジェクトの可視性を高めることを実証する。 プロジェクトサイト: https://jasonqsy.github.io/affordancellm/

Affordance grounding refers to the task of finding the area of an object with which one can interact. It is a fundamental but challenging task, as a successful solution requires the comprehensive understanding of a scene in multiple aspects including detection, localization, and recognition of objects with their parts, of geo-spatial configuration/layout of the scene, of 3D shapes and physics, as well as of the functionality and potential interaction of the objects and humans. Much of the knowledge is hidden and beyond the image content with the supervised labels from a limited training set. In this paper, we make an attempt to improve the generalization capability of the current affordance grounding by taking the advantage of the rich world, abstract, and human-object-interaction knowledge from pretrained large-scale vision language models. Under the AGD20K benchmark, our proposed model demonstrates a significant performance gain over the competing methods for in-the-wild object affordance grounding. We further demonstrate it can ground affordance for objects from random Internet images, even if both objects and actions are unseen during training. Project site: https://jasonqsy.github.io/AffordanceLLM/
翻訳日:2024-01-15 20:32:09 公開日:2024-01-12
# rsvp-bciデコード強化用サブジェクト固有アダプタ付き時間スペクトル核融合トランス

A Temporal-Spectral Fusion Transformer with Subject-specific Adapter for Enhancing RSVP-BCI Decoding ( http://arxiv.org/abs/2401.06340v1 )

ライセンス: Link先を確認
Xujin Li, Wei Wei, Shuang Qiu, and Huiguang He(参考訳) The Rapid Serial Visual Presentation (RSVP)-based Brain-Computer Interface (BCI) は脳波(EEG)信号を用いたターゲット検索のための効率的な技術である。 従来の復号法の性能改善は、BCIシステムの準備時間を増加させる新しい被験者のトレーニングデータに大きく依存している。 いくつかの研究は、既存の被験者のデータを新しい被験者のデータに対するパフォーマンス改善の依存性を減らすために導入するが、広範囲なデータを含む敵対的学習に基づく最適化戦略は、準備過程におけるトレーニング時間を増加させる。 さらに,従来の手法では脳波信号の単一ビュー情報のみに焦点が当てられているが,他のビューからの情報は無視されているため,さらなる性能向上が期待できる。 準備時間を短縮しつつデコード性能を向上させるため,被験者固有アダプタ(TSformer-SA)を用いた時間スペクトル融合トランスを提案する。 具体的には,脳波時間信号とスペクトログラム画像から抽出した2視点特徴の共通表現を抽出し,情報伝達を容易にするクロスビューインタラクションモジュールを提案する。 そして、注意に基づく融合モジュールは、2つのビューの特徴を融合して、分類のための包括的識別特徴を得る。 さらに、同一脳波信号の2つのビュー間の特徴類似性を最大化するために、マルチビュー一貫性損失を提案する。 最後に,既存の対象データから学習したモデルの知識を高速に伝達し,新たな対象データからデコードする対象特化アダプタを提案する。 実験の結果,TSformer-SAは比較法を著しく上回り,新しい被験者の限られたトレーニングデータで優れた性能を発揮することがわかった。 これにより、bciシステムの効率的なデコードと迅速な展開が実用化される。

The Rapid Serial Visual Presentation (RSVP)-based Brain-Computer Interface (BCI) is an efficient technology for target retrieval using electroencephalography (EEG) signals. The performance improvement of traditional decoding methods relies on a substantial amount of training data from new test subjects, which increases preparation time for BCI systems. Several studies introduce data from existing subjects to reduce the dependence of performance improvement on data from new subjects, but their optimization strategy based on adversarial learning with extensive data increases training time during the preparation procedure. Moreover, most previous methods only focus on the single-view information of EEG signals, but ignore the information from other views which may further improve performance. To enhance decoding performance while reducing preparation time, we propose a Temporal-Spectral fusion transformer with Subject-specific Adapter (TSformer-SA). Specifically, a cross-view interaction module is proposed to facilitate information transfer and extract common representations across two-view features extracted from EEG temporal signals and spectrogram images. Then, an attention-based fusion module fuses the features of two views to obtain comprehensive discriminative features for classification. Furthermore, a multi-view consistency loss is proposed to maximize the feature similarity between two views of the same EEG signal. Finally, we propose a subject-specific adapter to rapidly transfer the knowledge of the model trained on data from existing subjects to decode data from new subjects. Experimental results show that TSformer-SA significantly outperforms comparison methods and achieves outstanding performance with limited training data from new subjects. This facilitates efficient decoding and rapid deployment of BCI systems in practical use.
翻訳日:2024-01-15 20:31:48 公開日:2024-01-12
# 適応パラメータ制御を用いたコンパクト微分進化を用いたユーザ介入によるオントロジアライメント法

An ontology alignment method with user intervention using compact differential evolution with adaptive parameter control ( http://arxiv.org/abs/2401.06337v1 )

ライセンス: Link先を確認
Zhaoming Lv(参考訳) ユーザインタラクションは、オントロジーのアライメント品質を改善する最も効果的な方法の1つです。 しかし、このアプローチは、ユーザーがマッチングプロセスに効果的に参加できるという課題に直面している。 この課題を解決するためです 本稿では,適応パラメータ制御(IOACDE)を用いたコンパクト微分進化アルゴリズムを用いた対話型オントロジーアライメント手法を提案する。 本手法では,オントロジーアライメント処理を対話的最適化問題としてモデル化し,ユーザが2つの方法でマッチングを行うことができる。 ioacdeが完全な候補アライメントとして生成したマッピング提案は、最適化プロセス中にユーザによって評価される。 もうひとつは、自動マッチング処理後の単一マッピングを評価し、アライメント結果を改善することである。 提案アルゴリズムの有効性を実証するために,実世界のオントロジーのユーザをシミュレートするために,ニューラル埋め込みモデルとK近辺モデル(KNN)を用いる。 実験の結果,提案手法は非対話性に比べてアライメント品質が向上することがわかった。 OAEIの最先端手法と比較すると,提案アルゴリズムは誤り率に比較して高い性能を示した。

User interaction is one of the most effective ways to improve the ontology alignment quality. However, this approach faces the challenge of how users can participate effectively in the matching process. To solve this challenge. In this paper, an interactive ontology alignment approach using compact differential evolution algorithm with adaptive parameter control (IOACDE) is proposed. In this method, the ontology alignment process is modeled as an interactive optimization problem and users are allowed to intervene in matching in two ways. One is that the mapping suggestions generated by IOACDE as a complete candidate alignment is evaluated by user during optimization process. The other is that the user ameliorates the alignment results by evaluating single mapping after the automatic matching process. To demonstrate the effectiveness of the proposed algorithm, the neural embedding model and K nearest neighbor (KNN) is employed to simulate user for the ontologies of the real world. The experimental results show that the proposed interactive approach can improve the alignment quality compared to the non-interactive. Compared with the state-of-the-art methods from OAEI, the results show that the proposed algorithm has a better performance under the same error rate.
翻訳日:2024-01-15 20:31:20 公開日:2024-01-12
# 変形性関節症重症度評価における視覚言語モデルの適用

Application Of Vision-Language Models For Assessing Osteoarthritis Disease Severity ( http://arxiv.org/abs/2401.06331v1 )

ライセンス: Link先を確認
Banafshe Felfeliyan and Yuyue Zhou and Shrimanti Ghosh and Jessica Kupper and Shaobo Liu and Abhilash Hareendranathan and Jacob L. Jaremko(参考訳) 変形性関節症(oa)は、正確な診断方法を要求する世界的な健康問題である。 現在のラジオグラフィー評価は時間がかかり、変動しやすいため、自動化されたソリューションが必要になります。 OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムであり、患者の人口統計、病歴、医師の報告など、関連するテキスト情報を含まない。 本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理(VLP)モデルを用いてOA重大度を予測する。 提案手法は,CLIP(Contrastive Language Image PreTraining)スタイルのVLPモデルをトレーニングするために,膝のX線画像と表在性OAスコアから生成される多様なレポートテンプレートを利用する。 さらに,肯定的なレポートと否定的なレポートの区別をモデルに強制するために,コントラストキャプションを付加する。 その結果,テキスト画像表現と文脈関係の学習におけるこれらのモデルの有効性を実証し,OAアセスメントの潜在的な進歩を示し,医学的文脈におけるビジョン言語モデルの基礎を確立した。

Osteoarthritis (OA) poses a global health challenge, demanding precise diagnostic methods. Current radiographic assessments are time consuming and prone to variability, prompting the need for automated solutions. The existing deep learning models for OA assessment are unimodal single task systems and they don't incorporate relevant text information such as patient demographics, disease history, or physician reports. This study investigates employing Vision Language Processing (VLP) models to predict OA severity using Xray images and corresponding reports. Our method leverages Xray images of the knee and diverse report templates generated from tabular OA scoring values to train a CLIP (Contrastive Language Image PreTraining) style VLP model. Furthermore, we incorporate additional contrasting captions to enforce the model to discriminate between positive and negative reports. Results demonstrate the efficacy of these models in learning text image representations and their contextual relationships, showcase potential advancement in OA assessment, and establish a foundation for specialized vision language models in medical contexts.
翻訳日:2024-01-15 20:31:02 公開日:2024-01-12
# 半事実から学ぶ:一般関係発見のための偏見と意味認識フレームワーク

Learning from Semi-Factuals: A Debiased and Semantic-Aware Framework for Generalized Relation Discovery ( http://arxiv.org/abs/2401.06327v1 )

ライセンス: Link先を確認
Jiaxin Wang, Lingling Zhang, Jun Liu, Tianlin Guo, Wenjun Wu(参考訳) オープンワールド関係抽出のための新しいタスク「Generalized Relation Discovery (GRD)」を導入する。 GRDは、既存の事前定義された関係にある未ラベルのインスタンスを特定したり、クラスタにインスタンスを割り当てたり、クラスタに特定の意味を提供することによって、新しい関係を発見することを目的としている。 GRDの主な課題は、ラベル付き事前定義された関係によって引き起こされる真剣なモデルバイアスを緩和して効果的な関係表現を学ぶ方法と、ラベルなしインスタンスの分類やクラスタリングにおいて、新しい関係の特定の意味を決定する方法である。 次に,2段階の半実例から学習することで,上記の課題を解決するための新しいフレームワーク,SFGRDを提案する。 第1段階は,3次元縮退型関係表現モジュールによって実装された半実例生成であり,各原文を主観として2つの縮退型ビューを設計し,半実例を生成する。 第2段階は、二重空間のトリビュー協調関係学習モジュールによって実行され、クラスタ意味空間とクラスインデックス空間を設計し、関係意味論と関係ラベルの指標を学習する半実的思考である。 さらに,2つの空間を統合するためのアライメント戦略と選択戦略を考案し,ラベルなしデータの自己教師あり学習ループを3つの視点にまたがる半実的思考によって確立する。 実験結果から, SFGRDの精度は2.36\%$\sim$5.78\%, コサイン類似度は32.19\%$\sim$84.45\%, 相関ラベル指数と関係意味品質は84.45\%であった。 知識を最大限に活用するために,我々は,関係抽出における半実例の有効性を最初に活用する。

We introduce a novel task, called Generalized Relation Discovery (GRD), for open-world relation extraction. GRD aims to identify unlabeled instances in existing pre-defined relations or discover novel relations by assigning instances to clusters as well as providing specific meanings for these clusters. The key challenges of GRD are how to mitigate the serious model biases caused by labeled pre-defined relations to learn effective relational representations and how to determine the specific semantics of novel relations during classifying or clustering unlabeled instances. We then propose a novel framework, SFGRD, for this task to solve the above issues by learning from semi-factuals in two stages. The first stage is semi-factual generation implemented by a tri-view debiased relation representation module, in which we take each original sentence as the main view and design two debiased views to generate semi-factual examples for this sentence. The second stage is semi-factual thinking executed by a dual-space tri-view collaborative relation learning module, where we design a cluster-semantic space and a class-index space to learn relational semantics and relation label indices, respectively. In addition, we devise alignment and selection strategies to integrate two spaces and establish a self-supervised learning loop for unlabeled data by doing semi-factual thinking across three views. Extensive experimental results show that SFGRD surpasses state-of-the-art models in terms of accuracy by 2.36\% $\sim$5.78\% and cosine similarity by 32.19\%$\sim$ 84.45\% for relation label index and relation semantic quality, respectively. To the best of our knowledge, we are the first to exploit the efficacy of semi-factuals in relation extraction.
翻訳日:2024-01-15 20:30:42 公開日:2024-01-12
# 拡散型モンテカルロによるイソペリメトリーのない高速サンプリング

Faster Sampling without Isoperimetry via Diffusion-based Monte Carlo ( http://arxiv.org/abs/2401.06325v1 )

ライセンス: Link先を確認
Xunpeng Huang and Difan Zou and Hanze Dong and Yian Ma and Tong Zhang(参考訳) 一般目標分布$p_*\propto e^{-f_*}$を等尺条件を超えてサンプリングするために、Huang et al. (2023) は逆拡散によるサンプリングを行うことを提案し、拡散に基づくモンテカルロ (DMC) を生み出した。 具体的には、DMCは非パラメトリックスコア推定を用いて、ターゲット分布を標準ガウスに変換する拡散過程の逆SDEに従う。 しかし、元のDMCアルゴリズムは高い勾配の複雑さに遭遇し、その結果、得られたサンプルの誤差耐性$\epsilon$に指数関数的に依存する結果となった。 本稿では,dmcの複雑性が高いのはスコア推定の冗長な設計に起因することを実証し,新しい再帰的スコア推定法に基づいて,rs-dmcと呼ばれるより効率的なアルゴリズムを提案する。 特に、まず拡散過程全体を複数のセグメントに分割し、次に、再帰的に相関した一連の相互平均推定とサンプリングサブプロブレムとしてスコア推定ステップ(任意の時間ステップで)を定式化する。 重要となるのは,セグメント分解を適切に設計すれば,すべてのサンプリングサブプロブレムが強いログコンケーブ分布に取り組むだけでよいことであり,ランジュバンベースのサンプリング器を高速収束率で解くのは非常に効率的であることを示すことである。 その結果、RS-DMCの勾配複雑性は、Huang et al. (2023) の指数勾配複雑性を著しく改善する$\epsilon$に準多項式依存性しか持たないことが証明された。 さらに、一般的な散逸条件下では、我々のアルゴリズムは一般的なランゲヴィンベースのアルゴリズムよりもはるかに高速である。 当社のアルゴリズム設計と理論的枠組みは,サンプリング問題に対処するための新たな方向性を照らしている。

To sample from a general target distribution $p_*\propto e^{-f_*}$ beyond the isoperimetric condition, Huang et al. (2023) proposed to perform sampling through reverse diffusion, giving rise to Diffusion-based Monte Carlo (DMC). Specifically, DMC follows the reverse SDE of a diffusion process that transforms the target distribution to the standard Gaussian, utilizing a non-parametric score estimation. However, the original DMC algorithm encountered high gradient complexity, resulting in an exponential dependency on the error tolerance $\epsilon$ of the obtained samples. In this paper, we demonstrate that the high complexity of DMC originates from its redundant design of score estimation, and proposed a more efficient algorithm, called RS-DMC, based on a novel recursive score estimation method. In particular, we first divide the entire diffusion process into multiple segments and then formulate the score estimation step (at any time step) as a series of interconnected mean estimation and sampling subproblems accordingly, which are correlated in a recursive manner. Importantly, we show that with a proper design of the segment decomposition, all sampling subproblems will only need to tackle a strongly log-concave distribution, which can be very efficient to solve using the Langevin-based samplers with a provably rapid convergence rate. As a result, we prove that the gradient complexity of RS-DMC only has a quasi-polynomial dependency on $\epsilon$, which significantly improves exponential gradient complexity in Huang et al. (2023). Furthermore, under commonly used dissipative conditions, our algorithm is provably much faster than the popular Langevin-based algorithms. Our algorithm design and theoretical framework illuminate a novel direction for addressing sampling problems, which could be of broader applicability in the community.
翻訳日:2024-01-15 20:30:09 公開日:2024-01-12
# がん診断と予後のための知識インフォームド機械学習 : レビュー

Knowledge-Informed Machine Learning for Cancer Diagnosis and Prognosis: A review ( http://arxiv.org/abs/2401.06406v1 )

ライセンス: Link先を確認
Lingchao Mao, Hairong Wang, Leland S. Hu, Nhan L Tran, Peter D Canoll, Kristin R Swanson, Jing Li(参考訳) がんは、医学分野で治療すべき最も困難な病気の1つです。 機械学習は、がんの診断と予後のための豊富なマルチオミクスプロファイルと医療画像の詳細な分析を可能にした。 これらの進歩にもかかわらず、機械学習モデルは、制限されたラベル付きサンプルサイズ、高次元データ型の複雑な相互作用、患者と腫瘍の間で観察される固有の異質性、そして既存の生体医学的知識との解釈可能性と一貫性に関する懸念から生じる課題に直面している。 これらの課題を克服するための1つのアプローチは、バイオメディカル知識をデータ駆動モデルに統合することであり、これはモデル結果の正確性、堅牢性、解釈可能性を改善する可能性を証明している。 本稿では, 医学的知識とデータの融合を応用した最先端の機械学習研究, 知識に富んだ機械学習, がん診断と予後について概説する。 臨床, 画像, 分子, 治療データを含む4つの主要なデータ型に固有の特性を強調し, これらの文脈に関するモデリング上の考察を強調した。 具体的な例として,多様な形態の知識表現と,機械学習パイプラインへの知識統合の現在の戦略について概説する。 本稿では,知識インフォームド機械学習によるがん研究の進展に向けた今後の方向性について論じる。

Cancer remains one of the most challenging diseases to treat in the medical field. Machine learning has enabled in-depth analysis of rich multi-omics profiles and medical imaging for cancer diagnosis and prognosis. Despite these advancements, machine learning models face challenges stemming from limited labeled sample sizes, the intricate interplay of high-dimensionality data types, the inherent heterogeneity observed among patients and within tumors, and concerns about interpretability and consistency with existing biomedical knowledge. One approach to surmount these challenges is to integrate biomedical knowledge into data-driven models, which has proven potential to improve the accuracy, robustness, and interpretability of model results. Here, we review the state-of-the-art machine learning studies that adopted the fusion of biomedical knowledge and data, termed knowledge-informed machine learning, for cancer diagnosis and prognosis. Emphasizing the properties inherent in four primary data types including clinical, imaging, molecular, and treatment data, we highlight modeling considerations relevant to these contexts. We provide an overview of diverse forms of knowledge representation and current strategies of knowledge integration into machine learning pipelines with concrete examples. We conclude the review article by discussing future directions to advance cancer research through knowledge-informed machine learning.
翻訳日:2024-01-15 20:23:19 公開日:2024-01-12
# DevEval: 実践的なソフトウェアプロジェクトにおけるコード生成の評価

DevEval: Evaluating Code Generation in Practical Software Projects ( http://arxiv.org/abs/2401.06401v1 )

ライセンス: Link先を確認
Jia Li, Ge Li, Yunfei Zhao, Yongmin Li, Zhi Jin, Hao Zhu, Huanyu Liu, Kaibo Liu, Lecheng Wang, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yihong Dong, Yuqi Zhu, Bin Gu, Mengfei Yang(参考訳) コード生成におけるLarge Language Models(LLM)の評価はオープンな問題である。 多くのベンチマークが提案されているが、非現実的なプログラムディストリビューション、依存関係の不足、小規模プロジェクトコンテキストなど、実用的なソフトウェアプロジェクトとは矛盾している。 したがって、実用プロジェクトでのLLMの能力はまだ不明である。 本稿では,実用的なプロジェクトにおける開発者の経験と整合した新しいベンチマークdevevalを提案する。 devevalは厳密なパイプラインを通して収集され、119の実践プロジェクトから2,690のサンプルと10のドメインを含んでいる。 以前のベンチマークと比較すると、DevEvalは実際のプログラム分布、十分な依存関係、十分な規模のプロジェクトコンテキストなど、複数の次元の実践的なプロジェクトと一致している。 DevEval上の5つの人気のあるLCM(gpt-4、gpt-3.5-turbo、CodeLLaMa、StarCoder)を評価し、コード生成における実際の能力を明らかにする。 例えば、gpt-3.5-turboの最も高いpass@1は実験で42である。 また,実践プロジェクトにおけるコード生成の課題と今後の方向性についても論じる。 私たちはdevevalをオープンソースとして公開し、実用的なプロジェクトでのコード生成を促進することを望んでいます。

How to evaluate Large Language Models (LLMs) in code generation is an open question. Many benchmarks have been proposed but are inconsistent with practical software projects, e.g., unreal program distributions, insufficient dependencies, and small-scale project contexts. Thus, the capabilities of LLMs in practical projects are still unclear. In this paper, we propose a new benchmark named DevEval, aligned with Developers' experiences in practical projects. DevEval is collected through a rigorous pipeline, containing 2,690 samples from 119 practical projects and covering 10 domains. Compared to previous benchmarks, DevEval aligns to practical projects in multiple dimensions, e.g., real program distributions, sufficient dependencies, and enough-scale project contexts. We assess five popular LLMs on DevEval (e.g., gpt-4, gpt-3.5-turbo, CodeLLaMa, and StarCoder) and reveal their actual abilities in code generation. For instance, the highest Pass@1 of gpt-3.5-turbo only is 42 in our experiments. We also discuss the challenges and future directions of code generation in practical projects. We open-source DevEval and hope it can facilitate the development of code generation in practical projects.
翻訳日:2024-01-15 20:22:58 公開日:2024-01-12
# 大規模言語モデルを用いたQAの連鎖による合成から人文への視覚的質問回答の一般化

Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model ( http://arxiv.org/abs/2401.06400v1 )

ライセンス: Link先を確認
Taehee Kim, Yeongjae Cho, Heejun Shin, Yohan Jo, Dongmyung Shin(参考訳) 視覚的質問応答(visual question answering, vqa)は、イメージが与えられるタスクであり、一連の質問が画像に関するものである。 効率的なVQAアルゴリズムを構築するには、非常に高価な大量のQAデータが必要である。 テンプレートに基づく合成QAペアの生成は、データを得るための実用的な方法である。 しかしながら、これらのデータに基づいてトレーニングされたVQAモデルは、複雑な人間による質問ではうまく機能しない。 この問題に対処するために,人間による質問に対するQAの連鎖という新しい手法を提案する(CoQAH)。 CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。 3次元レンダー画像と胸部x線画像の2種類のvqaデータセットにおけるcoqahの有効性を検証した結果,両データで最先端の精度が得られた。 特に、CoQAHは一般的な視覚言語モデル、VQAモデル、そして微調整なしで医療基礎モデルより優れていた。

Visual question answering (VQA) is a task where an image is given, and a series of questions are asked about the image. To build an efficient VQA algorithm, a large amount of QA data is required which is very expensive. Generating synthetic QA pairs based on templates is a practical way to obtain data. However, VQA models trained on those data do not perform well on complex, human-written questions. To address this issue, we propose a new method called {\it chain of QA for human-written questions} (CoQAH). CoQAH utilizes a sequence of QA interactions between a large language model and a VQA model trained on synthetic data to reason and derive logical answers for human-written questions. We tested the effectiveness of CoQAH on two types of human-written VQA datasets for 3D-rendered and chest X-ray images and found that it achieved state-of-the-art accuracy in both types of data. Notably, CoQAH outperformed general vision-language models, VQA models, and medical foundation models with no finetuning.
翻訳日:2024-01-15 20:22:37 公開日:2024-01-12
# indic mtタスクのためのポピュラーデータセットからの誤翻訳除去手法

An approach for mistranslation removal from popular dataset for Indic MT Task ( http://arxiv.org/abs/2401.06398v1 )

ライセンス: Link先を確認
Sudhansu Bala Das, Leo Raphael Rodrigues, Tapas Kumar Mishra, Bidyut Kr. Patra(参考訳) コンピュータシステムを利用してある言語から別の言語へのコンテンツの変換を機械翻訳(mt)と呼ぶ。 ソース言語の文脈的および語彙的解釈を保持する効果的な翻訳を保証するために、様々な技術が生まれている。 エンドツーエンドニューラルネットワーク変換(NMT)は一般的な技術であり、現在では現実世界のMTシステムで広く使われている。 MTシステムには、大量の並列データセット(ある言語で別の言語で翻訳する)が要求される。 これらのデータセットは、MTシステムが訓練期間中に両方の言語の言語構造とパターンを学ぶために不可欠である。 そのようなデータセットの1つがsamanantarであり、インド言語(ils)の公開アクセス可能な最大の並列データセットである。 コーパスは様々な情報源から収集されているため、多くの誤訳が含まれている。 したがって、このデータセットを用いて構築されたMTシステムは、通常の潜在能力を発揮できない。 本稿では,学習コーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。 実験にはヒンディー語 (hin) とオディア語 (odi) の2つのindic language (ils) が選ばれた。 これら2つのILに対してベースラインNMTシステムを構築し,異なるデータセットサイズの影響についても検討した。 実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。 その結果,データセットから誤った翻訳を除去することで,翻訳品質が向上することが確認された。 また、ils- english と english-ils のシステムが同じコーパスを使って訓練されているにもかかわらず、ils-english はすべての評価指標においてより効果的に機能する。

The conversion of content from one language to another utilizing a computer system is known as Machine Translation (MT). Various techniques have come up to ensure effective translations that retain the contextual and lexical interpretation of the source language. End-to-end Neural Machine Translation (NMT) is a popular technique and it is now widely used in real-world MT systems. Massive amounts of parallel datasets (sentences in one language alongside translations in another) are required for MT systems. These datasets are crucial for an MT system to learn linguistic structures and patterns of both languages during the training phase. One such dataset is Samanantar, the largest publicly accessible parallel dataset for Indian languages (ILs). Since the corpus has been gathered from various sources, it contains many incorrect translations. Hence, the MT systems built using this dataset cannot perform to their usual potential. In this paper, we propose an algorithm to remove mistranslations from the training corpus and evaluate its performance and efficiency. Two Indic languages (ILs), namely, Hindi (HIN) and Odia (ODI) are chosen for the experiment. A baseline NMT system is built for these two ILs, and the effect of different dataset sizes is also investigated. The quality of the translations in the experiment is evaluated using standard metrics such as BLEU, METEOR, and RIBES. From the results, it is observed that removing the incorrect translation from the dataset makes the translation quality better. It is also noticed that, despite the fact that the ILs-English and English-ILs systems are trained using the same corpus, ILs-English works more effectively across all the evaluation metrics.
翻訳日:2024-01-15 20:22:17 公開日:2024-01-12
# umg-clip: オープンワールド理解のための統一マルチグラナリティビジョンジェネラリスト

UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding ( http://arxiv.org/abs/2401.06397v1 )

ライセンス: Link先を確認
Bowen Shi, Peisen Zhao, Zichen Wang, Yuhang Zhang, Yaoming Wang, Jin Li, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian, Xiaopeng Zhang(参考訳) Contrastive Language-image pre-training (CLIP)で表現される視覚言語基盤モデルは、視覚とテキストの両方のタスクを共同で理解するために注目を集めている。 しかしながら、既存のアプローチでは、グローバルイメージ表現とテキスト記述をマッチさせるトレーニングモデルに重点を置いているため、ローカル領域と対応するテキストトークンの間の重要なアライメントを見渡すことができる。 本稿では,CLIPを多粒度アライメントで拡張する。 特に、画像レベル、領域レベル、ピクセルレベルのキャプション/タグを含む様々な粒度の擬似アノテーションを含む新しいデータセットを意図的に構築する。 そこで我々はUMG-CLIPと呼ばれる統一された多粒度学習フレームワークを開発し,様々な詳細レベルにわたる多彩な知覚能力を持つモデルを同時に強化する。 パラメータ効率のよいチューニングを備えたUMG-CLIPは、現在広く使われているCLIPモデルを超え、オープンワールド認識、検索、セマンティックセグメンテーション、およびパンプトセグメンテーションタスクを含む様々な画像理解ベンチマークで最先端のパフォーマンスを達成する。 UMG-CLIPが、ビジョン言語基盤モデルを進化させる貴重な選択肢になり得ることを願っている。

Vision-language foundation models, represented by Contrastive language-image pre-training (CLIP), have gained increasing attention for jointly understanding both vision and textual tasks. However, existing approaches primarily focus on training models to match global image representations with textual descriptions, thereby overlooking the critical alignment between local regions and corresponding text tokens. This paper extends CLIP with multi-granularity alignment. Notably, we deliberately construct a new dataset comprising pseudo annotations at various levels of granularities, encompassing image-level, region-level, and pixel-level captions/tags. Accordingly, we develop a unified multi-granularity learning framework, named UMG-CLIP, that simultaneously empowers the model with versatile perception abilities across different levels of detail. Equipped with parameter efficient tuning, UMG-CLIP surpasses current widely used CLIP models and achieves state-of-the-art performance on diverse image understanding benchmarks, including open-world recognition, retrieval, semantic segmentation, and panoptic segmentation tasks. We hope UMG-CLIP can serve as a valuable option for advancing vision-language foundation models.
翻訳日:2024-01-15 20:21:53 公開日:2024-01-12
# ModaVerse: LLMで効率よくモダリティを変える

ModaVerse: Efficiently Transforming Modalities with LLMs ( http://arxiv.org/abs/2401.06395v1 )

ライセンス: Link先を確認
Xinyu Wang and Bohan Zhuang and Qi Wu(参考訳) 人間は多様なモダリティを理解し、情報をシームレスに伝達する能力を持っている。 本研究では,画像やビデオ,音声など,さまざまなモダリティにまたがるコンテンツの理解と変換が可能なマルチモーダル大言語モデル(MLLM)であるModaVerseを紹介する。 MLLMフレームワークは、テキストと非テキストの特徴の潜在空間のアライメントに大きく依存している。 テキストデータでトレーニングされた言語モデルと、マルチモーダルデータでトレーニングされたエンコーダとデコーダを同期させるこのアライメントプロセスでは、複数のステージに複数のプロジェクション層を広範囲にトレーニングする必要がある。 llm-as-agent法に触発されて,自然言語レベルで直接動作する新しい入出力(i/o)アライメント機構を提案する。 LLMの出力と生成モデルの入力を一致させ、潜在特徴アライメントに関連する複雑さを回避し、既存のMLLMの複数のトレーニング段階を1つの効率的なプロセスに単純化する。 この概念の進歩は、データと計算コストの両方が大幅に削減される。 いくつかのベンチマークで実験を行うことで,データ使用とトレーニング期間の大幅な効率化を実現しつつ,最先端技術と同等のパフォーマンスを達成できることを実証する。

Humans possess the capability to comprehend diverse modalities and seamlessly transfer information between them. In this work, we introduce ModaVerse, a Multi-modal Large Language Model (MLLM) capable of comprehending and transforming content across various modalities including images, videos, and audio. Predominant MLLM frameworks have largely relied on the alignment of latent spaces of textual and non-textual features. This alignment process, which synchronizes a language model trained on textual data with encoders and decoders trained on multi-modal data, often necessitates extensive training of several projection layers in multiple stages. Inspired by LLM-as-agent methodologies, we propose a novel Input/Output (I/O) alignment mechanism that operates directly at the level of natural language. It aligns the LLM's output with the input of generative models, avoiding the complexities associated with latent feature alignments, and simplifying the multiple training stages of existing MLLMs into a single, efficient process. This conceptual advancement leads to significant reductions in both data and computational costs. By conducting experiments on several benchmarks, we demonstrate that our approach attains comparable performance with the state of the art while achieving considerable efficiencies in data usage and training duration.
翻訳日:2024-01-15 20:21:31 公開日:2024-01-12
# Aspect Sentiment Quad Predictionのための適応データ拡張

Adaptive Data Augmentation for Aspect Sentiment Quad Prediction ( http://arxiv.org/abs/2401.06394v1 )

ライセンス: Link先を確認
Wenyuan Zhang, Xinghua Zhang, Shiyao Cui, Kun Huang, Xuebin Wang and Tingwen Liu(参考訳) Aspect sentiment quad Prediction (ASQP) は、アスペクトベースの感情分析の分野で重要なタスクである、ある文のクワッド感情要素を予測することを目的としている。 しかし、ASQPタスクではデータ不均衡の問題に十分な注意が払われていない。 本稿では,4つのパターンの不均衡とアスペクトカテゴリーの不均衡の2つに分け,不均衡問題に取り組むための適応型データ拡張(ada)フレームワークを提案する。 具体的には、条件関数付きデータ拡張プロセスは、テールクワッドパターンとアスペクトカテゴリを適応的に強化し、ASQPにおけるデータの不均衡を軽減する。 先行研究に続いて,カテゴリ先行知識と構文誘導復号目標を導入することで,完全クワッド抽出のための生成フレームワークをさらに探究する。 実験結果から,ASQPタスクにおける不均衡のためのデータ拡張は性能を向上し,データオーバーサンプリングよりもADA法が優れていることが示された。

Aspect sentiment quad prediction (ASQP) aims to predict the quad sentiment elements for a given sentence, which is a critical task in the field of aspect-based sentiment analysis. However, the data imbalance issue has not received sufficient attention in ASQP task. In this paper, we divide the issue into two-folds, quad-pattern imbalance and aspect-category imbalance, and propose an Adaptive Data Augmentation (ADA) framework to tackle the imbalance issue. Specifically, a data augmentation process with a condition function adaptively enhances the tail quad patterns and aspect categories, alleviating the data imbalance in ASQP. Following previous studies, we also further explore the generative framework for extracting complete quads by introducing the category prior knowledge and syntax-guided decoding target. Experimental results demonstrate that data augmentation for imbalance in ASQP task can improve the performance, and the proposed ADA method is superior to naive data oversampling.
翻訳日:2024-01-15 20:21:10 公開日:2024-01-12
# ダブルリドバーグ電磁誘導透明性による光子偏光量子ビットのスイッチングと位相シフト

Switch and Phase Shift of Photon Polarization Qubits via Double Rydberg Electromagnetically Induced Transparency ( http://arxiv.org/abs/2401.06393v1 )

ライセンス: Link先を確認
Ou Yao and Huang Guoxiang(参考訳) ライドバーグ原子ガス中の2つの偏光成分による単一光子パルスの伝播を二重電磁誘導透過によって制御する手法を提案し,解析する。 ゲートフォトンをrydberg状態に保つことにより、強いrydberg相互作用に基づいて、光子偏光量子ビットの深い波長可変ポテンシャルが得られることを示す。 また, この方式は, 光子偏光量子ビットの散逸状態における全光スイッチを実現し, 分散状態における大きな位相シフトを生じさせることを示す。 さらに,このような手法を弱磁場の検出に応用できることを実証する。 ここで報告された結果は、Rydberg原子気体の量子光学的性質を理解するのに有用であるだけでなく、量子情報処理のための新しいデバイスの設計にも有益である。

We propose and analyze a scheme for manipulating the propagation of single photon pulses with two polarization components in a Rydberg atomic gas via double electromagnetically induced transparency. We show that by storing a gate photon in a Rydberg state a deep and tunable potential for a photon polarization qubit can be achieved based on strong Rydberg interaction. We also show that the scheme can be used to realize all-optical switch in dissipation regime and generate a large phase shift in dispersion regime for the photon polarization qubit. Moreover, we demonstrate that such a scheme can be utilized to detect weak magnetic fields. The results reported here are not only beneficial for understanding the quantum optical property of Rydberg atomic gases, but also promising for designing novel devices for quantum information processing.
翻訳日:2024-01-15 20:20:53 公開日:2024-01-12
# 量子電磁力学に基づく結合クラスター理論:クローズドシェルの物理的側面とマルチリファレンスオープンシェル法

Coupled cluster theory based on quantum electrodynamics: Physical aspects of closed shell and multi-reference open shell methods ( http://arxiv.org/abs/2401.06392v1 )

ライセンス: Link先を確認
Sambhu N. Datta(参考訳) 電気力学結合クラスタ(CC)法は,クローズドシェルとオープンシェルの場合,それぞれDFとMCDFの画像を用いて,クーロンゲージで記述された標準QEDハミルトニアンを用いて定式化されている。 一般的な手法では、放射性クラスター、純粋な物質クラスターとそのペアの修正、および熱平衡における光子の多数の状態分布を用いる。 クローズドシェル治療は、通常のCCアプローチに依存している。 開殻の場合、ccによるqedと電子相関は同じ基線で処理される。 放射状態上の平均化を行い、放射クラスターからラム、ブライトおよび超微粒子相互作用を生成する。 熱分布のため、開いた殻の静的な相関を変更できる残留な横相互作用を残している。 次に, 従来型の単参照CCと多参照CCの指数的物質クラスターを用いて動的相関効果を導出する。 物質クラスターが負エネルギーレベルまでデ励起を含むように拡張されると、クーロン相互作用のペア部分から真空分極効果が発生する。 動的相関エネルギーは相対論的補正と、ラム、ブライト、超微細構造、対エネルギーといったqed寄与を含む。 この作品には3つの新点があります i) 放射性クラスターに基づく単一の手順からQED相互作用(ラム,ブライト,ハイパーファイン)を得る。 (ii)対エネルギーは、拡張された物質クラスター形式から決定され、そして (iii) 放射効果と対項から余分な相関エネルギーを得ることができ、一方、高z原子中の高次対エネルギーの選択肢は開いている。 開殻形式論は、放射が等方性でない特定のケースで追加の静的相関を見つける際にさらに1つの新奇性を持つ。

Electrodynamical coupled cluster (CC) methodologies have been formulated employing standard QED Hamiltonian that is written in Coulomb gauge while using the DF and the MCDF pictures of the matter field for closed-shell and open-shell cases respectively. The general methodology employs a radiative cluster, pure matter clusters and their pair modifications, and a number state distribution of photons in thermal equilibrium. The closed-shell treatment relies on the customary CC approach. For open shells, QED and electron correlation through CC are treated on the same footing. An averaging over the radiation state is done to generate Lamb, Breit and hyperfine interactions from the radiative cluster. Because of the thermal distribution, it leaves a residual transverse interaction that may modify the static correlation in open shells. Dynamical correlation effects are determined next by using the exponential matter cluster in traditional ways of single- and multi-reference CC. When the matter cluster is extended to include de-excitations to negative-energy levels, vacuum polarization effects are generated from the pair part of Coulomb interaction. The dynamical correlation energy includes relativistic corrections as well as QED contributions, namely, Lamb, Breit, hyperfine and pair energy. This work has three novelties: (i) QED interactions (Lamb, Breit and hyperfine) are obtained from a single procedure based on the radiative cluster; (ii) pair energy is determined from an extended matter cluster formalism; and (iii) additional correlation energy can be had from radiative effects and pair terms, while the option for higher order pair energy in high-Z atoms is kept open. The open-shell formalism has one more novelty in finding an additional static correlation in certain cases when the radiation is not isotropic.
翻訳日:2024-01-15 20:20:40 公開日:2024-01-12
# リポジトリレベルコード生成における自動補完ツールの使い方

Teaching Code LLMs to Use Autocompletion Tools in Repository-Level Code Generation ( http://arxiv.org/abs/2401.06391v1 )

ライセンス: Link先を確認
Chong Wang and Jian Zhang and Yebo Feng and Tianlin Li and Weisong Sun and Yang Liu and Xin Peng(参考訳) 最近のコード大言語モデル(LLM)は、スタンドアロン関数の生成において有望なパフォーマンスを示しているが、リポジトリレベルの依存性(例えば、ユーザ定義属性)に対する認識の欠如により、リポジトリレベルのコード生成の制限に直面している。 本稿では、自動補完ツールをコードLLM生成プロセスに統合し、これらの依存関係に対処するToolGenを紹介する。 ToolGenは、Data AugmentationとModel Fine-tuning(Offline)とTool-Integated Code Generation(Online)の2つの主要なフェーズで構成されている。 オフラインフェーズでは、ToolGenは特定のコード内の機能を特別なマークトークンで拡張し、自動補完ツールを起動する位置を示す。 これらの拡張関数は対応するドクストリングとともに、選択されたコードLLMを微調整するために使用される。 オンラインフェーズでは、ToolGenは微調整LDMを使用してトークンを段階的に予測することで関数を反復的に生成する。 マークトークンに遭遇するたびに、ToolGenは自動補完ツールを呼び出して、コード補完を提案し、最も適切なものを選択する。 リポジトリレベルのコード生成におけるToolGenの有効性を評価するために、包括的な実験を行う。 この評価を容易にするために、680の実際のコードリポジトリからなるベンチマークを作成し、依存性のカバレッジと成功率という2つの新しいリポジトリレベルのメトリクスを導入します。 その結果、ツールゲンは依存関係のカバレッジを15.2%から45.8%、成功率を10.9%から42.2%と3つの異なるコードllmで大幅に改善した。 さらに,汎用性評価により,様々なモデルアーキテクチャやスケールを含む多様なコードllmに適用した場合のツールゲンの性能の一貫性を確認した。

Recent code large language models (LLMs) have shown promising performance in generating standalone functions but face limitations in repository-level code generation due to their lack of awareness of repository-level dependencies (e.g., user-defined attributes), resulting in dependency errors such as undefined-variable and no-member errors. In this work, we introduce ToolGen, an approach that integrates autocompletion tools into the code LLM generation process to address these dependencies. ToolGen comprises two main phases: Data Augmentation and Model Fine-tuning (Offline), and Tool-integrated Code Generation (Online). During the offline phase, ToolGen augments functions within a given code corpus with a special mark token, indicating positions to trigger autocompletion tools. These augmented functions, along with their corresponding docstrings, are then used to fine-tune a selected code LLM. In the online phase, ToolGen iteratively generates functions by predicting tokens step-by-step using the fine-tuned LLM. Whenever a mark token is encountered, ToolGen invokes the autocompletion tool to suggest code completions and selects the most appropriate one. We conduct comprehensive experiments to evaluate ToolGen's effectiveness in repository-level code generation. To facilitate this evaluation, we create a benchmark comprising 680 real-world code repositories and introduce two new repository-level metrics: Dependency Coverage and Success Rate. The results demonstrate that ToolGen significantly improves dependency coverage by 15.2% to 45.8% and success rates by 10.9% to 42.2% across three distinct code LLMs, while maintaining competitive performance in widely-recognized similarity metrics. Furthermore, our generalizability evaluation confirms ToolGen's consistent performance when applied to diverse code LLMs, including various model architectures and scales.
翻訳日:2024-01-15 20:20:12 公開日:2024-01-12
# SD-MVS:球状リファインメントとEM最適化を用いた分割駆動変形多視点ステレオ

SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical Refinement and EM optimization ( http://arxiv.org/abs/2401.06385v1 )

ライセンス: Link先を確認
Zhenlong Yuan, Jiakai Cao, Zhaoxin Li, Hao Jiang, Zhaoqi Wang(参考訳) 本稿では,テクスチャレス領域の3次元再構成における課題を効果的に解決できるセグメンテーション駆動変形多視点ステレオ(sd-mvs)を提案する。 シーン内のセグメンテーションインスタンスを識別するためにSegment Anything Model(SAM)を最初に採用し、マッチングコストと伝搬の両面でピクセルワイドなパッチ変形にこれらの制約を活用する。 同時に、球面座標と正規点の勾配勾配と深さの画素方向探索間隔を組み合わせ、再構成された3次元モデルの完全性を大幅に向上する独自の洗練戦略を提案する。 さらに,アグリゲーションマッチングコストとハイパーパラメータを交互に最適化するために,期待最大化(EM)アルゴリズムを採用し,経験的チューニングに過度に依存するパラメータの問題を効果的に軽減する。 eth3d高分解能マルチビューステレオベンチマークおよびタンク・テンプルデータセットの評価により,本手法は少ない時間消費で最先端の成果が得られることを示した。

In this paper, we introduce Segmentation-Driven Deformation Multi-View Stereo (SD-MVS), a method that can effectively tackle challenges in 3D reconstruction of textureless areas. We are the first to adopt the Segment Anything Model (SAM) to distinguish semantic instances in scenes and further leverage these constraints for pixelwise patch deformation on both matching cost and propagation. Concurrently, we propose a unique refinement strategy that combines spherical coordinates and gradient descent on normals and pixelwise search interval on depths, significantly improving the completeness of reconstructed 3D model. Furthermore, we adopt the Expectation-Maximization (EM) algorithm to alternately optimize the aggregate matching cost and hyperparameters, effectively mitigating the problem of parameters being excessively dependent on empirical tuning. Evaluations on the ETH3D high-resolution multi-view stereo benchmark and the Tanks and Temples dataset demonstrate that our method can achieve state-of-the-art results with less time consumption.
翻訳日:2024-01-15 20:19:37 公開日:2024-01-12
# 何て言えばいいの? --AIと自然言語インタフェースとの相互作用

What should I say? -- Interacting with AI and Natural Language Interfaces ( http://arxiv.org/abs/2401.06382v1 )

ライセンス: Link先を確認
Mark Adkins(参考訳) 人工知能(AI)技術がますます普及するにつれて、人間がAIとどのように相互作用するかを探求することがますます重要になる。 human-ai interaction (hai) サブフィールドは human-computer interaction (hci) フィールドから出現し、この概念を検討することを目的としている。 多くの相互作用パターンは、必要な認知の変化を十分に理解せずに実装され、また、自然界においてより人間らしくなることを目的とした、これらの代替インターフェースを使用することによる認知科学的な意味を持つ。 以前の研究では、マインド表現の理論は成功と努力の無いコミュニケーションに不可欠であると示唆されていたが、AIと対話する際にマインド表現の理論が確立されるという点に関しては、ほとんど理解されていない。

As Artificial Intelligence (AI) technology becomes more and more prevalent, it becomes increasingly important to explore how we as humans interact with AI. The Human-AI Interaction (HAI) sub-field has emerged from the Human-Computer Interaction (HCI) field and aims to examine this very notion. Many interaction patterns have been implemented without fully understanding the changes in required cognition as well as the cognitive science implications of using these alternative interfaces that aim to be more human-like in nature. Prior research suggests that theory of mind representations are crucial to successful and effortless communication, however very little is understood when it comes to how theory of mind representations are established when interacting with AI.
翻訳日:2024-01-15 20:19:17 公開日:2024-01-12
# オープン量子システムダイナミクスの時系列予測

Time series prediction of open quantum system dynamics ( http://arxiv.org/abs/2401.06380v1 )

ライセンス: Link先を確認
Zhao-Wei Wang and Zhao-Ming Wang(参考訳) 時系列予測 (TSP) は, 生命科学や金融など様々な分野において, 歴史データに基づく今後のトレンド予測に広く利用されている。 しかし、これまでTSPに関する量子物理学の研究はほとんど行われていない。 本稿では,オープン量子系の動的進化予測におけるTSPの適用の可能性について検討する。 我々は、深層学習技術を用いて、TSPモデルを訓練し、その性能を正確な解と比較して評価する。 予測ステップ長とシーケンス長の比率を用いて,短期および長期予測を定義する。 本研究は,短期・長期の予測において,時系列の固有特性を効果的に把握する能力を有することを示す。 異なる結合強度と初期状態の正確な予測値を得る。 さらに,本手法を用いて他モデルの学習を行い,システムの定常状態の予測に有効であることを示す。 これらの結果は、TSPがオープン量子系の力学を予測するための貴重なツールであることを示唆している。

Time series prediction (TSP) has been widely used in various fields, such as life sciences and finance, to forecast future trends based on historical data. However, to date, there has been relatively little research conducted on the TSP for quantum physics. In this paper, we explore the potential application of TSP in forecasting the dynamical evolution of open quantum systems. We employ deep learning techniques to train a TSP model and evaluate its performance by comparison with exact solution. We use the ratio of the prediction step length and the sequence length to define short and long-term forecasting. Our results show that the trained model has the ability to effectively capture the inherent characteristics of time series for both short-term and long-term forecasting. Accurate predictions for different coupling intensities and initial states are obtained. Furthermore, we use our method to train another model and find that it can successfully predict the steady state of the system. These findings suggests that TSP is a valuable tool for the prediction of the dynamics in open quantum systems.
翻訳日:2024-01-15 20:19:02 公開日:2024-01-12
# vehicle: 神経シンボリックプログラムの検証における埋め込みギャップの橋渡し

Vehicle: Bridging the Embedding Gap in the Verification of Neuro-Symbolic Programs ( http://arxiv.org/abs/2401.06379v1 )

ライセンス: Link先を確認
Matthew L. Daggitt, Wen Kokke, Robert Atkey, Natalia Slusarz, Luca Arnaboldi, Ekaterina Komendantskaya(参考訳) 機械学習コンポーネントと伝統的なシンボリックコードの両方を含むニューロシンボリックプログラムがますます普及している。 しかし、機械学習コンポーネントの振る舞いに正確性が依存するこれらのプログラムを検証する一般的な方法がまだ存在しないと信じている。 本稿では,<embedding-space' プロパティに意味論的に有意な ``problem-space''' プロパティをリンクするテクニックが欠如していることが主要な問題の一つであり,モジュラー方式でニューラルシンボリックプログラムのエンドツーエンド検証を容易にするために設計された Vehicle について述べる。 vehicleは、ニューラルネットワークの``problem-space'特性を特定し、```embedding-space'との関係を宣言する便利な言語と、選択された機械学習トレーニング環境、ニューラルネットワーク検証者、対話的定理証明者の言語でこれらの特性の解釈を自動化する強力なコンパイラを提供する。 我々は、ニューラルネットワークコントローラを備えた単純な自律走行車の安全性を正式に検証するために、Vineの実用性を実証する。

Neuro-symbolic programs -- programs containing both machine learning components and traditional symbolic code -- are becoming increasingly widespread. However, we believe that there is still a lack of a general methodology for verifying these programs whose correctness depends on the behaviour of the machine learning components. In this paper, we identify the ``embedding gap'' -- the lack of techniques for linking semantically-meaningful ``problem-space'' properties to equivalent ``embedding-space'' properties -- as one of the key issues, and describe Vehicle, a tool designed to facilitate the end-to-end verification of neural-symbolic programs in a modular fashion. Vehicle provides a convenient language for specifying ``problem-space'' properties of neural networks and declaring their relationship to the ``embedding-space", and a powerful compiler that automates interpretation of these properties in the language of a chosen machine-learning training environment, neural network verifier, and interactive theorem prover. We demonstrate Vehicle's utility by using it to formally verify the safety of a simple autonomous car equipped with a neural network controller.
翻訳日:2024-01-15 20:18:46 公開日:2024-01-12
# 等化剤としての認知bpm:認知障害のある従業員に対するアクセスと効率の改善

Cognitive BPM as an Equalizer: Improving Access and Efficiency for Employees with (and without) Cognitive Disabilities ( http://arxiv.org/abs/2401.06375v1 )

ライセンス: Link先を確認
Gordon Banks, Gates Bierhuizen, Katherine McCrum, Ellen Wengert(参考訳) ビジネスプロセスを自動化、拡張、改善するために設計されたaiモデルであるprocessgptについて、人間の労働力の認知的制限、特に認知障害を持つ個人におけるビジネスプロセス管理の課題について検討する。 ProcessGPTは、人間の認知的限界を考慮した効率的なビジネスプロセスを設計するための青写真を提供する。 認知障害者のレンズを通してこれを観察することにより、プロセスGPTは認知障害者および非認知障害者のプロセスユーザビリティを向上させることを示す。 また、ProcessGPTライクな機能を実装する組織が生産性、モラル、包摂性の向上を実現することも示しています。

We examine ProcessGPT, an AI model designed to automate, augment, and improve business processes, to study the challenges of managing business processes within the cognitive limitations of the human workforce, particularly individuals with cognitive disabilities. ProcessGPT provides a blueprint for designing efficient business processes that take into account human cognitive limitations. By viewing this through the lens of cognitive disabilities, we show that ProcessGPT improves process usability for individuals with and without cognitive disabilities. We also demonstrate that organizations implementing ProcessGPT-like capabilities will realize increased productivity, morale, and inclusion.
翻訳日:2024-01-15 20:18:15 公開日:2024-01-12
# RotationDrag: 回転拡散機能付きポイントベース画像編集

RotationDrag: Point-based Image Editing with Rotated Diffusion Features ( http://arxiv.org/abs/2401.06442v1 )

ライセンス: Link先を確認
Minxing Luo, Wentao Cheng, Jian Yang(参考訳) 画像の忠実性を保ちながら、画像内容の正確かつユーザフレンドリな操作は、画像編集の分野において常に不可欠である。 生成モデルのパワーにより、最近のポイントベースの画像編集手法により、ユーザーは複数の制御ポイントをクリックすることで、画像コンテンツを高一般化性でインタラクティブに変更することができる。 しかし、上記の編集プロセスは、通常、特徴が初期から目標への移動監督ステップで一定である、という仮定に基づいている。 本研究では,拡散モデルの特徴空間を包括的に調査し,平面内回転下で特徴が急激に変化することを示す。 そこで本研究では,ユーザが平面上で画像コンテンツを回転させる場合に,ポイントベースの画像編集性能を大幅に向上させるRotationDragという手法を提案する。 本手法は回転画像の特徴マップを利用してより高精度にハンドリングポイントを追跡し,高精度な最適化と高忠実度を実現する。 さらに,実画像と生成画像の両方の面内回転シナリオにおける点ベース画像編集法の性能評価を行う最初のベンチマークであるローテーションベンチと呼ばれる面内回転焦点ベンチマークを構築した。 本研究は,DragDiffusionベースラインと既存の拡散ベース手法を比較し,ユーザが実現しようとする面内回転を実現する上で,優れた能力を示すものである。 コードと実験結果はプロジェクトページhttps://github.com/Tony-Lowe/RotationDragを参照してください。

A precise and user-friendly manipulation of image content while preserving image fidelity has always been crucial to the field of image editing. Thanks to the power of generative models, recent point-based image editing methods allow users to interactively change the image content with high generalizability by clicking several control points. But the above mentioned editing process is usually based on the assumption that features stay constant in the motion supervision step from initial to target points. In this work, we conduct a comprehensive investigation in the feature space of diffusion models, and find that features change acutely under in-plane rotation. Based on this, we propose a novel approach named RotationDrag, which significantly improves point-based image editing performance when users intend to in-plane rotate the image content. Our method tracks handle points more precisely by utilizing the feature map of the rotated images, thus ensuring precise optimization and high image fidelity. Furthermore, we build a in-plane rotation focused benchmark called RotateBench, the first benchmark to evaluate the performance of point-based image editing method under in-plane rotation scenario on both real images and generated images. A thorough user study demonstrates the superior capability in accomplishing in-plane rotation that users intend to achieve, comparing the DragDiffusion baseline and other existing diffusion-based methods. See the project page https://github.com/Tony-Lowe/RotationDrag for code and experiment results.
翻訳日:2024-01-15 20:11:50 公開日:2024-01-12
# 画像適応型学習モジュールによる低照度画像認識性能の向上

Improving Low-Light Image Recognition Performance Based on Image-adaptive Learnable Module ( http://arxiv.org/abs/2401.06438v1 )

ライセンス: Link先を確認
Seitaro Ono, Yuka Ogino, Takahiro Toizumi, Atsushi Ito, Masato Tsukada(参考訳) 近年,深層ニューラルネットワークに基づく画像認識技術が大きな進歩を遂げている。 しかし、低照度条件下での認識性能の向上は依然として大きな課題である。 本研究では,低照度条件下での認識モデルの性能向上について述べる。 本稿では,入力画像に対して適切な画像処理を施す画像適応学習モジュールと,モジュール内で使用される最適パラメータを予測するハイパーパラメータ予測器を提案する。 提案手法は,低照度条件で設計された既存の認識モデルを再訓練することなく,フロントエンドフィルタとして容易に統合することにより,低照度条件下での認識性能の向上を可能にする。 提案手法は,低照度環境における画像認識性能の向上に寄与することを示す。

In recent years, significant progress has been made in image recognition technology based on deep neural networks. However, improving recognition performance under low-light conditions remains a significant challenge. This study addresses the enhancement of recognition model performance in low-light conditions. We propose an image-adaptive learnable module which apply appropriate image processing on input images and a hyperparameter predictor to forecast optimal parameters used in the module. Our proposed approach allows for the enhancement of recognition performance under low-light conditions by easily integrating as a front-end filter without the need to retrain existing recognition models designed for low-light conditions. Through experiments, our proposed method demonstrates its contribution to enhancing image recognition performance under low-light conditions.
翻訳日:2024-01-15 20:11:08 公開日:2024-01-12
# 3D-PreMise: 大言語モデルはシャープ特徴とパラメトリック制御で3D形状を生成することができるか?

3D-PreMise: Can Large Language Models Generate 3D Shapes with Sharp Features and Parametric Control? ( http://arxiv.org/abs/2401.06437v1 )

ライセンス: Link先を確認
Zeqing Yuan, Haoxuan Lan, Qiang Zou, Junbo Zhao(参考訳) 近年の暗黙の3d表現と生成モデルの発展は、3dオブジェクト生成の分野を著しく推進している。 しかし、工業設計や製造などの分野において重要なパラメトリック制御の下で、シャープな特徴を持つ測地を正確にモデル化することは依然として重要な課題である。 このギャップを埋めるために,大規模言語モデル(llms)を用いてテキスト駆動3d形状を生成し,プログラム合成により3dソフトウェアを操作するフレームワークを提案する。 本研究では,産業形状の3次元パラメトリックモデリングに特化したデータセットである3d-premisesを提案する。 本研究は,効果的な生成戦略を明らかにし,視覚インタフェースを用いたllmの自己修正能力に目を向ける。 本研究は,産業用3次元パラメトリックモデリングにおけるllmの可能性と限界を強調する。

Recent advancements in implicit 3D representations and generative models have markedly propelled the field of 3D object generation forward. However, it remains a significant challenge to accurately model geometries with defined sharp features under parametric controls, which is crucial in fields like industrial design and manufacturing. To bridge this gap, we introduce a framework that employs Large Language Models (LLMs) to generate text-driven 3D shapes, manipulating 3D software via program synthesis. We present 3D-PreMise, a dataset specifically tailored for 3D parametric modeling of industrial shapes, designed to explore state-of-the-art LLMs within our proposed pipeline. Our work reveals effective generation strategies and delves into the self-correction capabilities of LLMs using a visual interface. Our work highlights both the potential and limitations of LLMs in 3D parametric modeling for industrial applications.
翻訳日:2024-01-15 20:10:18 公開日:2024-01-12
# ソーシャル型アイテムレコメンデーションにおけるTransformer Layerによるグラフ畳み込みネットワークの改善

Improving Graph Convolutional Networks with Transformer Layer in social-based items recommendation ( http://arxiv.org/abs/2401.06436v1 )

ライセンス: Link先を確認
Thi Linh Hoang, Tuan Dung Pham, Viet Cuong Ta(参考訳) 本研究では,ソーシャルネットワークにおける評価予測のためのgcn改善手法を提案する。 我々のモデルは、いくつかのトランスアーキテクチャで標準モデルから拡張されています。 論文の主な焦点は、ネットワークにノードを埋め込むためのエンコーダアーキテクチャである。 グラフベースの畳み込み層からの埋め込み層を使用することで、アテンションメカニズムは機能空間を再構成し、下流タスクをより効率的に埋め込むことができる。 実験の結果,提案アーキテクチャは従来のリンク予測タスクにおいてGCNよりも優れた性能を示すことがわかった。

In this work, we have proposed an approach for improving the GCN for predicting ratings in social networks. Our model is expanded from the standard model with several layers of transformer architecture. The main focus of the paper is on the encoder architecture for node embedding in the network. Using the embedding layer from the graph-based convolution layer, the attention mechanism could rearrange the feature space to get a more efficient embedding for the downstream task. The experiments showed that our proposed architecture achieves better performance than GCN on the traditional link prediction task.
翻訳日:2024-01-15 20:09:57 公開日:2024-01-12
# オンデバイス基礎モデルのフェデレーション微調整のための不均一低ランク近似

Heterogeneous Low-Rank Approximation for Federated Fine-tuning of On-Device Foundation Models ( http://arxiv.org/abs/2401.06432v1 )

ライセンス: Link先を確認
Yae Jee Cho and Luyang Liu and Zheng Xu and Aldi Fahrezi and Gauri Joshi(参考訳) 大きな基礎モデル(FM)は、微調整で特定のドメインやタスクに驚くほど順応する。 フェデレーション学習(fl)はさらに、デバイス上のローカルデータを使用したプライベートfm微調整を可能にする。 しかし、標準のFMの大きさは資源制約と異種デバイスに課題をもたらす。 これを解決するために、パラメータサイズを小さくしたFMをオンデバイスFM(ODFM)と呼ぶ。 odfmsはオンデバイス推論を可能にするが、計算の制約は効率的なフェデレーションの微調整を妨げる。 システムとデータの不均一性に対処するヘテロジニアス低ランク近似(LoRA)を用いたODFMのパラメータ効率なフェデレーション微調整法を提案する。 等質なLoRAランクは、過適合と緩やかな収束のトレードオフに直面しており、クライアント間で異質なランクを採用し、同質なHetLoRAの欠点を排除するHetLoRAを提案する。 サーバ上での階数自己計算と疎度重み付けを併用することにより,同種LoRAに比べて収束速度と最終性能が向上する高位と低位のLoRAの利点を組み合わせる。 さらに、完全な微調整に比べて計算効率が向上し、データのプライバシーを保ちながら異種デバイスに適している。

Large foundation models (FMs) adapt surprisingly well to specific domains or tasks with fine-tuning. Federated learning (FL) further enables private FM fine-tuning using the local data on devices. However, the standard FMs' large size poses challenges for resource-constrained and heterogeneous devices. To address this, we consider FMs with reduced parameter sizes, referred to as on-device FMs (ODFMs). While ODFMs allow on-device inference, computational constraints still hinder efficient federated fine-tuning. We propose a parameter-efficient federated fine-tuning method for ODFMs using heterogeneous low-rank approximations (LoRAs) that addresses system and data heterogeneity. We show that homogeneous LoRA ranks face a trade-off between overfitting and slow convergence, and propose HetLoRA, which employs heterogeneous ranks across clients and eliminates the shortcomings of homogeneous HetLoRA. By applying rank self-pruning locally and sparsity-weighted aggregation at the server, we combine the advantages of high and low-rank LoRAs, which achieves improved convergence speed and final performance compared to homogeneous LoRA. Furthermore, it offers enhanced computation efficiency compared to full fine-tuning, making it suitable for heterogeneous devices while preserving data privacy.
翻訳日:2024-01-15 20:09:42 公開日:2024-01-12
# 自動化から拡張へ:ランドスケープのエッセイを高める大規模言語モデル

From Automation to Augmentation: Large Language Models Elevating Essay Scoring Landscape ( http://arxiv.org/abs/2401.06431v1 )

ライセンス: Link先を確認
Changrong Xiao, Wenxing Ma, Sean Xin Xu, Kunpeng Zhang, Yufang Wang, Qi Fu(参考訳) 直接的でパーソナライズされたフィードバックを受け取ることは、第二言語学習者にとって不可欠であり、自動エッセイスコアリング(aes)システムは、人間のインストラクターが利用できない場合に必須のリソースである。 本研究では,大規模言語モデル(LLM),特に GPT-4 および 微調整 GPT-3.5 の有効性について検討した。 パブリックデータセットとプライベートデータセットの両方で実施した包括的な実験は、LLMベースのAESシステムの顕著な利点を強調します。 精度、一貫性、一般化性、解釈性は優れており、gpt-3.5は従来のグレーディングモデルを上回る。 また,初心者と専門家の両方を対象に,llmによる評価実験を行った。 1つの重要な発見は、LLMがグラデーションプロセスを自動化するだけでなく、人間のグレーダーのパフォーマンスを向上させることである。 LLMが生成したフィードバックを提供する初心者は、専門家と同等の精度を達成し、専門家はより効率的になり、評価においてより一貫性を維持する。 これらの結果は、教育技術におけるLLMの可能性を強調し、人間とAIの効果的なコラボレーションの道を開いた。

Receiving immediate and personalized feedback is crucial for second-language learners, and Automated Essay Scoring (AES) systems are a vital resource when human instructors are unavailable. This study investigates the effectiveness of Large Language Models (LLMs), specifically GPT-4 and fine-tuned GPT-3.5, as tools for AES. Our comprehensive set of experiments, conducted on both public and private datasets, highlights the remarkable advantages of LLM-based AES systems. They include superior accuracy, consistency, generalizability, and interpretability, with fine-tuned GPT-3.5 surpassing traditional grading models. Additionally, we undertake LLM-assisted human evaluation experiments involving both novice and expert graders. One pivotal discovery is that LLMs not only automate the grading process but also enhance the performance of human graders. Novice graders when provided with feedback generated by LLMs, achieve a level of accuracy on par with experts, while experts become more efficient and maintain greater consistency in their assessments. These results underscore the potential of LLMs in educational technology, paving the way for effective collaboration between humans and AI, ultimately leading to transformative learning experiences through AI-generated feedback.
翻訳日:2024-01-15 20:09:20 公開日:2024-01-12
# 人物再同定のための相互蒸留学習

Mutual Distillation Learning For Person Re-Identification ( http://arxiv.org/abs/2401.06430v1 )

ライセンス: Link先を確認
Huiyuan Fu, Kuilong Cui, Chuanming Wang, Mengshi Qi, Huadong Ma(参考訳) ディープラーニング技術の急速な進歩により、人の再識別(ReID)は目覚ましいパフォーマンス改善を目の当たりにした。 しかしながら、従来の研究の大半は、一様分割、ハードアテンション機構、セマンティックマスクのような単一の視点からのみ特徴を抽出することで、この問題を解決することに重点を置いてきた。 これらのアプローチは特定の状況において有効性を示しているが、様々な状況では不十分である。 本稿では,一つの統一モデルにおいて,複数の視点から課題を解決し,相互蒸留の力を利用して特徴表現を総合的に強化する,個人再同定のための相互蒸留学習(mdpr)を提案する。 具体的には、一様水平分割戦略による局所特徴抽出のためのハードコンテンツブランチと、前景と背景を動的に区別するソフトコンテンツブランチと、慎重に設計された注意機構による多彩度特徴抽出を容易にするソフトコンテンツブランチである。 これら2つのブランチ間の知識交換を容易にするため、相互蒸留と融合プロセスを採用し、各ブランチの出力能力を高める。 提案手法の有効性と優位性を検証するために,広く利用されているReIDデータセットを用いて広範囲な実験を行った。 特に,DukeMTMC-reIDデータセット上でのmAP/Rank-1の8.7\%/94.4\%が,現在の最先端結果を上回っている。 ソースコードはhttps://github.com/kuilongcui/mdprで入手できます。

With the rapid advancements in deep learning technologies, person re-identification (ReID) has witnessed remarkable performance improvements. However, the majority of prior works have traditionally focused on solving the problem via extracting features solely from a single perspective, such as uniform partitioning, hard attention mechanisms, or semantic masks. While these approaches have demonstrated efficacy within specific contexts, they fall short in diverse situations. In this paper, we propose a novel approach, Mutual Distillation Learning For Person Re-identification (termed as MDPR), which addresses the challenging problem from multiple perspectives within a single unified model, leveraging the power of mutual distillation to enhance the feature representations collectively. Specifically, our approach encompasses two branches: a hard content branch to extract local features via a uniform horizontal partitioning strategy and a Soft Content Branch to dynamically distinguish between foreground and background and facilitate the extraction of multi-granularity features via a carefully designed attention mechanism. To facilitate knowledge exchange between these two branches, a mutual distillation and fusion process is employed, promoting the capability of the outputs of each branch. Extensive experiments are conducted on widely used person ReID datasets to validate the effectiveness and superiority of our approach. Notably, our method achieves an impressive $88.7\%/94.4\%$ in mAP/Rank-1 on the DukeMTMC-reID dataset, surpassing the current state-of-the-art results. Our source code is available at https://github.com/KuilongCui/MDPR.
翻訳日:2024-01-15 20:08:57 公開日:2024-01-12
# updp:cnnと視覚トランスフォーマーのための統合プログレッシブ深さプルーナ

UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer ( http://arxiv.org/abs/2401.06426v1 )

ライセンス: Link先を確認
Ji Liu, Dehua Tang, Yuanxian Huang, Li Zhang, Xiaocheng Zeng, Dong Li, Mingjie Lu, Jinzhang Peng, Yu Wang, Fan Jiang, Lu Tian, Ashish Sirasao(参考訳) ネットワークチャネルの削減による従来のチャネルワイドプルーニング手法は、深い畳み込み層を持つ効率的なCNNモデルと、一般的な逆残差ブロックのような特定の効率的なモジュールを効果的に創り出すのに苦労する。 ネットワーク深度を低減した事前の深度切削法は, 正規化層が存在するため, 効率的なモデルの切削には適していない。 さらに、アクティベーション層を直接除去することでサブネットを微調整すると、元のモデルの重みが損なわれ、プルーニングされたモデルの性能が損なわれる。 この問題に対処するために,効率的なモデルのための新しい深さプルーニング手法を提案する。 提案手法は,サブネットのための新しいブロックプルーニング戦略とプログレッシブトレーニング手法である。 さらに、我々はプルーニング法を視覚変換器モデルに拡張する。 実験の結果,提案手法は各種プルーニング構成において,既存の深さプルーニング法を一貫して上回っていることがわかった。 提案手法をConvNeXtV1に適用した3種類のPruned ConvNeXtV1モデルを得た。 また,ビジョントランスモデル上での最先端のプルーニング性能を実現する。

Traditional channel-wise pruning methods by reducing network channels struggle to effectively prune efficient CNN models with depth-wise convolutional layers and certain efficient modules, such as popular inverted residual blocks. Prior depth pruning methods by reducing network depths are not suitable for pruning some efficient models due to the existence of some normalization layers. Moreover, finetuning subnet by directly removing activation layers would corrupt the original model weights, hindering the pruned model from achieving high performance. To address these issues, we propose a novel depth pruning method for efficient models. Our approach proposes a novel block pruning strategy and progressive training method for the subnet. Additionally, we extend our pruning method to vision transformer models. Experimental results demonstrate that our method consistently outperforms existing depth pruning methods across various pruning configurations. We obtained three pruned ConvNeXtV1 models with our method applying on ConvNeXtV1, which surpass most SOTA efficient models with comparable inference performance. Our method also achieves state-of-the-art pruning performance on the vision transformer model.
翻訳日:2024-01-15 20:08:31 公開日:2024-01-12
# 量子回路の最適化ノイズ抑制

Optimized Noise Suppression for Quantum Circuits ( http://arxiv.org/abs/2401.06423v1 )

ライセンス: Link先を確認
Friedrich Wagner, Daniel J. Egger, Frauke Liers(参考訳) 量子計算は幅広い計算タスクを前進させることを約束する。 しかし、現在の量子ハードウェアはノイズに苦しんでおり、誤り訂正には小さすぎる。 したがって、ノイズ量子コンピュータの正確な利用はノイズ特性、緩和、抑制に強く依存する。 重要なことに、これらの手法は古典的および量子的オーバーヘッドの観点からも効率的でなければならない。 ここでは、クロストークノイズを効率よく特徴づけ、緩和する。これは、例えば、クロス共鳴ベースの超伝導量子プロセッサにおける重大エラー源である。 クロストークのキャラクタリゼーションのために,簡易な測定実験を開発した。 さらに,最適実験スケジューリングの問題を解析し,共通ハードウェアアーキテクチャを用いて解く。 評価後、ノイズ対応量子ビットルーティングアルゴリズムにより量子回路のノイズを軽減する。 我々の整数プログラミングアルゴリズムは、スワップ挿入による最適化量子ビットルーティングの以前の作業を拡張している。 測定されたクロストーク誤差に加えて、目的関数に容易にアクセス可能なノイズデータも組み込む。 さらに, 関連するポリトープのクラスについて凸包結果を証明することにより, 基礎となる整数線形モデルを強化する。 提案手法は、完全27量子ビットチップのクロストークノイズを特徴付けることで評価し、得られたデータを利用して量子近似最適化アルゴリズムの近似比を、既存のノイズ対応ルーティング手法と比較して最大10%改善する。 我々の研究は、抽象量子回路をハードウェアネイティブにマッピングする際のノイズデータを含む利点を明確に示している。

Quantum computation promises to advance a wide range of computational tasks. However, current quantum hardware suffers from noise and is too small for error correction. Thus, accurately utilizing noisy quantum computers strongly relies on noise characterization, mitigation, and suppression. Crucially, these methods must also be efficient in terms of their classical and quantum overhead. Here, we efficiently characterize and mitigate crosstalk noise, which is a severe error source in, e.g., cross-resonance based superconducting quantum processors. For crosstalk characterization, we develop a simplified measurement experiment. Furthermore, we analyze the problem of optimal experiment scheduling and solve it for common hardware architectures. After characterization, we mitigate noise in quantum circuits by a noise-aware qubit routing algorithm. Our integer programming algorithm extends previous work on optimized qubit routing by swap insertion. We incorporate the measured crosstalk errors in addition to other, more easily accessible noise data in the objective function. Furthermore, we strengthen the underlying integer linear model by proving a convex hull result about an associated class of polytopes, which has applications beyond this work. We evaluate the proposed method by characterizing crosstalk noise for a complete 27 qubit chip and leverage the resulting data to improve the approximation ratio of the Quantum Approximate Optimization Algorithm by up to 10 % compared to other established noise-aware routing methods. Our work clearly demonstrates the gains of including noise data when mapping abstract quantum circuits to hardware native ones.
翻訳日:2024-01-15 20:08:10 公開日:2024-01-12
# 共形予測を用いた地球観測における確率的機械学習の不確かさ定量化

Uncertainty quantification for probabilistic machine learning in earth observation using conformal prediction ( http://arxiv.org/abs/2401.06421v1 )

ライセンス: Link先を確認
Geethen Singh, Glenn Moncrieff, Zander Venter, Kerry Cawse-Nicholson, Jasper Slingsby and Tamara B Robinson(参考訳) 人工知能(AI)システムを使用して下流のアプリケーション、特に意思決定に使用される場合には、信頼性の低い予測が発生する。 コンフォーマル予測は、その分布に関係なく、どんなデータセットにも適用可能な不確実性定量化のためのモデルに依存しないフレームワークを提供する。 他の画素レベルの不確実性定量化手法とは対照的に、コンフォメーション予測は基礎となるモデルやトレーニングデータセットへのアクセスを必要とせず、計算効率を維持しながら統計的に有効な情報予測領域を同時に提供する。 点予測とともに不確実性を報告する必要性が高まっているため、地球観測(EO)分野における整合予測の約束に注意を向ける。 これを実現するために、EOドメインにおける不確実性定量化の現状を評価し、レビューされたGoogle Earth Engine(GEE)データセットの20%に、信頼性の低い手法が組み込まれていることを発見した。 次に、既存のGEE予測モデリングワークフローにシームレスに統合されたモジュールを紹介し、Dynamic WorldとGlobal Ecosystem Dynamics Investigation (GEDI)データセットを含むグローバルスケールにまたがるデータセットに対するこれらのツールの適用例を示す。 これらのケーススタディは回帰と分類のタスクを含み、従来のワークフローとディープラーニングベースのワークフローの両方を特徴としている。 続いて、EOにおける共形予測の利用から生じる機会について論じる。 本発表では, コンフォメーション予測器の使い勝手の向上により, 厳密な不確実性定量化がEOで広く採用され, 運用監視や意思決定などの利用の信頼性の向上が期待できる。

Unreliable predictions can occur when using artificial intelligence (AI) systems with negative consequences for downstream applications, particularly when employed for decision-making. Conformal prediction provides a model-agnostic framework for uncertainty quantification that can be applied to any dataset, irrespective of its distribution, post hoc. In contrast to other pixel-level uncertainty quantification methods, conformal prediction operates without requiring access to the underlying model and training dataset, concurrently offering statistically valid and informative prediction regions, all while maintaining computational efficiency. In response to the increased need to report uncertainty alongside point predictions, we bring attention to the promise of conformal prediction within the domain of Earth Observation (EO) applications. To accomplish this, we assess the current state of uncertainty quantification in the EO domain and found that only 20% of the reviewed Google Earth Engine (GEE) datasets incorporated a degree of uncertainty information, with unreliable methods prevalent. Next, we introduce modules that seamlessly integrate into existing GEE predictive modelling workflows and demonstrate the application of these tools for datasets spanning local to global scales, including the Dynamic World and Global Ecosystem Dynamics Investigation (GEDI) datasets. These case studies encompass regression and classification tasks, featuring both traditional and deep learning-based workflows. Subsequently, we discuss the opportunities arising from the use of conformal prediction in EO. We anticipate that the increased availability of easy-to-use implementations of conformal predictors, such as those provided here, will drive wider adoption of rigorous uncertainty quantification in EO, thereby enhancing the reliability of uses such as operational monitoring and decision making.
翻訳日:2024-01-15 20:07:50 公開日:2024-01-12
# フォトニックトポロジカル絶縁体における多重光パラメトリックプロセスの操作

Manipulating multiple optical parametric processes in photonic topological insulators ( http://arxiv.org/abs/2401.06418v1 )

ライセンス: Link先を確認
Zhen Jiang, Bo Ji, Yanghe Chen, Chun Jiang and Guangqiang He(参考訳) トポロジカル量子光学(トポロジカル量子光学)は、統合量子デバイスに大幅な拡張をもたらす可能性を秘めている。 本稿では,光パラメトリック増幅,周波数分割,周波数絡み合った2光子生成など,様々な機能を持つ集積位相量子デバイスを提案する。 量子バレーホール効果をエミュレートしたサンドイッチかごめとハニカムトポロジカルデザインにおいて,異なる周波数範囲に対応する2つの異なるエッジモードを示す。 これら2つのトポロジカルエッジモードは、4波混合、特にバンド間およびバンド内ケースによる2種類の光学パラメトリックプロセスを可能にする。 フォトニック・バレーホール・インスレータをエミュレートする装置は、2つの横モードの周波数分割を可能にし、さらに2つの量子汎関数の光学パラメトリック増幅と周波数絡み合い二光子状態生成の分離を可能にする。 さらに重要なことは、パラメトリックな過程は生まれながらのトポロジカルな保護であり、鋭い屈曲や障害に対する堅牢性を示している。 提案手法は, 量子情報処理に応用できる堅牢で多機能なトポロジカル量子デバイスの実現可能性を大きく広げるものである。

Topological quantum optics, an emerging area of study, holds the potential to bring about substantial enhancements for integrated quantum devices. Here we propose integrated topological quantum devices performing various functions including optical parametric amplification, frequency division, and frequency entangled biphoton generation. We show two distinct edge modes corresponding to different frequency ranges in both sandwich kagome and honeycomb topological designs that emulate the quantum valley Hall effect. These two topological edge modes enable two types of optical parametric processes through four-wave mixing, specifically inter-band and intra-band cases. The devices emulating photonic valley-Hall insulators allow the frequency division of two transverse modes, and furthermore, enable the separation of two quantum functionalities - optical parametric amplification and frequency entangled biphoton state generation. More importantly, the parametric processes are inborn topological protected, showing robustness against sharp bends and disorders. Our proposal significantly widens the possibilities for robust, multifunctional topological quantum devices on-chip, which may find applications in quantum information processing.
翻訳日:2024-01-15 20:07:20 公開日:2024-01-12
# ミッション: 不可能な言語モデル

Mission: Impossible Language Models ( http://arxiv.org/abs/2401.06416v1 )

ライセンス: Link先を確認
Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts(参考訳) チョムスキーらは、大きな言語モデル(LLM)は人間が学べることが可能で不可能な言語を等しく学習できると主張している。 しかし、そのような主張を支持する実験的な証拠はほとんど発表されていない。 本稿では,英語データを不自然な語順と文法規則で体系的に変更することにより,複雑度が異なる合成不可能言語群を開発する。 英語の単語のランダムなシャッフルや不可逆的なシャッフルなど、本質的に不可能な言語であり、他方では直感的に不可能ではないが、言語学、特に単語の位置の数え方に基づく規則でよく考えられている言語である。 本稿では,GPT-2小モデルの学習能力を評価するための多種多様な評価について報告し,各言語の学習過程を比較するために,これらの評価を訓練期間中,様々な段階で実施する。 我々の中核的な発見は、GPT-2は英語を対照として、不可能な言語を学ぶのに苦労しているということです。 さらに重要なことは、我々のアプローチが、様々なLLMアーキテクチャを様々な不可能な言語でテストし、これらの認知的および類型的調査のツールとしてどのようにLLMを利用できるかを学ぶために、生産的な調査ラインを開くことを願っている。

Chomsky and others have very directly claimed that large language models (LLMs) are equally capable of learning languages that are possible and impossible for humans to learn. However, there is very little published experimental evidence to support such a claim. Here, we develop a set of synthetic impossible languages of differing complexity, each designed by systematically altering English data with unnatural word orders and grammar rules. These languages lie on an impossibility continuum: at one end are languages that are inherently impossible, such as random and irreversible shuffles of English words, and on the other, languages that may not be intuitively impossible but are often considered so in linguistics, particularly those with rules based on counting word positions. We report on a wide range of evaluations to assess the capacity of GPT-2 small models to learn these uncontroversially impossible languages, and crucially, we perform these assessments at various stages throughout training to compare the learning process for each language. Our core finding is that GPT-2 struggles to learn impossible languages when compared to English as a control, challenging the core claim. More importantly, we hope our approach opens up a productive line of inquiry in which different LLM architectures are tested on a variety of impossible languages in an effort to learn more about how LLMs can be used as tools for these cognitive and typological investigations.
翻訳日:2024-01-15 20:06:52 公開日:2024-01-12
# 単一画像からの対話型マルチパーソンの3次元再構築

3D Reconstruction of Interacting Multi-Person in Clothing from a Single Image ( http://arxiv.org/abs/2401.06415v1 )

ライセンス: Link先を確認
Junuk Cha, Hansol Lee, Jaewon Kim, Nhat Nguyen Bao Truong, Jae Shin Yoon, Seungryul Baek(参考訳) 本稿では,1つの画像からグローバルなコヒーレントなシーン空間上の衣服の多人数インタラクションの形状を再構築する新しいパイプラインを提案する。 主な課題は、人体の一部が、他者や自己の隠蔽によって単一の視点から見えず、幾何学や身体的不確実性(例えば、浸透)が欠如していることである。 この課題を克服するために、2つの人間の前兆を利用して完全な3次元形状と表面接触を行った。 事前に、エンコーダは、欠落した身体部分を持つ人のイメージを潜伏ベクトルに回帰させることを学び、デコーダはこれらのベクトルをデコードして関連する幾何学の3D特徴を生成し、暗黙のネットワークはこれらの特徴を表面正規写像と組み合わせて、完全で詳細な3D人間を再構築する。 本研究では,3次元の人物間の接触の確率分布を出力する画像空間接触検出器を開発した。 我々はこれらの先行技術を用いて身体のポーズを世界規模で洗練し、シーン空間における多人数の対話を無浸透で正確に再現する。 その結果,本手法は既存の手法と比較して完全かつグローバルに一貫性があり,物理的に有理であることがわかった。

This paper introduces a novel pipeline to reconstruct the geometry of interacting multi-person in clothing on a globally coherent scene space from a single image. The main challenge arises from the occlusion: a part of a human body is not visible from a single view due to the occlusion by others or the self, which introduces missing geometry and physical implausibility (e.g., penetration). We overcome this challenge by utilizing two human priors for complete 3D geometry and surface contacts. For the geometry prior, an encoder learns to regress the image of a person with missing body parts to the latent vectors; a decoder decodes these vectors to produce 3D features of the associated geometry; and an implicit network combines these features with a surface normal map to reconstruct a complete and detailed 3D humans. For the contact prior, we develop an image-space contact detector that outputs a probability distribution of surface contacts between people in 3D. We use these priors to globally refine the body poses, enabling the penetration-free and accurate reconstruction of interacting multi-person in clothing on the scene space. The results demonstrate that our method is complete, globally coherent, and physically plausible compared to existing methods.
翻訳日:2024-01-15 20:06:27 公開日:2024-01-12
# AboutMe: ウェブページにおける自己記述を用いた英語事前学習データフィルタの効果の文書化

AboutMe: Using Self-Descriptions in Webpages to Document the Effects of English Pretraining Data Filters ( http://arxiv.org/abs/2401.06408v1 )

ライセンス: Link先を確認
Li Lucy, Suchin Gururangan, Luca Soldaini, Emma Strubell, David Bamman, Lauren Klein, Jesse Dodge(参考訳) 大規模言語モデルの能力(llm)は、事前学習データから引き出され、モデル開発はデータのキュレーションから始まる。 しかしながら、この初期段階で保持または削除されるデータに関する決定は、過小評価されている。 本研究では,Web テキストを,その社会的・地理的文脈に関連づけた事前学習データソースとして普及させた。 我々は、ウェブサイト作成者の1030万の自己記述からなる新しいデータセットを作成し、それらが誰であるか、どこから来たのかに関する情報を抽出する。 次に,10個の「品質」および「言語識別」(langID)フィルタが,これらの社会的次元に沿って変化するWebページに与える影響について,最初の研究を行った。 データキュレーションにおける暗黙的な選好を照らし出す実験では、いくつかの品質分類器がトピックのドメインフィルタのように振る舞うことを示し、langIDは世界の一部の地域の英語コンテンツを見渡すことができる。 全体として、我々の研究は、データキュレーションの実践の事前訓練とその社会的意味に関する新しい研究を奨励することを願っている。

Large language models' (LLMs) abilities are drawn from their pretraining data, and model development begins with data curation. However, decisions around what data is retained or removed during this initial stage is under-scrutinized. In our work, we ground web text, which is a popular pretraining data source, to its social and geographic contexts. We create a new dataset of 10.3 million self-descriptions of website creators, and extract information about who they are and where they are from: their topical interests, social roles, and geographic affiliations. Then, we conduct the first study investigating how ten "quality" and English language identification (langID) filters affect webpages that vary along these social dimensions. Our experiments illuminate a range of implicit preferences in data curation: we show that some quality classifiers act like topical domain filters, and langID can overlook English content from some regions of the world. Overall, we hope that our work will encourage a new line of research on pretraining data curation practices and its social implications.
翻訳日:2024-01-15 20:06:03 公開日:2024-01-12
# キャノピーレベル・高速ドローン用UAV対応マッピングアルゴリズム

UAV-borne Mapping Algorithms for Canopy-Level and High-Speed Drone Applications ( http://arxiv.org/abs/2401.06407v1 )

ライセンス: Link先を確認
Jincheng Zhang, Artur Wolek, and Andrew R. Willis(参考訳) 本稿では,UAV(Unmanned Aerial Vehicle)アプリケーションのための最先端マッピングアルゴリズムの総合的なレビューと解析を行い,キャノピーレベルと高速シナリオに着目した。 本稿では,UAVマッピングに適したセンサ技術を包括的に探索し,高速UAVマッピングの要件を満たす計測能力の評価を行う。 さらに、シミュレーション環境において、DSO(Direct Sparse Odometry)、SDSO(Stereo DSO)、DSOL(DSO Lite)の3つの異なるマッピングアルゴリズムの性能を評価するための広範な実験を行った。 実験では、精度とマッピング速度を調べ、各アルゴリズムの強さと限界について貴重な洞察を提供する。 その結果、現代のuavアプリケーションの要求に応えるアルゴリズムの汎用性と欠点が浮き彫りになった。 この結果は、複雑な環境や高速シナリオにおける適用性を強調し、UAVマッピングのダイナミクスの微妙な理解に寄与する。 この研究は、マッピングアルゴリズム比較のベンチマークとして機能するだけでなく、特定のUAVマッピングアプリケーションに適したセンサーを選択するための実用的なガイダンスも提供する。

This article presents a comprehensive review of and analysis of state-of-the-art mapping algorithms for UAV (Unmanned Aerial Vehicle) applications, focusing on canopy-level and high-speed scenarios. This article presents a comprehensive exploration of sensor technologies suitable for UAV mapping, assessing their capabilities to provide measurements that meet the requirements of fast UAV mapping. Furthermore, the study conducts extensive experiments in a simulated environment to evaluate the performance of three distinct mapping algorithms: Direct Sparse Odometry (DSO), Stereo DSO (SDSO), and DSO Lite (DSOL). The experiments delve into mapping accuracy and mapping speed, providing valuable insights into the strengths and limitations of each algorithm. The results highlight the versatility and shortcomings of these algorithms in meeting the demands of modern UAV applications. The findings contribute to a nuanced understanding of UAV mapping dynamics, emphasizing their applicability in complex environments and high-speed scenarios. This research not only serves as a benchmark for mapping algorithm comparisons but also offers practical guidance for selecting sensors tailored to specific UAV mapping applications.
翻訳日:2024-01-15 20:05:42 公開日:2024-01-12
# クン氏:中国語の自己調整にバックトランスレーションを指示

Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation ( http://arxiv.org/abs/2401.06477v1 )

ライセンス: Link先を確認
Tianyu Zheng, Shuyue Guo, Xingwei Qu, Jiawei Guo, Weixu Zhang, Xinrun Du, Chenghua Lin, Wenhao Huang, Wenhu Chen, Jie Fu, and Ge Zhang(参考訳) 本稿では,手動アノテーションを使わずに,大規模言語モデル(llm)向けの高品質な命令チューニングデータセットを作成するための新しいアプローチであるkunを紹介する。 命令のバックトランスレーションと回答の洗練に基づいて自己学習アルゴリズムを適用することで、KunはWudao、Wanjuan、SkyPileといったさまざまなソースから収集された、100万以上の中国語の命令データポイントのデータセットを生成する。 このアプローチは、最も効果的な命令出力対を洗練し選択するために自己キュレーションプロセスを使用することで、従来の方法から大きく逸脱する。 様々なベンチマークを用いた6BパラメータYiモデルによる実験は、Kunの堅牢性とスケーラビリティを実証する。 提案手法の中核となる貢献は,データの保持と明快さを高めるアルゴリズムの進歩と,コストと時間のかかる手動アノテーションへの依存を著しく低減する革新的なデータ生成アプローチにある。 本手法は,LLMの命令追従能力を向上させるためのスケーラブルで効率的なソリューションを提供する。 コードとデータセットはhttps://github.com/Zheng0428/COIG-Kunで確認できる。

In this paper, we introduce Kun, a novel approach for creating high-quality instruction-tuning datasets for large language models (LLMs) without relying on manual annotations. Adapting a self-training algorithm based on instruction back-translation and answer polishment, Kun leverages unlabelled data from diverse sources such as Wudao, Wanjuan, and SkyPile to generate a substantial dataset of over a million Chinese instructional data points. This approach significantly deviates from traditional methods by using a self-curation process to refine and select the most effective instruction-output pairs. Our experiments with the 6B-parameter Yi model across various benchmarks demonstrate Kun's robustness and scalability. Our method's core contributions lie in its algorithmic advancement, which enhances data retention and clarity, and its innovative data generation approach that substantially reduces the reliance on costly and time-consuming manual annotations. This methodology presents a scalable and efficient solution for improving the instruction-following capabilities of LLMs, with significant implications for their application across diverse fields. The code and dataset can be found at https://github.com/Zheng0428/COIG-Kun
翻訳日:2024-01-15 19:58:51 公開日:2024-01-12
# 医用画像分割のための密集階層表現の自己教師あり学習

Self-supervised Learning of Dense Hierarchical Representations for Medical Image Segmentation ( http://arxiv.org/abs/2401.06473v1 )

ライセンス: Link先を確認
Eytan Kats, Jochen G. Hirsch, Mattias P. Heinrich(参考訳) 本稿では,高密度下流タスクに適したボクセルワイド粗い表現を学習するための自己教師型フレームワークを提案する。 我々のアプローチは、階層的表現学習の既存の手法は、固有のアーキテクチャバイアスにより、局所的な特徴よりもグローバルな特徴を優先する傾向にある、という観察に由来する。 この課題に対処するために、複数のスケールからの機能のコントリビューションのバランスをとるトレーニング戦略を考案し、学習された表現が粗い詳細ときめ細かい詳細の両方を捉えることを保証する。 当社の戦略は,(1)局所的なデータ拡張,(2)階層的にバランスの取れたアーキテクチャ,(3)ハイブリッドなコントラスト型損失関数の3つの改良を含む。 我々はCTおよびMRIデータに対する本手法の評価を行い,本手法が限られた注釈付きデータを用いた微調整に特に有用であることを示す。

This paper demonstrates a self-supervised framework for learning voxel-wise coarse-to-fine representations tailored for dense downstream tasks. Our approach stems from the observation that existing methods for hierarchical representation learning tend to prioritize global features over local features due to inherent architectural bias. To address this challenge, we devise a training strategy that balances the contributions of features from multiple scales, ensuring that the learned representations capture both coarse and fine-grained details. Our strategy incorporates 3-fold improvements: (1) local data augmentations, (2) a hierarchically balanced architecture, and (3) a hybrid contrastive-restorative loss function. We evaluate our method on CT and MRI data and demonstrate that our new approach particularly beneficial for fine-tuning with limited annotated data and consistently outperforms the baseline counterpart in linear evaluation settings.
翻訳日:2024-01-15 19:58:30 公開日:2024-01-12
# 逐次測定における固有ランダム性の定量化

Quantifying the intrinsic randomness in sequential measurements ( http://arxiv.org/abs/2401.06472v1 )

ライセンス: Link先を確認
Xinjian Liu and Yukun Wang and Yunguang Han and Xia Wu(参考訳) 標準的なベルシナリオでは、各システムコンポーネントに対して局所的な投影計測を行う場合、生成するランダム性量は制限される。 しかし、この制限は逐次測定の実装によって超えることができる。 それでも、連続測定の文脈における乱数の厳密な定義は、デバイスに依存しないシナリオの低い定量化を除いて、まだ確立されていない。 本稿では,コリンズ・ギシン・リンデン・マッサー・ポセスクの不等式不等式(cglmp)の逐次的測定における量子固有ランダム性を定義し,ランダム性を定量化する。 まず,混合状態の量子固有ランダム性について,逐次射影的測定と,純粋状態における逐次正演算子値測度(povm)の固有ランダム性について検討した。 自然に、任意の量子状態に対して逐次povmの下で量子固有ランダム性を厳密に定義する。 さらに,本手法を 1-Alice および 2-Bobs の逐次測定シナリオに適用し,最大エンタングル状態と最大違反状態の量子固有乱数性を極大分解により定量化する。 最後に、デバイスに依存しないシナリオにおいて、逐次的なNavascues-Pironio-Acin(NPA)階層を用いて、最大エンタングル状態と最大違反状態の量子内在的ランダム性の低い境界を導出する。

In the standard Bell scenario, when making a local projective measurement on each system component, the amount of randomness generated is restricted. However, this limitation can be surpassed through the implementation of sequential measurements. Nonetheless, a rigorous definition of random numbers in the context of sequential measurements is yet to be established, except for the lower quantification in device-independent scenarios. In this paper, we define quantum intrinsic randomness in sequential measurements and quantify the randomness in the Collins-Gisin-Linden-Massar-Popescu (CGLMP) inequality sequential scenario. Initially, we investigate the quantum intrinsic randomness of the mixed states under sequential projective measurements and the intrinsic randomness of the sequential positive-operator-valued measure (POVM) under pure states. Naturally, we rigorously define quantum intrinsic randomness under sequential POVM for arbitrary quantum states. Furthermore, we apply our method to one-Alice and two-Bobs sequential measurement scenarios, and quantify the quantum intrinsic randomness of the maximally entangled state and maximally violated state by giving an extremal decomposition. Finally, using the sequential Navascues-Pironio-Acin (NPA) hierarchy in the device-independent scenario, we derive lower bounds on the quantum intrinsic randomness of the maximally entangled state and maximally violated state.
翻訳日:2024-01-15 19:58:13 公開日:2024-01-12
# 脳にインスパイアされた人間のコンセプト学習のための計算モデル

A Brain-inspired Computational Model for Human-like Concept Learning ( http://arxiv.org/abs/2401.06471v1 )

ライセンス: Link先を確認
Yuwei Wang and Yi Zeng(参考訳) 概念学習は人間の認知の基本的な側面であり、分類、推論、記憶、意思決定といった精神過程において重要な役割を果たす。 様々な分野の研究者は、個人における概念獲得の過程に一貫した関心を示している。 本研究では,人間の概念学習に関わるメカニズムを解明するために,計算神経科学と認知心理学の知見を検討する。 これらの結果は、脳の概念表現が、多感覚表現とテキスト由来表現という2つの重要な要素に依存していることを示している。 これら2種類の表現は意味制御システムによってコーディネートされ、最終的には概念の獲得につながる。 このメカニズムからインスピレーションを得て、スパイクニューラルネットワークに基づく概念学習のための人間に似た計算モデルを開発した。 2種類の概念表現の多様な情報源と不均衡な次元によって生じる課題を効果的に解決することで、研究は人間のような概念表現をうまく達成した。 同様の概念を含むテストは、人間が概念を学習する方法を模倣する我々のモデルが、人間の認知と密に一致した表現をもたらすことを示す。

Concept learning is a fundamental aspect of human cognition and plays a critical role in mental processes such as categorization, reasoning, memory, and decision-making. Researchers across various disciplines have shown consistent interest in the process of concept acquisition in individuals. To elucidate the mechanisms involved in human concept learning, this study examines the findings from computational neuroscience and cognitive psychology. These findings indicate that the brain's representation of concepts relies on two essential components: multisensory representation and text-derived representation. These two types of representations are coordinated by a semantic control system, ultimately leading to the acquisition of concepts. Drawing inspiration from this mechanism, the study develops a human-like computational model for concept learning based on spiking neural networks. By effectively addressing the challenges posed by diverse sources and imbalanced dimensionality of the two forms of concept representations, the study successfully attains human-like concept representations. Tests involving similar concepts demonstrate that our model, which mimics the way humans learn concepts, yields representations that closely align with human cognition.
翻訳日:2024-01-15 19:57:47 公開日:2024-01-12
# Batch-ICL:効果的、効率的、秩序に依存しないインコンテキスト学習

Batch-ICL: Effective, Efficient, and Order-Agnostic In-Context Learning ( http://arxiv.org/abs/2401.06469v1 )

ライセンス: Link先を確認
Kaiyi Zhang, Ang Lv, Yuhan Chen, Hansen Ha, Tao Xu, Rui Yan(参考訳) 本稿では,テキスト内学習(ICL)をメタ最適化プロセスとして扱うことにより,LCMがICLの順序に敏感である理由を説明する。 この理解は、ICLの効率的、効率的、秩序に依存しない推論アルゴリズムであるBatch-ICLの開発につながる。 標準的なNショット学習アプローチとは違い、Batch-ICLは$N$の1ショットフォワード計算を採用し、その結果のメタ勾配を集約する。 これらの集約されたメタ勾配をゼロショット学習に適用し、最終的な予測を生成する。 このバッチ処理アプローチでは、LCMはICLの例の順序に依存しない。 広範な実験と解析により、Batch-ICLは例列のほとんどの置換よりも一貫して優れていることを示した。 場合によっては、必要な計算リソースを削減しながら、標準iclの最適順序のパフォーマンスを上回ることさえある。 さらに,メタ最適化の「エポック」を複数備えた新しいBatch-ICLを開発した。 この変種は暗黙的に icl の例の置換を探索し、さらに icl の性能を向上させる。

In this paper, by treating in-context learning (ICL) as a meta-optimization process, we explain why LLMs are sensitive to the order of ICL examples. This understanding leads us to the development of Batch-ICL, an effective, efficient, and order-agnostic inference algorithm for ICL. Differing from the standard N-shot learning approach, Batch-ICL employs $N$ separate 1-shot forward computations and aggregates the resulting meta-gradients. These aggregated meta-gradients are then applied to a zero-shot learning to generate the final prediction. This batch processing approach renders the LLM agnostic to the order of ICL examples. Through extensive experiments and analysis, we demonstrate that Batch-ICL consistently outperforms most permutations of example sequences. In some cases, it even exceeds the performance of the optimal order for standard ICL, all while reducing the computational resources required. Furthermore, we develop a novel variant of Batch-ICL featuring multiple "epochs" of meta-optimization. This variant implicitly explores permutations of ICL examples, further enhancing ICL performance.
翻訳日:2024-01-15 19:57:30 公開日:2024-01-12
# 文書レベル機械翻訳における大規模言語モデルの適用

Adapting Large Language Models for Document-Level Machine Translation ( http://arxiv.org/abs/2401.06468v1 )

ライセンス: Link先を確認
Minghao Wu, Thuy-Trang Vu, Lizhen Qu, George Foster, Gholamreza Haffari(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。 近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。 本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)を専門とするLLMの適応プロセスについて検討する。 まず,提案手法が下流翻訳性能に与える影響について検討する。 次に、2つの微調整方法、3つのllmバックボーン、18の翻訳タスクを9つの言語ペアで広範囲に実験する。 以上の結果から, 翻訳性能がgpt-4を上回ることすらあるが, 言語間並列文書にのみ微調整されている場合においても, 目標外翻訳問題に苦しむケースもみられた。 さらに, docmt用に調整されたこれらのllmの詳細な解析を行い, 翻訳誤り, 並列文書のスケーリング則, ドメイン外一般化, ゼロショット言語間転送の影響について検討した。 本研究の成果は, LLMに基づくDocMTモデルの強度と限界だけでなく, DocMTにおける今後の研究の基礎となるものでもある。

Large language models (LLMs) have made significant strides in various natural language processing (NLP) tasks. Recent research shows that the moderately-sized LLMs often outperform their larger counterparts after task-specific fine-tuning. In this work, we delve into the process of adapting LLMs to specialize in document-level machine translation (DocMT) for a specific language pair. Firstly, we explore how prompt strategies affect downstream translation performance. Then, we conduct extensive experiments with two fine-tuning methods, three LLM backbones, and 18 translation tasks across nine language pairs. Our findings indicate that in some cases, these specialized models even surpass GPT-4 in translation performance, while they still significantly suffer from the off-target translation issue in others, even if they are exclusively fine-tuned on bilingual parallel documents. Furthermore, we provide an in-depth analysis of these LLMs tailored for DocMT, exploring aspects such as translation errors, the scaling law of parallel documents, out-of-domain generalization, and the impact of zero-shot crosslingual transfer. The findings of this research not only shed light on the strengths and limitations of LLM-based DocMT models but also provide a foundation for future research in DocMT.
翻訳日:2024-01-15 19:57:11 公開日:2024-01-12
# ペルシャマインド:ペルシア語-英語大言語モデル

PersianMind: A Cross-Lingual Persian-English Large Language Model ( http://arxiv.org/abs/2401.06466v1 )

ライセンス: Link先を確認
Pedram Rostami, Ali Salemi, Mohammad Javad Dousti(参考訳) 大きな言語モデルは、様々な言語タスクにおいて顕著な熟練度を示し、様々なドメインにまたがる幅広い知識を持っている。 英語が得意だが、他の言語でもその能力は顕著である。 対照的に、llamaのようなオープンソースモデルは、主に英語のデータセットでトレーニングされており、非英語言語のパフォーマンスが低下する。 本稿では,ペルシャ語のGPT-3.5-turboに匹敵する性能を示すオープンソースのバイリンガル大言語モデルであるペルシャミンドを紹介する。 LLaMa2の語彙を1万のペルシャトークンで拡張し、約20億のペルシャトークンからなるデータセット上でトレーニングすることにより、我々のアプローチがモデルの英語知識を保存し、ある言語から別の言語へのタスク知識の転送に優れた転写学習を採用することを示す。

Large language models demonstrate remarkable proficiency in various linguistic tasks and have extensive knowledge across various domains. Although they perform best in English, their ability in other languages is notable too. In contrast, open-source models, such as LLaMa, are primarily trained on English datasets, resulting in poor performance in non-English languages. In this paper, we introduce PersianMind, an open-source bilingual large language model which demonstrates comparable performance to closed-source GPT-3.5-turbo in the Persian language. By expanding LLaMa2's vocabulary with 10,000 Persian tokens and training it on a dataset comprising nearly 2 billion Persian tokens, we show that our approach preserves the model's English knowledge and employs transfer learning to excel at transferring task knowledge from one language to another.
翻訳日:2024-01-15 19:56:48 公開日:2024-01-12
# Sanity Checks Revisited: モデルパラメータランダム化テストを修復するための探索

Sanity Checks Revisited: An Exploration to Repair the Model Parameter Randomisation Test ( http://arxiv.org/abs/2401.06465v1 )

ライセンス: Link先を確認
Anna Hedstr\"om, Leander Weber, Sebastian Lapuschkin, Marina MC H\"ohne(参考訳) モデルパラメータランダム化テスト(MPRT)は、よく動機付けられた評価原理として、eXplainable Artificial Intelligence(XAI)コミュニティで広く認識されている: 説明関数はモデル関数のパラメータの変化に敏感であるべきである。 しかし、近年の研究では、MPRTの実証的な解釈にいくつかの方法が指摘されている。 これらの問題点に対処するために、元のMPRTにSmooth MPRTとEfficient MPRTという2つの適応を導入し、前者はサンプリングによってノイズが評価結果に与える影響を最小化し、後者は、完全なパラメータランダム化後に、説明の複雑さの増加を通じてテストを再解釈することで、バイアス付き類似度測定の必要性を回避する。 実験の結果,提案した変種は計量信頼性を向上し,XAI法をより信頼性の高い適用を可能にした。

The Model Parameter Randomisation Test (MPRT) is widely acknowledged in the eXplainable Artificial Intelligence (XAI) community for its well-motivated evaluative principle: that the explanation function should be sensitive to changes in the parameters of the model function. However, recent works have identified several methodological caveats for the empirical interpretation of MPRT. To address these caveats, we introduce two adaptations to the original MPRT -- Smooth MPRT and Efficient MPRT, where the former minimises the impact that noise has on the evaluation results through sampling and the latter circumvents the need for biased similarity measurements by re-interpreting the test through the explanation's rise in complexity, after full parameter randomisation. Our experimental results demonstrate that these proposed variants lead to improved metric reliability, thus enabling a more trustworthy application of XAI methods.
翻訳日:2024-01-15 19:56:32 公開日:2024-01-12
# AttributionScanner: メタデータフリーデータスライシングに基づくモデル検証のためのビジュアル分析システム

AttributionScanner: A Visual Analytics System for Metadata-Free Data-Slicing Based Model Validation ( http://arxiv.org/abs/2401.06462v1 )

ライセンス: Link先を確認
Xiwei Xuan, Jorge Piazentin Ono, Liang Gou, Kwan-Liu Ma, Liu Ren(参考訳) データスライスフィニングは、機械学習モデルを評価する新しいテクニックである。 機能セットやメタ情報によって定義される、パフォーマンスの悪い特定のデータセット内のサブグループを特定することで機能する。 しかし、非構造化画像データの文脈では、データスライス検索は2つの注目すべき課題を提起する。 これらの課題に対処するために、データスライシングベースの機械学習(ML)モデル検証用に設計された、革新的な人型ビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介した。 我々のアプローチは、解釈可能なデータスライスを識別し、説明可能なAI(XAI)技術を用いて抽出した説明可能な機能を活用し、テキストアノテーションやクロスモデル埋め込みの追加メタデータの必要性を除去する。 AttributionScannerは、素早い相関や誤ったラベル付きデータを含む重要なモデル問題を特定する能力を示している。 当社の新しいVAインターフェースは,データスライスを視覚的に要約し,モデル行動パターンに関する洞察をシームレスに収集する。 さらに、最先端のニューラルネットワーク正規化技術を用いて、ドメインエキスパートにモデル問題に対処する権限を与えることにより、ml開発サイクルを締めくくります。 attributionscannerの有効性は、視覚中心のタスクのモデル検証における実質的な有効性を明らかにする2つのプロトタイプのユースケースによって裏付けられている。 我々のアプローチは、MLの研究者や実践者が解釈可能なモデルの検証をデータ効率のよい方法で行うための道を開いた。

Data slice-finding is an emerging technique for evaluating machine learning models. It works by identifying subgroups within a specified dataset that exhibit poor performance, often defined by distinct feature sets or meta-information. However, in the context of unstructured image data, data slice-finding poses two notable challenges: it requires additional metadata -- a laborious and costly requirement, and also demands non-trivial efforts for interpreting the root causes of the underperformance within data slices. To address these challenges, we introduce AttributionScanner, an innovative human-in-the-loop Visual Analytics (VA) system, designed for data-slicing-based machine learning (ML) model validation. Our approach excels in identifying interpretable data slices, employing explainable features extracted through the lens of Explainable AI (XAI) techniques, and removing the necessity for additional metadata of textual annotations or cross-model embeddings. AttributionScanner demonstrates proficiency in pinpointing critical model issues, including spurious correlations and mislabeled data. Our novel VA interface visually summarizes data slices, enabling users to gather insights into model behavior patterns effortlessly. Furthermore, our framework closes the ML Development Cycle by empowering domain experts to address model issues by using a cutting-edge neural network regularization technique. The efficacy of AttributionScanner is underscored through two prototype use cases, elucidating its substantial effectiveness in model validation for vision-centric tasks. Our approach paves the way for ML researchers and practitioners to drive interpretable model validation in a data-efficient way, ultimately leading to more reliable and accurate models.
翻訳日:2024-01-15 19:56:13 公開日:2024-01-12
# コードの行間:機械と人間のプログラマの固有のパターンを明らかにする

Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers ( http://arxiv.org/abs/2401.06461v1 )

ライセンス: Link先を確認
Yuling Shi, Hongyu Zhang, Chengcheng Wan, Xiaodong Gu(参考訳) 大規模言語モデルはコード生成において前例のない波を触媒している。 大幅な進歩を遂げながら、マシンと人間によるソースコードの区別を曖昧にし、ソフトウェアアーチファクトの完全性と信頼性の問題を引き起こした。 DetectGPTのような従来の手法は、機械生成したテキストの識別に有効であることが証明されているが、それらは機械生成コードのユニークなパターンを特定し、利用しない。 したがって、コードに適用した場合、適用性は低下する。 本稿では,機械と人為的コードを特徴付ける特定のパターンを慎重に研究する。 長さや語彙の多様性,自然さといったコード属性の厳密な分析を通じて,各ソース固有のパタンを露呈する。 特に、コードの構造的セグメンテーションが、その成果を特定する上で重要な要素であることに気付きます。 そこで本研究では,コードの構造パターンを抽出し,検出GPTの精度を向上する,DeuterCodeGPTという新しいコード検出手法を提案する。 摂動の外部 LLM に依存する従来の手法とは違い、DeuterCodeGPT は空間と新規性を戦略的に挿入することでコードコーパスを摂動させ、有効性と効率性を確保する。 実験結果から,本手法は機械生成コードの検出における最先端技術よりも優れていることがわかった。

Large language models have catalyzed an unprecedented wave in code generation. While achieving significant advances, they blur the distinctions between machine-and human-authored source code, causing integrity and authenticity issues of software artifacts. Previous methods such as DetectGPT have proven effective in discerning machine-generated texts, but they do not identify and harness the unique patterns of machine-generated code. Thus, its applicability falters when applied to code. In this paper, we carefully study the specific patterns that characterize machine and human-authored code. Through a rigorous analysis of code attributes such as length, lexical diversity, and naturalness, we expose unique pat-terns inherent to each source. We particularly notice that the structural segmentation of code is a critical factor in identifying its provenance. Based on our findings, we propose a novel machine-generated code detection method called DetectCodeGPT, which improves DetectGPT by capturing the distinct structural patterns of code. Diverging from conventional techniques that depend on external LLMs for perturbations, DetectCodeGPT perturbs the code corpus by strategically inserting spaces and newlines, ensuring both efficacy and efficiency. Experiment results show that our approach significantly outperforms state-of-the-art techniques in detecting machine-generated code.
翻訳日:2024-01-15 19:55:41 公開日:2024-01-12
# 光汚染対策のための生成逆ネットワークの因果的認識

Causally Aware Generative Adversarial Networks for Light Pollution Control ( http://arxiv.org/abs/2401.06453v1 )

ライセンス: Link先を確認
Yuyao Zhang, Ke Guo, Xiao Zhou(参考訳) 現代都市では人工光が重要な役割を担い、人間の生産性と文明の効率を大幅に向上させた。 しかし、過剰な照明は光害につながる可能性があり、経済的負担、生態系、人間の健康に対する無視できない脅威となる。 その重要な重要性にもかかわらず、その原因の探索は人工知能の分野では比較的限定的であり、光汚染や持続可能な照明計画に寄与する要因について不完全な理解を残している。 このギャップに対処するために、Causally Aware Generative Adversarial Networks (CAGAN) という新しいフレームワークを導入する。 この革新的なアプローチは、都市内の光汚染の基本要因を明らかにし、持続可能な都市開発における最適な照明資源配分のためのインテリジェントなソリューションを提供することを目的としている。 世界の7大都市圏における33,593戸の住宅地における光害調査を開始。 本研究は,草原,商業施設,住宅など,各種建築物の光害レベルに大きな影響があることを明らかにした。 これらの因果関係を生成モデルフレームワークにシームレスに統合し, 多様な住宅地を対象とした光汚染マップ作成のプロセスを導く。 広範な実験は、カガンが光害を軽減する効果的な戦略の実行を知らせ、指導する可能性を示している。 私たちのコードとデータはhttps://github.com/zhangyuuao/light_pollution_caganで公開されている。

Artificial light plays an integral role in modern cities, significantly enhancing human productivity and the efficiency of civilization. However, excessive illumination can lead to light pollution, posing non-negligible threats to economic burdens, ecosystems, and human health. Despite its critical importance, the exploration of its causes remains relatively limited within the field of artificial intelligence, leaving an incomplete understanding of the factors contributing to light pollution and sustainable illumination planning distant. To address this gap, we introduce a novel framework named Causally Aware Generative Adversarial Networks (CAGAN). This innovative approach aims to uncover the fundamental drivers of light pollution within cities and offer intelligent solutions for optimal illumination resource allocation in the context of sustainable urban development. We commence by examining light pollution across 33,593 residential areas in seven global metropolises. Our findings reveal substantial influences on light pollution levels from various building types, notably grasslands, commercial centers and residential buildings as significant contributors. These discovered causal relationships are seamlessly integrated into the generative modeling framework, guiding the process of generating light pollution maps for diverse residential areas. Extensive experiments showcase CAGAN's potential to inform and guide the implementation of effective strategies to mitigate light pollution. Our code and data are publicly available at https://github.com/zhangyuuao/Light_Pollution_CAGAN.
翻訳日:2024-01-15 19:55:21 公開日:2024-01-12
# ポジティブアンラベル学習のための自動機械学習

Automated Machine Learning for Positive-Unlabelled Learning ( http://arxiv.org/abs/2401.06452v1 )

ライセンス: Link先を確認
Jack D. Saunders and Alex A. Freitas(参考訳) PU学習(Positive-Unlabelled Learning)は、ラベル付き正のインスタンスと負のインスタンスで構成されるデータから分類器を学習することを目的とした機械学習の分野である。 過去20年間にわたってPU学習に対処する様々な手法が提案されているため、あるPU学習タスクに最適な方法を選択することが課題となっている。 我々のこれまでの研究は、PU学習のための最初の自動機械学習(Auto-ML)システムであるGA-Auto-PUを提案している。 本研究では,2つの新しいPU学習システムであるBO-Auto-PUと,新しい進化的/ベイズ的最適化アプローチに基づくEBO-Auto-PUを提案する。 また,これら3つのAuto-MLシステムについて,互いに比較し,60のデータセット(実世界の20のデータセット,PU学習特性の3つのバージョン)にまたがるよく確立されたPU学習手法について,広範な評価を行った。

Positive-Unlabelled (PU) learning is a growing field of machine learning that aims to learn classifiers from data consisting of labelled positive and unlabelled instances, which can be in reality positive or negative, but whose label is unknown. An extensive number of methods have been proposed to address PU learning over the last two decades, so many so that selecting an optimal method for a given PU learning task presents a challenge. Our previous work has addressed this by proposing GA-Auto-PU, the first Automated Machine Learning (Auto-ML) system for PU learning. In this work, we propose two new Auto-ML systems for PU learning: BO-Auto-PU, based on a Bayesian Optimisation approach, and EBO-Auto-PU, based on a novel evolutionary/Bayesian optimisation approach. We also present an extensive evaluation of the three Auto-ML systems, comparing them to each other and to well-established PU learning methods across 60 datasets (20 real-world datasets, each with 3 versions in terms of PU learning characteristics).
翻訳日:2024-01-15 19:54:58 公開日:2024-01-12
# 雑音データを用いた多要素サロゲートモデリングのための包括的フレームワーク:グレーボックスの視点から

A comprehensive framework for multi-fidelity surrogate modeling with noisy data: a gray-box perspective ( http://arxiv.org/abs/2401.06447v1 )

ライセンス: Link先を確認
Katerina Giannoukou, Stefano Marelli and Bruno Sudret(参考訳) コンピュータシミュレーション(ホワイトボックスモデル)は複雑なエンジニアリングシステムをモデル化するのにこれまで以上に不可欠である。 しかし、計算モデルだけでは現実の複雑さを完全に捉えることができないことが多い。 しかし、物理実験が利用できる場合、計算モデルによって提供される不完全な情報を強化することが興味深い。 グレイボックスモデリングは、データ駆動モデル(ブラックボックス)とホワイトボックスモデル(物理ベース)からの情報をマージする問題に関係している。 本稿では,MFSM(Multi-fidelity surrogate model)を用いてこの課題を実行することを提案する。 MFSMは、様々な計算忠実度を持つモデルからの情報を新しい代理モデルに統合する。 提案するマルチファイダリティ・サロゲート・モデリング・フレームワークは,ノイズ汚染データを処理し,基礎となるノイズフリー高ファイダリティ関数を推定することができる。 提案手法は,高忠実度モデルと低忠実度モデルの両方に限定された実験設計予算により,測定ノイズと知識の欠如から生じる様々な種類の不確かさを定量的に取り入れ,信頼性と予測間隔の形で予測の不確かさを正確に推定することを強調する。 我々のMFSMフレームワークは、グレーボックスモデリングに応用し、ノイズの多い実験データを高忠実度、ホワイトボックス計算モデルを低忠実度モデルとして扱う。 本手法の有効性は, 合成例と風力タービンの適用例を通して示す。

Computer simulations (a.k.a. white-box models) are more indispensable than ever to model intricate engineering systems. However, computational models alone often fail to fully capture the complexities of reality. When physical experiments are accessible though, it is of interest to enhance the incomplete information offered by computational models. Gray-box modeling is concerned with the problem of merging information from data-driven (a.k.a. black-box) models and white-box (i.e., physics-based) models. In this paper, we propose to perform this task by using multi-fidelity surrogate models (MFSMs). A MFSM integrates information from models with varying computational fidelity into a new surrogate model. The multi-fidelity surrogate modeling framework we propose handles noise-contaminated data and is able to estimate the underlying noise-free high-fidelity function. Our methodology emphasizes on delivering precise estimates of the uncertainty in its predictions in the form of confidence and prediction intervals, by quantitatively incorporating the different types of uncertainty that affect the problem, arising from measurement noise and from lack of knowledge due to the limited experimental design budget on both the high- and low-fidelity models. Applied to gray-box modeling, our MFSM framework treats noisy experimental data as the high-fidelity and the white-box computational models as their low-fidelity counterparts. The effectiveness of our methodology is showcased through synthetic examples and a wind turbine application.
翻訳日:2024-01-15 19:54:39 公開日:2024-01-12
# 将来の量子インターネットのための量子ネットワークの統合戦略

Strategies for the Integration of quantum networks for a future quantum internet ( http://arxiv.org/abs/2401.06444v1 )

ライセンス: Link先を確認
M.I. Garcia-Cid, L. Ortiz, J. Saez and V. Martin(参考訳) 量子通信の分野で実施されている、EuroQCIのような大規模な投資プログラムとともに、科学的、技術的に大きな進歩が、世界中の量子ネットワークの展開を推進している。 最終的な長期的な目標の1つは、現在のインターネットが持っていないサービスと新機能により大きなセキュリティを提供する量子インターネットの開発を達成することである。 本稿では、既に展開されているネットワークや、将来のグローバル量子ネットワークに到達するためにデプロイされるプロセスにおける統合戦略について分析する。 SDNパラダイムに基づく2つの戦略が,階層型コントローラスキームと分散モデルに基づいて提案されている。 これらのアプローチはそれぞれ、長所と短所を示し、さまざまなユースケースに適用できる。 これらの戦略を定義するために、これまで実行された量子通信ネットワークの最も関連性の高い展開、および量子ネットワークアーキテクチャとトポロジに対する異なるアプローチ、および量子インターネットとは何か、理想的なシナリオで構築されるコンポーネントは何か、といった様々な定義が分析された。 最後に,セキュリティと技術的側面に関するいくつかの機会と課題について述べる。

The great scientific and technological advances that are being carried out in the field of quantum communications, accompanied by large investment programs such as EuroQCI, are driving the deployment of quantum network throughout the world. One of the final long-term objectives is to achieve the development of a quantum internet that provides greater security in its services and new functionalities that the current internet does not have. This article analyzes the possible integration strategies of already deployed networks or in the process of being deployed in order to reach a future global quantum network. Two strategies based on the SDN paradigm are proposed, based on a hierarchical controller scheme and on a distributed model. Each of these approaches shows pros and cons and could be applicable in different use cases. To define these strategies, the most relevant deployments of quantum communications networks carried out to date has been analyzed, as well as the different approaches for a quantum network architecture and topology, and the various proposed definitions of what quantum internet is and what are the components that would make it up in an ideal scenario. Finally, several detected opportunities and challenges regarding security and technological aspects are presented.
翻訳日:2024-01-15 19:54:14 公開日:2024-01-12
# BOK-VQA:グラフ表現によるバイリンガル外部知識に基づく視覚質問応答

BOK-VQA: Bilingual Outside Knowledge-based Visual Question Answering via Graph Representation Pretraining ( http://arxiv.org/abs/2401.06443v1 )

ライセンス: Link先を確認
Minjun Kim, Seungwoo Song, Youhan Lee, Haneol Jang, Kyungtae Lim(参考訳) 最近開発されたGPT4のような生成モデルにおける現在の研究方向は、複数のモーダル入力と多言語入力の関連知識情報を見つけることを目的としている。 これらの研究状況下では,マルチモーダルシステムの代表課題である視覚質問応答(vqa)タスクの多言語評価の要求が高まっている。 そこで本研究では,多言語に拡張可能な二言語外部知識VQA(BOK-VQA)データセットを提案する。 提案したデータには、17K画像、韓国語と英語の問合せ対、問合せ内容に関連する知識情報の280Kインスタンスが含まれる。 また,BOK-VQAデータの知識情報をグラフ埋め込み形式で事前学習することにより,知識情報をVQAシステムに効果的に注入できるフレームワークを提案する。 最後に,詳細な分析を通じて,構築した学習データに含まれる知識情報がVQAに与える影響を実演した。

The current research direction in generative models, such as the recently developed GPT4, aims to find relevant knowledge information for multimodal and multilingual inputs to provide answers. Under these research circumstances, the demand for multilingual evaluation of visual question answering (VQA) tasks, a representative task of multimodal systems, has increased. Accordingly, we propose a bilingual outside-knowledge VQA (BOK-VQA) dataset in this study that can be extended to multilingualism. The proposed data include 17K images, 17K question-answer pairs for both Korean and English and 280K instances of knowledge information related to question-answer content. We also present a framework that can effectively inject knowledge information into a VQA system by pretraining the knowledge information of BOK-VQA data in the form of graph embeddings. Finally, through in-depth analysis, we demonstrated the actual effect of the knowledge information contained in the constructed training data on VQA.
翻訳日:2024-01-15 19:53:56 公開日:2024-01-12
# 因果加法モデルの拡張

Boosting Causal Additive Models ( http://arxiv.org/abs/2401.06523v1 )

ライセンス: Link先を確認
Maximilian Kertel and Nadja Klein(参考訳) 本稿では,観測データから加法構造方程式モデル(SEM)を学習し,変数間の因果順序を決定する理論的側面に焦点をあてる。 任意の回帰手法に基づくスコア関数の族を導入し,真の因果順序付けを一貫して好むために必要な条件を定式化する。 分析の結果,早期停止によるブースティングはこれらの基準を満たし,因果順序付けに一貫したスコア関数を提供することがわかった。 高次元データセットによってもたらされる課題に対処するため、加法的SEMの空間における成分勾配勾配によるアプローチを適応する。 シミュレーション研究は,より低次元の理論的結果に基づいて,我々の高次元適応が最先端手法と競合することを示す。 さらに、ハイパーパラメータの選択に関して堅牢性を示し、手順を調整しやすくする。

We present a boosting-based method to learn additive Structural Equation Models (SEMs) from observational data, with a focus on the theoretical aspects of determining the causal order among variables. We introduce a family of score functions based on arbitrary regression techniques, for which we establish necessary conditions to consistently favor the true causal ordering. Our analysis reveals that boosting with early stopping meets these criteria and thus offers a consistent score function for causal orderings. To address the challenges posed by high-dimensional data sets, we adapt our approach through a component-wise gradient descent in the space of additive SEMs. Our simulation study underlines our theoretical results for lower dimensions and demonstrates that our high-dimensional adaptation is competitive with state-of-the-art methods. In addition, it exhibits robustness with respect to the choice of the hyperparameters making the procedure easy to tune.
翻訳日:2024-01-15 19:48:33 公開日:2024-01-12
# オープン集合認識のための多様な表現の検討

Exploring Diverse Representations for Open Set Recognition ( http://arxiv.org/abs/2401.06521v1 )

ライセンス: Link先を確認
Yu Wang, Junxian Mu, Pengfei Zhu, Qinghua Hu(参考訳) オープンセット認識(OSR)では、テスト中に未知のサンプルを拒絶しながらクローズドセットに属するサンプルを分類する必要がある。 現在では、生成モデルはosrの識別モデルよりもよく機能するが、近年の研究では、生成モデルは複雑なタスクでは計算不可能または不安定であることが示されている。 本稿では,OSRに関する知見を提供し,学習補助表現が理論的にオープンスペースのリスクを低減できることを示す。 分析に基づいて,多種多様な表現を識別的に学習する多種多様なアテンション融合(medaf)という新しいモデルを提案する。 MEDAFは、アテンションマップが相互に異なることを保証するために、アテンション多様性規則化用語で学習される複数の専門家で構成される。 各専門家が学習したログは適応的に融合され、スコア関数を通じて未知を識別するために使用される。 注意マップの違いが多彩な表現に繋がることを示し、融合された表現がオープン空間をうまく扱えることを示す。 標準およびosrの大規模ベンチマークで広範な実験が行われている。 その結果,提案手法はAUROCにおいて既存の生成モデルを最大9.5%上回り,計算コストの少ない新たな最先端性能を実現することができることがわかった。 また,既存の分類モデルをシームレスに統合することもできる。 コードはhttps://github.com/Vanixxz/MEDAF.comで入手できる。

Open set recognition (OSR) requires the model to classify samples that belong to closed sets while rejecting unknown samples during test. Currently, generative models often perform better than discriminative models in OSR, but recent studies show that generative models may be computationally infeasible or unstable on complex tasks. In this paper, we provide insights into OSR and find that learning supplementary representations can theoretically reduce the open space risk. Based on the analysis, we propose a new model, namely Multi-Expert Diverse Attention Fusion (MEDAF), that learns diverse representations in a discriminative way. MEDAF consists of multiple experts that are learned with an attention diversity regularization term to ensure the attention maps are mutually different. The logits learned by each expert are adaptively fused and used to identify the unknowns through the score function. We show that the differences in attention maps can lead to diverse representations so that the fused representations can well handle the open space. Extensive experiments are conducted on standard and OSR large-scale benchmarks. Results show that the proposed discriminative method can outperform existing generative models by up to 9.5% on AUROC and achieve new state-of-the-art performance with little computational cost. Our method can also seamlessly integrate existing classification models. Code is available at https://github.com/Vanixxz/MEDAF.
翻訳日:2024-01-15 19:48:20 公開日:2024-01-12
# 政策予算によるパーソナライズされた強化学習

Personalized Reinforcement Learning with a Budget of Policies ( http://arxiv.org/abs/2401.06514v1 )

ライセンス: Link先を確認
Dmitry Ivanov, Omer Ben-Porat(参考訳) 機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。 このアプローチはレコメンデーターシステムのような分野では成功したが、医療や自動運転といった高度な分野への拡大は、広範囲にわたる規制承認プロセスによって妨げられている。 この課題に対処するために,マルコフ決定過程 (r-MDP) を表現した新しいフレームワークを提案する。 r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。 それぞれの利用者を適切な代表政策に効率的にマッチさせ、同時にこれらの政策を最適化し、社会福祉全体を最大化する。 r-MDPを効率的に解く2つの深層強化学習アルゴリズムを開発した。 これらのアルゴリズムは古典的なk平均クラスタリングの原理から着想を得ており、ロバストな理論的基礎に基づいている。 様々なシミュレート環境において実施した経験的調査は,制約のある政策予算の下でも有意義なパーソナライゼーションを促進するアルゴリズムの能力を示すものである。 さらに、スケーラビリティを示し、より大きなポリシー予算に効率的に適応します。

Personalization in machine learning (ML) tailors models' decisions to the individual characteristics of users. While this approach has seen success in areas like recommender systems, its expansion into high-stakes fields such as healthcare and autonomous driving is hindered by the extensive regulatory approval processes involved. To address this challenge, we propose a novel framework termed represented Markov Decision Processes (r-MDPs) that is designed to balance the need for personalization with the regulatory constraints. In an r-MDP, we cater to a diverse user population, each with unique preferences, through interaction with a small set of representative policies. Our objective is twofold: efficiently match each user to an appropriate representative policy and simultaneously optimize these policies to maximize overall social welfare. We develop two deep reinforcement learning algorithms that efficiently solve r-MDPs. These algorithms draw inspiration from the principles of classic K-means clustering and are underpinned by robust theoretical foundations. Our empirical investigations, conducted across a variety of simulated environments, showcase the algorithms' ability to facilitate meaningful personalization even under constrained policy budgets. Furthermore, they demonstrate scalability, efficiently adapting to larger policy budgets.
翻訳日:2024-01-15 19:47:57 公開日:2024-01-12
# ML-On-Rails: ソフトウェアシステムにおける機械学習モデルの保護

ML-On-Rails: Safeguarding Machine Learning Models in Software Systems A Case Study ( http://arxiv.org/abs/2401.06513v1 )

ライセンス: Link先を確認
Hala Abdelkader, Mohamed Abdelrazek, Scott Barnett, Jean-Guy Schneider, Priya Rani, Rajesh Vasa(参考訳) 機械学習(ML)、特に大規模言語モデル(LLM)の出現により、様々な産業が大幅に変化した。 しかし、MLモデルプロトタイプからソフトウェアシステム内での本番環境への移行にはいくつかの課題がある。 これらの課題は、主に安全性、セキュリティ、透明性の確保に取り組み、その後、mlモデルの全体的な堅牢性と信頼性に影響を与える。 本稿では、MLモデルを保護するためのプロトコルであるML-On-Railsを紹介し、異なるMLタスクのための明確に定義されたエンドポイントインターフェースを確立し、MLプロバイダとMLコンシューマ(ソフトウェアエンジニア)間のコミュニケーションを明確にする。 ML-On-Railsは、本番ML固有の固有の課題を特定するために検出機能を組み込むことで、MLモデルの堅牢性を高める。 実世界のMoveReminderアプリケーションのケーススタディにより, ML-On-Railsプロトコルの評価を行った。 この評価を通じて、プロダクションにおけるMLモデルの保護の重要性を強調した。

Machine learning (ML), especially with the emergence of large language models (LLMs), has significantly transformed various industries. However, the transition from ML model prototyping to production use within software systems presents several challenges. These challenges primarily revolve around ensuring safety, security, and transparency, subsequently influencing the overall robustness and trustworthiness of ML models. In this paper, we introduce ML-On-Rails, a protocol designed to safeguard ML models, establish a well-defined endpoint interface for different ML tasks, and clear communication between ML providers and ML consumers (software engineers). ML-On-Rails enhances the robustness of ML models via incorporating detection capabilities to identify unique challenges specific to production ML. We evaluated the ML-On-Rails protocol through a real-world case study of the MoveReminder application. Through this evaluation, we emphasize the importance of safeguarding ML models in production.
翻訳日:2024-01-15 19:47:36 公開日:2024-01-12
# AntEval:エージェントの社会的相互作用のインフォーマル性と表現性を定量的に評価する

AntEval: Quantitatively Evaluating Informativeness and Expressiveness of Agent Social Interactions ( http://arxiv.org/abs/2401.06509v1 )

ライセンス: Link先を確認
Yuanzhi Liang, Linchao Zhu, Yi Yang(参考訳) 大規模言語モデル(llms)ベースのエージェントは、様々なシナリオにおいて人間の行動を模倣することに成功したが、拡張されたコンテキストにおける複雑で多文字の社会的相互作用の領域は、未検討のままである。 この課題はプライバシーの懸念によって複雑化しており、複雑な実生活のやりとりを捉えて利用することは困難である。 さらに重要なことは、定量的評価手法が欠如していることは、高品質なエージェント相互作用の追求を妨げ、しばしば、明確な意図のない表面的な小さな話によって特徴づけられる、情報性や表現性に制限された相互作用に繋がる。 本研究では,TRPG(Tabletop Role-Playing Games)のルールを利用して,複雑でコンテキストに富んだインタラクションに適応した環境を構築する。 この仮想設定は、プライバシの懸念を緩和し、エージェントがゲーム内の目的の一部として有意義で高品質なインタラクションを行う動機を与える。 これらの相互作用を評価するために,対話情報と表現性の質的評価を目的としたエージェントインタラクション評価フレームワーク(AntEval)を導入する。 具体的には,情報交換精度(IEP)とインタラクション表現率ギャップ(IEG)の2つの新しい評価指標を提案する。 これらのメトリクスは、情報交換と意図表現に焦点を当てたシナリオにおける相互作用を評価するように設計されている。 実験結果は,これらの指標がインタラクション品質評価に有効であることを示す。 特に,ソーシャルインタラクションに関するllmの改善のための重要な領域を,指標で強調した。 我々は、AntEvalが複雑なエージェントインタラクションのさらなる探索をガイドし、実際の人間の振る舞いをエミュレートし、現実世界のアプリケーションにおけるそれらの統合と実用性を強化することを信じている。

While Large Language Models (LLMs) based agents have successfully mimicked human behaviors in various scenarios, the realm of complex, multi-character social interactions within extended contexts remains underexplored. The challenge is compounded by privacy concerns, making it difficult to capture and utilize intricate real-life interactions. More importantly, the absence of quantitative evaluation methods hampers the pursuit of high-quality agent interactions, often leading to interactions that are limited in informativeness and expressiveness, characterized by superficial small talk without clear intentions. In this work, we leverage the rules of Tabletop Role-Playing Games (TRPG) to create an environment conducive to complex, context-rich interactions, emphasizing informativeness and expressiveness. This virtual setting alleviates privacy concerns and motivates agents to engage in meaningful, high-quality interactions as part of their in-game objectives. To assess these interactions, we introduce the Agent interaction Evaluation framework (AntEval), targeting the qualitative evaluation of interaction informativeness and expressiveness. Specifically, we propose two novel evaluation metrics: Information Exchanging Precision (IEP) and Interaction Expressiveness Gap (IEG). These metrics are designed to assess interactions in scenarios focused on information exchange and intention expression, respectively. Our experimental results demonstrate the effectiveness of these metrics in evaluating interaction quality. Notably, we identify significant areas for improvement in LLMs regarding social interactions, as highlighted by our metrics. We believe AntEval will guide further exploration in complex agent interactions, bringing them closer to emulating real human behavior and enhancing their integration and utility in real-world applications.
翻訳日:2024-01-15 19:47:22 公開日:2024-01-12
# グラフ分解に非局所正準統計を組み込む

Incorporating non-local anyonic statistics into a graph decomposition ( http://arxiv.org/abs/2401.06507v1 )

ライセンス: Link先を確認
M. M\"uhlhauser, V. Kott, K.P. Schmidt(参考訳) 本稿では,キタエフのトーリック符号の位相相の連結クラスター展開を設定するために,全グラフ分解を体系的に実装する方法について述べる。 この要求は、基本電荷とフラックス励起の相互正準統計によって媒介される非局所効果を含めることである。 技術的には、そのような非局所的効果を単一励起に対するハイパーグラフ分解に一貫して統合する方法を述べる。 このアプローチは、摂動位相における電荷とフラックスの基底状態エネルギーと基本励起エネルギーに対して実証される。

In this work we describe how to systematically implement a full graph decomposition to set up a linked-cluster expansion for the topological phase of Kitaev's toric code in a field. This demands to include the non-local effects mediated by the mutual anyonic statistics of elementary charge and flux excitations. Technically, we describe how to consistently integrate such non-local effects into a hypergraph decomposition for single excitations. The approach is demonstrated for the ground-state energy and the elementary excitation energies of charges and fluxes in the perturbed topological phase.
翻訳日:2024-01-15 19:46:52 公開日:2024-01-12
# ユニバーサルディープフェイク検出のための周波数マスキング

Frequency Masking for Universal Deepfake Detection ( http://arxiv.org/abs/2401.06506v1 )

ライセンス: Link先を確認
Chandler Timm Doloriel, Ngai-Man Cheung(参考訳) ユニバーサルディープフェイク検出について検討する。 我々の目標は、さまざまな生成aiアプローチ、特にdeepfake検出器のトレーニング中に目に見えない新興aiから合成画像を検出することです。 ユニバーサルディープフェイク検出には優れた一般化能力が必要である。 自己教師付き事前学習において優れた一般化を示した最近提案されたマスク画像モデリングに動機づけられ,ユニバーサルディープフェイク検出のためのマスク画像モデリングを初めて検討する。 深度検知器の空間・周波数領域マスキングについて検討した。 実験分析に基づいて,周波数マスキングによる新しいディープフェイク検出器を提案する。 周波数領域の焦点は、主に空間領域検出を対象とする多数派とは異なる。 比較分析の結果,既存手法に比べて性能が大幅に向上した。 コードとモデルは公開されている。

We study universal deepfake detection. Our goal is to detect synthetic images from a range of generative AI approaches, particularly from emerging ones which are unseen during training of the deepfake detector. Universal deepfake detection requires outstanding generalization capability. Motivated by recently proposed masked image modeling which has demonstrated excellent generalization in self-supervised pre-training, we make the first attempt to explore masked image modeling for universal deepfake detection. We study spatial and frequency domain masking in training deepfake detectors. Based on empirical analysis, we propose a novel deepfake detector via frequency masking. Our focus on frequency domain is different from the majority, which primarily target spatial domain detection. Our comparative analyses reveal substantial performance gains over existing methods. Code and models are publicly available.
翻訳日:2024-01-15 19:46:44 公開日:2024-01-12
# 代数的量子場理論の因果公理:診断

The Causal Axioms of Algebraic Quantum Field Theory: A Diagnostic ( http://arxiv.org/abs/2401.06504v1 )

ライセンス: Link先を確認
Francisco Calder\'on(参考訳) 代数的量子場理論(aqft)は、この理論を相対論的因果関係(spectrum condition)、微小因果性(microcausality)、原始因果性(primitive causality)の3つの「因果公理(causal axioms)」とする。 本稿では,aqftに適した因果関係は,相対論的因果i状態のデシデラタの一部のみを捉えたためか,あるいは各公理がそれぞれのデシデラタムをどのように実装するかが不明なため,いずれも完全には説明できないことを,最小限の技術的手法で示すことを目的とする。 この診断後,4番目の条件である局所的原始因果性(LPC)が,すべてのデシラタを満足する意味で相対論的因果性を完全に特徴付けることを示す。 しかし、Hag and Schroer (1962) による構築から見てもわかるように、他の公理の長所はそれらによって暗示されているからである。 3つの因果公理の結合は、lpcが含まないqftにおけるlpcや他の重要な結果を暗示するものであり、lpcは3つの公理の欠点のいくつかを明らかにするのに役立つので、私は、これらの公理がaqftの因果構造を文学における戦略に対してどのように特徴付けるかという全体論的解釈を提唱する。

Algebraic quantum field theory (AQFT) puts forward three "causal axioms" that aim to characterize the theory as one that implements relativistic causation: the spectrum condition, microcausality, and primitive causality. In this paper, I aim to show, in a minimally technical way, that none of them fully explains the notion of causation appropriate for AQFT because they only capture some of the desiderata for relativistic causation I state or because it is often unclear how each axiom implements its respective desideratum. After this diagnostic, I will show that a fourth condition, local primitive causality (LPC), fully characterizes relativistic causation in the sense of fulfilling all the relevant desiderata. However, it only encompasses the virtues of the other axioms because it is implied by them, as I will show from a construction by Haag and Schroer (1962). Since the conjunction of the three causal axioms implies LPC and other important results in QFT that LPC does not imply, and since LPC helps clarify some of the shortcomings of the three axioms, I advocate for a holistic interpretation of how the axioms characterize the causal structure of AQFT against the strategy in the literature to rivalize the axioms and privilege one among them.
翻訳日:2024-01-15 19:46:33 公開日:2024-01-12
# 空中画像における小型オブジェクト指向物体の検出の改善

Improving the Detection of Small Oriented Objects in Aerial Images ( http://arxiv.org/abs/2401.06503v1 )

ライセンス: Link先を確認
Chandler Timm C. Doloriel and Rhandley D. Cajote(参考訳) 大規模空中画像において小さな画素領域を表す小さな指向性物体は、その大きさと向きのため検出が困難である。 既存の指向型空中検出器は有望な結果を示しているが、主に対象のサイズについてはあまり重視されていない。 本研究では,対象物検出モデルの分類と回帰タスクを改良し,空中画像中の小型物体を高精度に検出する手法を提案する。 我々は2つの損失からなる注意点ネットワークをデザインした:導電性アテンション損失(galoss)とボックスポイント損失(bploss)である。 GALossはインスタンスセグメンテーションマスクを地平線として使用し、小さなオブジェクトの検出を改善するのに必要な注意機能を学ぶ。 これらの注目機能はBPLosのボックスポイントを予測するために使用され、ターゲット指向境界ボックスに対するポイントの位置を決定する。 実験結果は,小型オブジェクトインスタンス(dota-v1.5)と海洋関連データセット(hrsc2016)を用いた標準指向空中データセット上での注意点ネットワークの有効性を示す。 コードは公開されている。

Small oriented objects that represent tiny pixel-area in large-scale aerial images are difficult to detect due to their size and orientation. Existing oriented aerial detectors have shown promising results but are mainly focused on orientation modeling with less regard to the size of the objects. In this work, we proposed a method to accurately detect small oriented objects in aerial images by enhancing the classification and regression tasks of the oriented object detection model. We designed the Attention-Points Network consisting of two losses: Guided-Attention Loss (GALoss) and Box-Points Loss (BPLoss). GALoss uses an instance segmentation mask as ground-truth to learn the attention features needed to improve the detection of small objects. These attention features are then used to predict box points for BPLoss, which determines the points' position relative to the target oriented bounding box. Experimental results show the effectiveness of our Attention-Points Network on a standard oriented aerial dataset with small object instances (DOTA-v1.5) and on a maritime-related dataset (HRSC2016). The code is publicly available.
翻訳日:2024-01-15 19:45:34 公開日:2024-01-12
# マルチプランナUNetを用いた脳MRIデータの完全自動腫瘍分割

Fully Automated Tumor Segmentation for Brain MRI data using Multiplanner UNet ( http://arxiv.org/abs/2401.06499v1 )

ライセンス: Link先を確認
Sumit Pandey, Satyasaran Changdar, Mathias Perslev, Erik B Dam(参考訳) 小児脳腫瘍の正確な診断と治療計画には,腫瘍領域の自動分割が重要である。 本研究は,小児腫瘍チャレンジ(PED),脳転移チャレンジ(MET),サブサハラ・アフリカアダルトグリオーマ(SSA)の3つの課題にまたがる腫瘍サブリージョンの分類におけるマルチプランナーUネットワーク(MPUnet)アプローチの有効性について検討した。 これらのデータセットは多様なシナリオと解剖学的バリエーションを示し、MPUnetモデルの堅牢性と一般化能力を評価するのに適している。 MPUnetアーキテクチャは,多平面情報を利用することでセグメント化の精度を高めることを目的としている。 以上の結果より,腫瘍コア(TC)クラスは比較的高いセグメンテーション精度を示した。 しかし, 浮腫や造影腫瘍(ET)領域などの他のクラスでは, 変動が観察されている。 これらの知見は、脳腫瘍の分節の複雑さを強調し、MPUnetアプローチのさらなる改善とMRIのさらなるデータと前処理を含む可能性を強調した。

Automated segmentation of distinct tumor regions is critical for accurate diagnosis and treatment planning in pediatric brain tumors. This study evaluates the efficacy of the Multi-Planner U-Net (MPUnet) approach in segmenting different tumor subregions across three challenging datasets: Pediatrics Tumor Challenge (PED), Brain Metastasis Challenge (MET), and Sub-Sahara-Africa Adult Glioma (SSA). These datasets represent diverse scenarios and anatomical variations, making them suitable for assessing the robustness and generalization capabilities of the MPUnet model. By utilizing multi-planar information, the MPUnet architecture aims to enhance segmentation accuracy. Our results show varying performance levels across the evaluated challenges, with the tumor core (TC) class demonstrating relatively higher segmentation accuracy. However, variability is observed in the segmentation of other classes, such as the edema and enhancing tumor (ET) regions. These findings emphasize the complexity of brain tumor segmentation and highlight the potential for further refinement of the MPUnet approach and inclusion of MRI more data and preprocessing.
翻訳日:2024-01-15 19:45:00 公開日:2024-01-12
# 大学ドロップアウト予測における時間的・集団間変動

Temporal and Between-Group Variability in College Dropout Prediction ( http://arxiv.org/abs/2401.06498v1 )

ライセンス: Link先を確認
Dominik Glandorf, Hye Rin Lee, Gabe Avakian Orona, Marina Pumptow, Renzhe Yu, Christian Fischer(参考訳) 大規模行政データは、高等教育における大学退学早期警戒システムにおいて一般的な入力である。 それでも、用語と方法論は既存の研究によって大きく異なり、異なるモデリング決定の意味が完全には理解されていない。 本研究は,様々な学習グループにおける機械学習モデルの寄与要因と予測性能の系統的評価を提供する。 米国の大公立大学における12年間の行政データから,2年目のドロップアウト予測は,ランダムな森林モデルでの登録時よりも20%高いaucを持つことがわかった。 また、入学時の人口統計学や高校の成績など、ほとんどの予測要因は、大学の成績や入学行動によって予測される重要性において急速に取って代わられている。 学生集団間の多様性に関して、大学GPAは、伝統的に不利な背景を持つ学生にとって、仲間よりも予測的価値が高い。 これらの結果は、研究者や管理者が早期警告システムを構築し、特定のポリシー目標の下で決定を最適化する際に異なるデータソースの比較価値を理解するのに役立つ。

Large-scale administrative data is a common input in early warning systems for college dropout in higher education. Still, the terminology and methodology vary significantly across existing studies, and the implications of different modeling decisions are not fully understood. This study provides a systematic evaluation of contributing factors and predictive performance of machine learning models over time and across different student groups. Drawing on twelve years of administrative data at a large public university in the US, we find that dropout prediction at the end of the second year has a 20% higher AUC than at the time of enrollment in a Random Forest model. Also, most predictive factors at the time of enrollment, including demographics and high school performance, are quickly superseded in predictive importance by college performance and in later stages by enrollment behavior. Regarding variability across student groups, college GPA has more predictive value for students from traditionally disadvantaged backgrounds than their peers. These results can help researchers and administrators understand the comparative value of different data sources when building early warning systems and optimizing decisions under specific policy goals.
翻訳日:2024-01-15 19:44:27 公開日:2024-01-12
# 電子顕微鏡によるスピン共鳴分光

Spin Resonance Spectroscopy with an Electron Microscope ( http://arxiv.org/abs/2401.06496v1 )

ライセンス: Link先を確認
Philipp Haslinger, Stefan Nimmrichter, Dennis R\"atzel(参考訳) 核磁気共鳴や電子スピン共鳴分光法のようなコヒーレントスピン共鳴法は、スペクトル的に高感度で非侵襲的な量子イメージング技術をもたらす。 本稿では、マイクロ波ポンプ場と電子プローブに基づく電子顕微鏡のためのポンプ-プローブスピン共鳴分光法を提案する。 量子スピン系が磁気モーメントを通して電子物質にどのように結合し、その結果の位相シフトを利用してこれらの系の状態やダイナミクスに関する情報を得るかを検討する。 特に、最先端の透過電子顕微鏡は、単一の電子スピンによる位相シフトをほぼ同程度に検出する手段を提供する。 これにより、ナノスケールでのスピンダイナミクスの状態を選択的に観察し、観察されたスピン系の環境を間接的に測定し、例えば原子構造、局所化学組成、隣り合うスピンに関する情報を提供することができる。

Coherent spin resonance methods, such as nuclear magnetic resonance and electron spin resonance spectroscopy, have led to spectrally highly sensitive, non-invasive quantum imaging techniques. Here, we propose a pump-probe spin resonance spectroscopy approach, designed for electron microscopy, based on microwave pump fields and electron probes. We investigate how quantum spin systems couple to electron matter waves through their magnetic moments and how the resulting phase shifts can be utilized to gain information about the states and dynamics of these systems. Notably, state-of-the-art transmission electron microscopy provides the means to detect phase shifts almost as small as that due to a single electron spin. This could enable state-selective observation of spin dynamics on the nanoscale and indirect measurement of the environment of the examined spin systems, providing information, for example, on the atomic structure, local chemical composition and neighboring spins.
翻訳日:2024-01-15 19:43:27 公開日:2024-01-12
# BERTとDistilBERTにおける性バイアスの原因となる構造の検討

An investigation of structures responsible for gender bias in BERT and DistilBERT ( http://arxiv.org/abs/2401.06495v1 )

ライセンス: Link先を確認
Thibaud Leteno, Antoine Gourru, Charlotte Laclau, Christophe Gravier(参考訳) 近年,大きなトランスフォーマーベースの事前学習言語モデル (PLM) は,多種多様なタスクにおいて最先端の性能境界を推し進めることで,自然言語処理(NLP)の状況を変えている。 しかし、このパフォーマンス向上は複雑さの増加と共に進み、結果として、そのようなモデルのサイズ(最大10億のパラメータ)は、組み込みデバイスやショート推論タイムタスクへのデプロイの制約を表している。 この状況に対処するため、圧縮モデル(例えば DistilBERT)が出現し、日々の生活に影響を及ぼす多くのアプリケーションで彼らの使用を民主化した。 重要な問題は、PLMと蒸留した両者による予測の公平性である。 本稿では,BERT(および拡張DistilBERT)における性バイアスの原因となる神経メカニズムを同定できるか,という2つの疑問を定式化することによって,この問題を実証的に探究する。 2)蒸留は、性バイアスをアクセントまたは緩和する傾向があるか(例えば、 DistilBERTは、非圧縮版であるBERTよりも性バイアスに傾向があるか)。 その結果, (I) バイアスを発生させる特定の層を特定することはできない; (II) 全ての注意頭はバイアスを均一に符号化する; (II) 感度特性のバランスの低いクラスでは, (III) この頭の部分集合は, ネットワークを調整した時に異なる; (IV) バイアスは蒸留モデルの頭によってより均一に生成される。

In recent years, large Transformer-based Pre-trained Language Models (PLM) have changed the Natural Language Processing (NLP) landscape, by pushing the performance boundaries of the state-of-the-art on a wide variety of tasks. However, this performance gain goes along with an increase in complexity, and as a result, the size of such models (up to billions of parameters) represents a constraint for their deployment on embedded devices or short-inference time tasks. To cope with this situation, compressed models emerged (e.g. DistilBERT), democratizing their usage in a growing number of applications that impact our daily lives. A crucial issue is the fairness of the predictions made by both PLMs and their distilled counterparts. In this paper, we propose an empirical exploration of this problem by formalizing two questions: (1) Can we identify the neural mechanism(s) responsible for gender bias in BERT (and by extension DistilBERT)? (2) Does distillation tend to accentuate or mitigate gender bias (e.g. is DistilBERT more prone to gender bias than its uncompressed version, BERT)? Our findings are the following: (I) one cannot identify a specific layer that produces bias; (II) every attention head uniformly encodes bias; except in the context of underrepresented classes with a high imbalance of the sensitive attribute; (III) this subset of heads is different as we re-fine tune the network; (IV) bias is more homogeneously produced by the heads in the distilled model.
翻訳日:2024-01-15 19:43:02 公開日:2024-01-12
# shapley-like score of boolean functions: 複雑性と確率的データベースへの応用

Expected Shapley-Like Scores of Boolean Functions: Complexity and Applications to Probabilistic Databases ( http://arxiv.org/abs/2401.06493v1 )

ライセンス: Link先を確認
Pratik Karmakar, Mika\"el Monet, Pierre Senellart, St\'ephane Bressan(参考訳) 共有値はゲーム理論を起源とし、説明可能なAIにおいてますます顕著になっているが、データベース上の問い合わせ応答における事実の寄与を評価するために提案されている。 この作業では、これらのシェープのようなスコアを確率的設定に適応させ、その目的は期待値を計算することである。 本研究では,期待されるシェープリー値とブール関数の期待値の計算が多項式時間で解釈可能であることを示す。 本研究では,ブール関数を決定論的分解可能回路として表現する特定の扱いやすい場合について検討し,多項式時間アルゴリズムを設計した。 本稿では,データベースプロヴァンスによる確率的データベースへの応用と,このアルゴリズムを標準ベンチマーク上で実験的に検証するprovsqlシステムにおける効果的な実装を提案する。

Shapley values, originating in game theory and increasingly prominent in explainable AI, have been proposed to assess the contribution of facts in query answering over databases, along with other similar power indices such as Banzhaf values. In this work we adapt these Shapley-like scores to probabilistic settings, the objective being to compute their expected value. We show that the computations of expected Shapley values and of the expected values of Boolean functions are interreducible in polynomial time, thus obtaining the same tractability landscape. We investigate the specific tractable case where Boolean functions are represented as deterministic decomposable circuits, designing a polynomial-time algorithm for this setting. We present applications to probabilistic databases through database provenance, and an effective implementation of this algorithm within the ProvSQL system, which experimentally validates its feasibility over a standard benchmark.
翻訳日:2024-01-15 19:42:29 公開日:2024-01-12
# Webのためのエネルギーパターン:探索的研究

Energy Patterns for Web: An Exploratory Study ( http://arxiv.org/abs/2401.06482v1 )

ライセンス: Link先を確認
Pooja Rani, Jonas Zellweger, Veronika Kousadianos, Luis Cruz, Timo Kehrer, Alberto Bacchelli(参考訳) ソフトウェアが生み出すエネルギーフットプリントが警戒速度で増大しているため、エネルギー効率の良いアプリケーションを開発する方法を理解する必要がある。 以前の研究は、エネルギーパターンとしても知られるコーディングプラクティスのカタログを導入した。 これらのパターンはモバイルやサードパーティのライブラリに限られている。 本研究では,エネルギー消費の主な源である web ドメインに注目した。 まず,モバイルエネルギーパターンをこの領域に移植できるかどうかを検討したところ,20パターンを移植できることがわかった。 そして、さまざまな企業のエキスパートWeb開発者6人にインタビューして、移植されたパターンに挑戦しました。 ほとんどの開発者は、特に機能的なアンチパターンに関する懸念を表明し、ソースコードにこれらのパターンを見つけるためのガイドラインを策定することができた。 最後に,Web エネルギーパターンがエネルギー消費に与える影響を定量化するために,'Dynamic Retry Delay' (DRD) と 'Open Only When Necessary' (OOWN) の2つの移植パターンを評価する自動パイプラインを構築した。 これにより、DRDパターンがアンチパターンよりも少ないエネルギーを消費することを示す証拠は得られず、OOWNでは逆が成り立つ。 データと素材: https://doi.org/10.5281/zenodo.8404487

As the energy footprint generated by software is increasing at an alarming rate, understanding how to develop energy-efficient applications has become a necessity. Previous work has introduced catalogs of coding practices, also known as energy patterns. These patterns are yet limited to Mobile or third-party libraries. In this study, we focus on the Web domain--a main source of energy consumption. First, we investigated whether and how Mobile energy patterns could be ported to this domain and found that 20 patterns could be ported. Then, we interviewed six expert web developers from different companies to challenge the ported patterns. Most developers expressed concerns for antipatterns, specifically with functional antipatterns, and were able to formulate guidelines to locate these patterns in the source code. Finally, to quantify the effect of Web energy patterns on energy consumption, we set up an automated pipeline to evaluate two ported patterns: 'Dynamic Retry Delay' (DRD) and 'Open Only When Necessary' (OOWN). With this, we found no evidence that the DRD pattern consumes less energy than its antipattern, while the opposite is true for OOWN. Data and Material: https://doi.org/10.5281/zenodo.8404487
翻訳日:2024-01-15 19:42:11 公開日:2024-01-12
# 言語間文書表現のための変換器レバレッジ埋め込み

Mapping Transformer Leveraged Embeddings for Cross-Lingual Document Representation ( http://arxiv.org/abs/2401.06583v1 )

ライセンス: Link先を確認
Tsegaye Misikir Tashu, Eduard-Raul Kontos, Matthia Sabatelli, Matias Valdenegro-Toro(参考訳) ドキュメントのレコメンデーションシステムは、Web上で関連コンテンツを見つけるためのツールになっている。 しかし、これらのシステムはクエリ言語とは異なる言語でのドキュメントの推奨に関して制限があるため、非ネイティブ言語のリソースを見落としてしまう可能性がある。 本研究では,言語横断ドメインにマッピングされたTransformer Leveraged Document Representations (TLDR)を用いて,言語間の文書表現に焦点を当てた。 MBERT, mT5 XLM RoBERTa, ErnieMの4つの多言語事前学習変圧器モデルについて, 欧州連合の5つの言語の組み合わせを表す20言語対の3つのマッピング手法を用いて評価した。 被写体検索率や相互ランクなどの指標を用いてマッピングされたtldrの有効性を測定した。 その結果、事前訓練されたトランスフォーマーとマッピングアプローチによって達成される言語間表現のパワーを強調し、二つの特定の言語間の言語接続を超えて拡張するための有望な方向性を提案する。

Recommendation systems, for documents, have become tools to find relevant content on the Web. However, these systems have limitations when it comes to recommending documents in languages different from the query language, which means they might overlook resources in non-native languages. This research focuses on representing documents across languages by using Transformer Leveraged Document Representations (TLDRs) that are mapped to a cross-lingual domain. Four multilingual pre-trained transformer models (mBERT, mT5 XLM RoBERTa, ErnieM) were evaluated using three mapping methods across 20 language pairs representing combinations of five selected languages of the European Union. Metrics like Mate Retrieval Rate and Reciprocal Rank were used to measure the effectiveness of mapped TLDRs compared to non-mapped ones. The results highlight the power of cross-lingual representations achieved through pre-trained transformers and mapping approaches suggesting a promising direction for expanding beyond language connections, between two specific languages.
翻訳日:2024-01-15 19:35:32 公開日:2024-01-12
# リモートセンシング画像とマルチセマンティクス情報を用いた都市機能領域検出のためのマルチモーダル学習

Multimodal Learning for detecting urban functional zones using remote sensing image and multi-semantic information ( http://arxiv.org/abs/2401.06550v1 )

ライセンス: Link先を確認
Chuanji Shi, Yingying Zhang, Jiaotuan Wang and Qiqi Zhu(参考訳) アーバン・エリア・オブ・インタレスト(urban area-of-interest、aoi)は、定義された境界を持つ統合的な都市機能ゾーンである。 都市商業の急速な発展により、AOIを定義するためのより正確な要件に対する需要が高まっている。 しかし、既存の研究は主に都市計画や地域経済分析のための広いAOI鉱業に集中しており、モバイルインターネット・オンライン・オフラインビジネスの正確な要求に応えていない。 これらのビジネスは、特定のコミュニティ、学校、病院まで正確さを必要とする。 本稿では、リモートセンシング画像とマルチセマンティック参照情報を用いて、AOIフェンスポリゴンを検出するエンドツーエンドのマルチモーダルディープラーニングアルゴリズムを提案する。 次に、動的な人体移動と物流アドレス情報を含むカスケードモジュールを用いて、そのタイムラインを評価する。 具体的には、特定のカテゴリのポイント・オブ・関心(POI)を選択して、それを使って対応するリモートセンシング画像、近くのPOI、道路ノード、人間の移動性、物流アドレスをリコールし、トランスフォーマーエンコーダ・デコーダアーキテクチャ(AOITR)に基づくマルチモーダル検出モデルを構築する。 このモデルでは、リモートセンシング画像に加えて、コアPOIとロードノードを含むマルチセマンティック情報を、トランスフォーマーデコーダのクエリコンテンツ部として埋め込み再編成し、AOIポリゴンを生成する。 一方,人間の移動性,近傍pois,ロジスティクスアドレスの比較的ダイナミックな分布特性は,逐次的なフィードフォワードネットワークによるaoi信頼性評価に用いられる。 実験の結果,本アルゴリズムは既存の2つの手法を大きく上回ることがわかった。

Urban area-of-interest (AOI) refers to an integrated urban functional zone with defined boundaries. The rapid development of urban commerce has resulted in an increased demand for more precise requirements in defining AOIs. However, existing research primarily concentrates on broad AOI mining for urban planning or regional economic analysis, failing to cater to the precise requirements of mobile Internet online-to-offline businesses. These businesses necessitate accuracy down to a specific community, school, or hospital. In this paper, we propose an end-to-end multimodal deep learning algorithm for detecting AOI fence polygon using remote sensing images and multi-semantics reference information. We then evaluate its timeliness through a cascaded module that incorporates dynamic human mobility and logistics address information. Specifically, we begin by selecting a point-of-interest (POI) of specific category, and use it to recall corresponding remote sensing images, nearby POIs, road nodes, human mobility, and logistics addresses to build a multimodal detection model based on transformer encoder-decoder architecture, titled AOITR. In the model, in addition to the remote sensing images, multi-semantic information including core POI and road nodes is embedded and reorganized as the query content part for the transformer decoder to generate the AOI polygon. Meanwhile, relatively dynamic distribution features of human mobility, nearby POIs, and logistics addresses are used for AOI reliability evaluation through a cascaded feedforward network. The experimental results demonstrate that our algorithm significantly outperforms two existing methods.
翻訳日:2024-01-15 19:35:14 公開日:2024-01-12
# マグノニック渦量子共振器を用いた走査スピンプローブ

Scanning spin probe based on magnonic vortex quantum cavities ( http://arxiv.org/abs/2401.06549v1 )

ライセンス: Link先を確認
Carlos A. Gonz\'alez-Guti\'errez, David Garc\'ia-Pons, David Zueco, and Mar\'ia Jos\'e Mart\'inez-P\'erez(参考訳) ナノスケール走査型電子常磁性共鳴(EPR)は3つの必須成分を必要とする。 まず、静磁場と磁場勾配を合わせて、ゼーマンが電子エネルギー準位を空間分解能で割った。 第2に、スピン遷移を誘導できる高周波(rf)磁場である。 最後に、スピンによって吸収されるエネルギーを定量化する感度検出方法。 これは通常、外部に応用された磁場と誘導コイルやキャビティ、蛍光欠陥、走査プローブを組み合わせることで達成される。 ここでは, 強磁性薄膜ディスクに安定化された渦コアの3つの特性を1つのデバイスにマージしたEPR走査センサの実現を理論的に提案する。 一方、渦基底状態は重要な静磁場と磁場勾配を生成する。 一方、渦コアの平衡位置付近での運動は円偏光振動磁場を発生させ、スピン遷移を発生させるのに十分である。 最後に、スピン-マグノンカップリングは渦異方性周波数を拡大し、不対電子の存在を直接測定することを示唆する。 さらに、数mTの外部磁場だけで渦コアを変位させることができ、空間分解能の大きなEPR走査顕微鏡が可能となる。 我々の数値シミュレーションは、低減衰磁石を用いることで、理論上はディスクの表面にある単一スピンを検出することができることを示している。 渦ナノキャビティは個々のスピン分子量子ビットとの強い結合も達成でき、量子ビット-量子ビット相互作用の仲介や量子ビット読み取りプロトコルの実装にも応用できる。

Performing nanoscale scanning electron paramagnetic resonance (EPR) requires three essential ingredients. First, a static magnetic field together to field gradients to Zeeman split the electronic energy levels with spatial resolution. Second, a radiofrequency (rf) magnetic field capable of inducing spin transitions. Finally, a sensitive detection method to quantify the energy absorbed by spins. This is usually achieved by combining externally applied magnetic fields with inductive coils or cavities, fluorescent defects or scanning probes. Here, we {\color{black} theoretically propose the realization of a EPR scanning sensor merging all three characteristics into a single device}: the vortex core stabilized in ferromagnetic thin-film discs. On one hand, the vortex ground state generates a significant static magnetic field and field gradients. On the other hand, the precessional motion of the vortex core around its equilibrium position produces a circularly polarized oscillating magnetic field, which is enough to produce spin transitions. Finally, the spin-magnon coupling broadens the vortex gyrotropic frequency, {\color{black} suggesting} a direct measure of the presence of unpaired electrons. Moreover, the vortex core can be displaced by simply using external magnetic fields of a few mT, enabling EPR scanning microscopy with large spatial resolution. Our {\color{black} numerical} simulations show that, by using low damping magnets, it is {\color{black} theoretically} possible to detect single spins located on the disc's surface. Vortex nanocavities could also attain strong coupling to individual spin molecular qubits, with potential applications to mediate qubit-qubit interactions or to implement qubit readout protocols.
翻訳日:2024-01-15 19:34:48 公開日:2024-01-12
# 一貫性の強化とバイアス緩和 - インクリメンタル学習のためのデータリプレイアプローチ

Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning ( http://arxiv.org/abs/2401.06548v1 )

ライセンス: Link先を確認
Chenyang Wang, Junjun Jiang, Xingyu Hu, Xianming Liu, Xiangyang Ji(参考訳) ディープラーニングシステムは、新しいタスクから学習する際に経験豊富なタスクから古いデータが利用できない、一連のタスクから学習するとき、壊滅的な忘れがちである。 問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。 これらのメソッドは通常、リプレイ用のデータを格納するために余分なメモリを使用する。 しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。 代替として,分類モデルからサンプルを反転してデータフリーデータ再生手法を提案する。 良好な結果を得たにもかかわらず、これらの手法は、最近の作品の反転段階において無視される、反転訓練データと実際の訓練データの矛盾に苦しむ。 そこで本研究では,データ一貫性を単純化と仮定によって定量的に計測する手法を提案する。 この測定により,サンプルを逆転させる既存の手法を解析し,新しい損失関数を誘導する洞察力のある情報を得た。 具体的には、この損失は連続学習において容易に実装できる多変量ガウス仮定の下で、逆データと実データの分布のKL分散を最小化する。 さらに,学習が進むにつれて,古いクラスの重み付けのノルムが徐々に減少していくのを観察する。 そこで,基礎となる理由を分析し,クラス重みのバランスをとるための簡単な正規化項を提案する。 結論として,クラスインクリメンタル学習(ccil)のためのdebiased classifierを用いた一貫性強化データ再生を提案する。 CIFAR-100、Tiny-ImageNet、ImageNet100の大規模な実験は、CCILの性能を従来のアプローチと比べて一貫して改善している。

Deep learning systems are prone to catastrophic forgetting when learning from a sequence of tasks, where old data from experienced tasks is unavailable when learning from a new task. To mitigate the problem, a line of methods propose to replay the data of experienced tasks when learning new tasks. These methods usually adopt an extra memory to store the data for replay. However, it is not expected in practice considering the memory constraint or data privacy issue. As a replacement, data-free data replay methods are proposed by inverting samples from the classification model. Though achieving good results, these methods still suffer from the inconsistency of the inverted and real training data, which is neglected in the inversion stage in recent works. To that effect, we propose to measure the data consistency quantitatively by some simplification and assumptions. Using the measurement, we analyze existing techniques for inverting samples and get some insightful information that inspires a novel loss function to reduce the inconsistency. Specifically, the loss minimizes the KL divergence of the distributions of inverted and real data under the tied multivariate Gaussian assumption, which is easy to implement in continual learning. In addition, we observe that the norms of old class weights turn to decrease continually as learning progresses. We thus analyze the underlying reasons and propose a simple regularization term to balance the class weights so that the samples of old classes are more distinguishable. To conclude, we propose the Consistency enhanced data replay with debiased classifier for Class Incremental Learning (CCIL). Extensive experiments on CIFAR-100, Tiny-ImageNet, and ImageNet100 show consistently improved performance of CCIL compared to previous approaches.
翻訳日:2024-01-15 19:34:23 公開日:2024-01-12
# 雑音ラベルを用いた二項分類における特徴選択の最適化:遺伝的アルゴリズムによるアプローチ

Optimizing Feature Selection for Binary Classification with Noisy Labels: A Genetic Algorithm Approach ( http://arxiv.org/abs/2401.06546v1 )

ライセンス: Link先を確認
Vandad Imani, Elaheh Moradi, Carlos Sevilla-Salcedo, Vittorio Fortino, Jussi Tohka(参考訳) ノイズの多いラベルシナリオにおける機能選択は、まだ未検討のトピックである。 本稿では,雑音ラベル付きバイナリ分類における最適特徴集合を選択するための,新しい遺伝的アルゴリズムに基づくノイズ対応多目的特徴選択遺伝的アルゴリズム(nmfs-ga)を提案する。 NMFS-GAは、正確かつ解釈可能な機能サブセットを選択するための統一されたフレームワークを提供する。 nmfs-gaをラベルノイズのある合成データセット、ノイズの多い乳がんデータセット、認知症変換予測のための実世界adniデータセットで評価する。 以上の結果から,NMFS-GAは,雑音ラベル付きシナリオにおけるバイナリ分類器の精度と解釈性を向上させる機能サブセットを効果的に選択できることが示唆された。

Feature selection in noisy label scenarios remains an understudied topic. We propose a novel genetic algorithm-based approach, the Noise-Aware Multi-Objective Feature Selection Genetic Algorithm (NMFS-GA), for selecting optimal feature subsets in binary classification with noisy labels. NMFS-GA offers a unified framework for selecting feature subsets that are both accurate and interpretable. We evaluate NMFS-GA on synthetic datasets with label noise, a Breast Cancer dataset enriched with noisy features, and a real-world ADNI dataset for dementia conversion prediction. Our results indicate that NMFS-GA can effectively select feature subsets that improve the accuracy and interpretability of binary classifiers in scenarios with noisy labels.
翻訳日:2024-01-15 19:33:53 公開日:2024-01-12
# 逐次測定量子系における漁業情報率

Fisher information rates in sequentially measured quantum systems ( http://arxiv.org/abs/2401.06543v1 )

ライセンス: Link先を確認
Eoin O'Connor, Steve Campbell, Gabriel T. Landi(参考訳) 計測統計における時間相関が逐次的計測プロトコルの達成可能な精度に与える影響について考察する。 この設定において、1つの量子プローブについて、精度の決定に最も重要な役割を果たす測定基底状態間の遷移であり、結果として得られる条件付きフィッシャー情報は情報取得の速度として解釈可能であることを確かめる。 プロジェクティブ測定は、2つの異なる推定設定でこれをエレガントに示す。 第一に、環境の温度を決定するとき、第二に、ハミルトニアン系のパラメータを確認することである。 いずれの設定においても,逐次推定手法は,実現可能な精度を高めるための有用な手法であることを示す。

We consider the impact that temporal correlations in the measurement statistics can have on the achievable precision in a sequential metrological protocol. In this setting, and for a single quantum probe, we establish that it is the transitions between the measurement basis states that plays the most significant role in determining the precision, with the resulting conditional Fisher information being interpretable as a rate of information acquisition. Projective measurements are shown to elegantly demonstrate this in two disparate estimation settings. Firstly, in determining the temperature of an environment and, secondly, to ascertain a parameter of the system Hamiltonian. In both settings we show that the sequential estimation approach can provide a useful method to enhance the achievable precision.
翻訳日:2024-01-15 19:33:39 公開日:2024-01-12
# 自律運転におけるロバスト性を考慮した3次元物体検出:レビューと展望

Robustness-Aware 3D Object Detection in Autonomous Driving: A Review and Outlook ( http://arxiv.org/abs/2401.06542v1 )

ライセンス: Link先を確認
Ziying Song, Lin Liu, Feiyang Jia, Yadan Luo, Guoxin Zhang, Lei Yang, Li Wang, Caiyan Jia(参考訳) 現代の自律運転の領域では、周囲環境の状態を正確に評価するためには認識システムが不可欠であり、情報予測と計画を可能にする。 このシステムのキーとなる3Dオブジェクト検出方法は、LiDARやカメラなどの車載センサーを使って、近くの物体のサイズ、カテゴリー、位置を識別する。 検出精度と効率の向上を目的とした3次元物体検出手法の急増にもかかわらず,環境変動,騒音,気象変動に対するレジリエンスを体系的に検討する文献にギャップがある。 本研究は,現実シナリオ下での知覚システム評価において,精度と遅延とともに頑健性の重要性を強調した。 本研究は,カメラベース,ライダーベース,マルチモーダル3dオブジェクト検出アルゴリズムの広範な調査を行い,精度,レイテンシ,堅牢性,特にkitti-cやnuscenes-cなどのデータセットのトレードオフを徹底的に評価し,公平な比較を行う。 これらのうち, マルチモーダル3次元検出手法はロバスト性に優れ, 新たな分類法が導入された。 本調査は,実世界における3次元物体検出アルゴリズムの現状と制約について,より実用的な視点を提供することを目的としている。

In the realm of modern autonomous driving, the perception system is indispensable for accurately assessing the state of the surrounding environment, thereby enabling informed prediction and planning. Key to this system is 3D object detection methods, that utilize vehicle-mounted sensors such as LiDAR and cameras to identify the size, category, and location of nearby objects. Despite the surge in 3D object detection methods aimed at enhancing detection precision and efficiency, there is a gap in the literature that systematically examines their resilience against environmental variations, noise, and weather changes. This study emphasizes the importance of robustness, alongside accuracy and latency, in evaluating perception systems under practical scenarios. Our work presents an extensive survey of camera-based, LiDAR-based, and multimodal 3D object detection algorithms, thoroughly evaluating their trade-off between accuracy, latency, and robustness, particularly on datasets like KITTI-C and nuScenes-C to ensure fair comparisons. Among these,multimodal 3D detection approaches exhibit superior robustness and a novel taxonomy is introduced to reorganize its literature for enhanced clarity. This survey aims to offer a more practical perspective on the current capabilities and constraints of 3D object detection algorithms in real-world applications, thus steering future research towards robustness-centric advancements
翻訳日:2024-01-15 19:33:27 公開日:2024-01-12
# 直観的分析的鑑別診断による医用対話生成

Medical Dialogue Generation via Intuitive-then-Analytical Differential Diagnosis ( http://arxiv.org/abs/2401.06541v1 )

ライセンス: Link先を確認
Kaishuai Xu, Wenjun Hou, Yi Cheng, Jian Wang, Wenjie Li(参考訳) 医療対話システムは、迅速な診断、治療計画、健康相談を提供する可能性があり、研究の注目を集めている。 医学的な対話では、将来の相談の基礎を確立するために適切な診断が不可欠である。 臨床医は典型的には直感的かつ分析的な推論を使って鑑別診断を行う。 この推論プロセスは、様々な病気を仮説化し検証し、包括的で厳密な診断を生成する。 しかし,近年の医療対話生成研究では,鑑別診断のモデル化の重要性を見落としており,実用化が妨げられている。 以上の課題に対処するため,直観的分析微分診断(IADDx)を用いた医用対話生成フレームワークを提案する。 本手法は, 検索に基づく直感的関連による鑑別診断から始まり, グラフ強調分析法を用いて精錬する。 結果として得られた鑑別診断は、医学的知識の検索とガイド応答の生成に使用される。 提案手法の有効性を2つのデータセットで検証した。 また, 中間結果やグラフベースの診断経路を作成できるなど, 臨床医と患者の両方が診断過程を理解するのに, フレームワークがどのように役立つかを実証する。

Medical dialogue systems have attracted growing research attention as they have the potential to provide rapid diagnoses, treatment plans, and health consultations. In medical dialogues, a proper diagnosis is crucial as it establishes the foundation for future consultations. Clinicians typically employ both intuitive and analytic reasoning to formulate a differential diagnosis. This reasoning process hypothesizes and verifies a variety of possible diseases and strives to generate a comprehensive and rigorous diagnosis. However, recent studies on medical dialogue generation have overlooked the significance of modeling a differential diagnosis, which hinders the practical application of these systems. To address the above issue, we propose a medical dialogue generation framework with the Intuitive-then-Analytic Differential Diagnosis (IADDx). Our method starts with a differential diagnosis via retrieval-based intuitive association and subsequently refines it through a graph-enhanced analytic procedure. The resulting differential diagnosis is then used to retrieve medical knowledge and guide response generation. Experimental results on two datasets validate the efficacy of our method. Besides, we demonstrate how our framework assists both clinicians and patients in understanding the diagnostic process, for instance, by producing intermediate results and graph-based diagnosis paths.
翻訳日:2024-01-15 19:33:01 公開日:2024-01-12
# ネットワークスライシングのためのインテリジェントデータ駆動アーキテクチャ機能オーケストレーション

Intelligent Data-Driven Architectural Features Orchestration for Network Slicing ( http://arxiv.org/abs/2401.06538v1 )

ライセンス: Link先を確認
Rodrigo Moreira, Flavio de Oliveira Silva, Tereza Cristina Melo de Brito Carvalho, Joberto S. B. Martins(参考訳) ネットワークスライシングは、次世代モバイルネットワーク(NGMN)や、Internet of Vehicles(IoV)やIndustrial IoT(IIoT)など、さまざまな新しいシステムにとって、重要な実現手段でありトレンドである。 NSプロセスはリソースと機能をオーケストレーションする必要があるため、オーケストレーションと機械学習は、ネットワークスライシングプロセスにおいて重要な役割を持つ重要な要素である。 しかし、既存のネットワークスライシングアーキテクチャには、スライシングプロセスで機能やリソースをオーケストレーションするインテリジェントなアプローチを定義する能力がない。 本稿では,機械学習によるネットワークスライシングアーキテクチャの機能と機能のオーケストレーションについて述べる。 まず、スライスリソースのオーケストレーションと、スライス計画、構成、コミッション、運用フェーズにおける割り当てを分析する。 順に、最適化されたアーキテクチャ機能オーケストレーションの必要性を強調し、ML組み込みエージェントの使用、知識獲得のためのフェデレーション学習固有のメカニズム、そしてネットワークスライシングアーキテクチャに埋め込まれたデータ駆動アプローチを推奨する。 SFI2ネットワークスライシングアーキテクチャに組み込まれたアーキテクチャ機能オーケストレーションケースをさらに開発する。 分散組込みおよび協調MLエージェントを用いたSFI2アーキテクチャに対する攻撃防止セキュリティ機構を開発した。 提示されたケースは、アーキテクチャ機能のオーケストレーションプロセスとメリットを示し、ネットワークスライシングプロセスの重要性を強調している。

Network slicing is a crucial enabler and a trend for the Next Generation Mobile Network (NGMN) and various other new systems like the Internet of Vehicles (IoV) and Industrial IoT (IIoT). Orchestration and machine learning are key elements with a crucial role in the network-slicing processes since the NS process needs to orchestrate resources and functionalities, and machine learning can potentially optimize the orchestration process. However, existing network-slicing architectures lack the ability to define intelligent approaches to orchestrate features and resources in the slicing process. This paper discusses machine learning-based orchestration of features and capabilities in network slicing architectures. Initially, the slice resource orchestration and allocation in the slicing planning, configuration, commissioning, and operation phases are analyzed. In sequence, we highlight the need for optimized architectural feature orchestration and recommend using ML-embed agents, federated learning intrinsic mechanisms for knowledge acquisition, and a data-driven approach embedded in the network slicing architecture. We further develop an architectural features orchestration case embedded in the SFI2 network slicing architecture. An attack prevention security mechanism is developed for the SFI2 architecture using distributed embedded and cooperating ML agents. The case presented illustrates the architectural feature's orchestration process and benefits, highlighting its importance for the network slicing process.
翻訳日:2024-01-15 19:32:40 公開日:2024-01-12
# ノイズモデルとnisqデバイスを用いた誤り緩和によるオープン量子システムシミュレーション

Simulating open quantum systems using noise models and NISQ devices with error mitigation ( http://arxiv.org/abs/2401.06535v1 )

ライセンス: Link先を確認
Mainak Roy, Jessica John Britto, Ryan Hill, and Victor Onofre(参考訳) 本研究では、2つのOpen Quantum Systemモデル(CollisionalとMarkovian Reservoir)、ノイズシミュレーション、IBMデバイス(\textit{ibm_kyoto}$, $\textit{ibm_osaka}$)、OQCデバイス(Lucy)のシミュレーションを紹介する。 Garc\'ia-P\'erez, et al。 [npj量子情報 6.1 (2020): 1] Mitiq ツールキットを用いて,ゼロノイズ外挿法 (ZNE) を誤差緩和法に適用し,実験対象モデルの理論的結果からそれらの偏差を解析する。 両モデルとも,ZNEを適用することにより,誤差を低減し,理論的結果と重なり合うことができた。 シミュレーションと実験はすべて、qbraid環境で行われました。

In this work, we present simulations of two Open Quantum System models, Collisional and Markovian Reservoir, with noise simulations, the IBM devices ($\textit{ibm_kyoto}$, $\textit{ibm_osaka}$) and the OQC device Lucy. Extending the results of Garc\'ia-P\'erez, et al. [npj Quantum Information 6.1 (2020): 1]. Using the Mitiq toolkit, we apply Zero-Noise extrapolation (ZNE), an error mitigation technique, and analyze their deviation from the theoretical results for the models under study. For both models, by applying ZNE, we were able to reduce the error and overlap it with the theoretical results. All our simulations and experiments were done in the qBraid environment.
翻訳日:2024-01-15 19:32:18 公開日:2024-01-12
# inters: インストラクションチューニングによる検索における大規模言語モデルのパワーアンロック

INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning ( http://arxiv.org/abs/2401.06532v1 )

ライセンス: Link先を確認
Yutao Zhu, Peitian Zhang, Chenghao Zhang, Yifei Chen, Binyu Xie, Zhicheng Dou, Zheng Liu, and Ji-Rong Wen(参考訳) 大規模言語モデル(llm)は、様々な自然言語処理タスクにおいて印象的な能力を示している。 それにもかかわらず、情報検索(IR)タスクへの適用は、自然言語における多くのIR固有の概念が頻繁に発生するため、依然として困難である。 プロンプトベースの手法は LLM にタスク記述を提供することができるが、IR タスクの包括的な理解と実行を容易化することで LLM の適用性を制限することがしばしばある。 このギャップに対処するため、本研究では、IRタスクにおけるLLMの習熟度を高めるための命令チューニングの可能性を探る。 我々は,クエリ理解,文書理解,クエリ-ドキュメント関係理解という3つの基本的なirカテゴリにわたる21のタスクを包含する,新しい命令チューニングデータセットであるintersを導入する。 データは、手書きのテンプレートを持つ43の異なるデータセットから導出される。 実験の結果, InterS はLLaMA, Mistral, Phi などの公開 LLM の検索タスクにおける性能を著しく向上させることがわかった。 さらに,ベースモデル選択,命令設計,命令量,タスク種別が性能に与える影響を確認するため,総合的な分析を行った。 私たちはデータセットとモデルをhttps://github.com/DaoD/INTERS.comで公開して公開しています。

Large language models (LLMs) have demonstrated impressive capabilities in various natural language processing tasks. Despite this, their application to information retrieval (IR) tasks is still challenging due to the infrequent occurrence of many IR-specific concepts in natural language. While prompt-based methods can provide task descriptions to LLMs, they often fall short in facilitating comprehensive understanding and execution of IR tasks, thereby limiting LLMs' applicability. To address this gap, in this work, we explore the potential of instruction tuning to enhance LLMs' proficiency in IR tasks. We introduce a novel instruction tuning dataset, INTERS, encompassing 21 tasks across three fundamental IR categories: query understanding, document understanding, and query-document relationship understanding. The data are derived from 43 distinct datasets with manually written templates. Our empirical results reveal that INTERS significantly boosts the performance of various publicly available LLMs, such as LLaMA, Mistral, and Phi, in search-related tasks. Furthermore, we conduct a comprehensive analysis to ascertain the effects of base model selection, instruction design, volume of instructions, and task variety on performance. We make our dataset and the models fine-tuned on it publicly accessible at https://github.com/DaoD/INTERS.
翻訳日:2024-01-15 19:31:59 公開日:2024-01-12
# 継続的開発における産業的課題

Industrial Challenges in Secure Continuous Development ( http://arxiv.org/abs/2401.06529v1 )

ライセンス: Link先を確認
Fabiola Moy\'on, Florian Angermeir, Daniel Mendez(参考訳) セキュリティと継続的ソフトウェアエンジニアリングの交わりは、アジャイル開発運動の初期から大きな関心を集めており、ソフトウェア開発プロセスは、アジリティとDevOpsの採用によってガイドされることが多いため、いまだに関係している。 何人かの著者は、セキュアなアジャイル開発とセキュアなDevOpsの枠組みについての研究に貢献し、方法論やプラクティスへの学術的な貢献を動機付けている。 特に、ここ数年の間、我々は、より適用され、実践的な視点からセキュアな継続的ソフトウェアエンジニアリングの研究を行い、大規模に適用可能なソリューションの導入を目標にしています。 手持ちの短いポジションは、異なる役割の実践者による課題の検証を行う、我々の取り組みの関連部分をまとめたものです。 一連の課題をフレーミングするだけでなく、実践者や研究者が将来の作業を明確に示すために、私たちが特定した4つの重要な研究指針を提示して締めくくります。

The intersection between security and continuous software engineering has been of great interest since the early years of the agile development movement, and it remains relevant as software development processes are more frequently guided by agility and the adoption of DevOps. Several authors have contributed studies about the framing of secure agile development and secure DevOps, motivating academic contributions to methods and practices, but also discussions around benefits and challenges. Especially the challenges captured also our interest since, for the last few years, we are conducting research on secure continuous software engineering from a more applied, practical perspective with the overarching aim to introduce solutions that can be adopted at scale. The short positioning at hands summarizes a relevant part of our endeavors in which we validated challenges with several practitioners of different roles. More than framing a set of challenges, we conclude by presenting four key research directions we identified for practitioners and researchers to delineate future work.
翻訳日:2024-01-15 19:31:41 公開日:2024-01-12
# PCB-Vision: プリント基板のマルチステージRGBハイパースペクトルベンチマークデータセット

PCB-Vision: A Multiscene RGB-Hyperspectral Benchmark Dataset of Printed Circuit Boards ( http://arxiv.org/abs/2401.06528v1 )

ライセンス: Link先を確認
Elias Arbash, Margret Fuchs, Behnood Rasti, Sandra Lorenz, Pedram Ghamisi, Richard Gloaguen(参考訳) 電子廃棄物のリサイクル(e-waste)の重要テーマとして, 意思決定とプロセス制御の基盤として高度に自動化されたデータ処理パイプラインの開発に寄与する。 循環経済と国連持続可能な開発目標(sdg)の広範な目標と相まって,rgbとハイパースペクトルイメージングデータを用いた非侵襲的分析手法を活用して,e-wasteストリーム構成の定量的・質的考察を行い,リサイクル効率を最適化した。 本稿では,高空間分解能の53 rgb画像と対応する高スペクトル分解能高スペクトルデータキューブを対応付けて,可視・近赤外(vnir)領域で合成した,先駆的なrgb-hyperspectral print circuit board(pcb)ベンチマークデータセットである「pcb-vision」を提案する。 オープンサイエンスの原則に基づいて、我々のデータセットは、集積回路(IC)、コンデンサ、コネクターの3つの主要なPCBコンポーネントに焦点を当て、高品質な地上真実を通じて研究者に包括的なリソースを提供する。 提案したデータセットについて,U-Net,Atention U-Net,Residual U-Net,LinkNet,DeepLabv3+など,いくつかの最先端(SOTA)モデルのパフォーマンスとともに,広範な統計的調査を行った。 このマルチシーンベンチマークデータセットをベースラインコードとともにオープンに共有することで、コンピュータビジョンやリモートセンシングなど、さまざまな科学コミュニティにおける高度なデータ処理の透過的、トレース可能、および比較可能な開発を促進したいと思っています。 協力的かつ包括的な科学コミュニティをサポートすることへのコミットメントを強調し、コード、データ、真実、マスクを含むすべての材料はhttps://github.com/hifexplo/PCBVision.comでアクセスできるようになる。

Addressing the critical theme of recycling electronic waste (E-waste), this contribution is dedicated to developing advanced automated data processing pipelines as a basis for decision-making and process control. Aligning with the broader goals of the circular economy and the United Nations (UN) Sustainable Development Goals (SDG), our work leverages non-invasive analysis methods utilizing RGB and hyperspectral imaging data to provide both quantitative and qualitative insights into the E-waste stream composition for optimizing recycling efficiency. In this paper, we introduce 'PCB-Vision'; a pioneering RGB-hyperspectral printed circuit board (PCB) benchmark dataset, comprising 53 RGB images of high spatial resolution paired with their corresponding high spectral resolution hyperspectral data cubes in the visible and near-infrared (VNIR) range. Grounded in open science principles, our dataset provides a comprehensive resource for researchers through high-quality ground truths, focusing on three primary PCB components: integrated circuits (IC), capacitors, and connectors. We provide extensive statistical investigations on the proposed dataset together with the performance of several state-of-the-art (SOTA) models, including U-Net, Attention U-Net, Residual U-Net, LinkNet, and DeepLabv3+. By openly sharing this multi-scene benchmark dataset along with the baseline codes, we hope to foster transparent, traceable, and comparable developments of advanced data processing across various scientific communities, including, but not limited to, computer vision and remote sensing. Emphasizing our commitment to supporting a collaborative and inclusive scientific community, all materials, including code, data, ground truth, and masks, will be accessible at https://github.com/hifexplo/PCBVision.
翻訳日:2024-01-15 19:31:24 公開日:2024-01-12
# MetaHate: ヘイトスピーチ検出の取り組みを統合するデータセット

MetaHate: A Dataset for Unifying Efforts on Hate Speech Detection ( http://arxiv.org/abs/2401.06526v1 )

ライセンス: Link先を確認
Paloma Piot, Patricia Mart\'in-Rodilla, Javier Parapar(参考訳) ヘイトスピーチは広範で有害なオンライン談話であり、憎しみのあるツイートから破壊的な投稿まで、しばしば一連のスラリーを通じて表される。 このような発言が広まるにつれて、世界中の人々をつなげ、ターゲットの個人やコミュニティに対して、社会的、心理的、時として物理的な脅威をもたらす。 この現象に取り組むための現在の計算言語的アプローチは、トレーニングのためのラベル付きソーシャルメディアデータセットに依存している。 本研究は,この課題を効果的に解決するための広範囲なデータセットを提唱し,包括的メタコレクションの必要性を推し進める。 私たちは60以上のデータセットを精査し、MetaHateに統合しました。 本稿では,既存のコレクションを詳細に検証し,その強みと限界を明らかにする。 私たちの発見は、既存のデータセットをより深く理解し、より堅牢で適応可能なモデルをトレーニングする方法を示しています。 これらの強化モデルは、デジタル領域におけるヘイトスピーチの動的かつ複雑な性質と効果的に戦うために不可欠である。

Hate speech represents a pervasive and detrimental form of online discourse, often manifested through an array of slurs, from hateful tweets to defamatory posts. As such speech proliferates, it connects people globally and poses significant social, psychological, and occasionally physical threats to targeted individuals and communities. Current computational linguistic approaches for tackling this phenomenon rely on labelled social media datasets for training. For unifying efforts, our study advances in the critical need for a comprehensive meta-collection, advocating for an extensive dataset to help counteract this problem effectively. We scrutinized over 60 datasets, selectively integrating those pertinent into MetaHate. This paper offers a detailed examination of existing collections, highlighting their strengths and limitations. Our findings contribute to a deeper understanding of the existing datasets, paving the way for training more robust and adaptable models. These enhanced models are essential for effectively combating the dynamic and complex nature of hate speech in the digital realm.
翻訳日:2024-01-15 19:30:44 公開日:2024-01-12
# 1ステップ微調整による時系列変換器のドメイン適応

Domain Adaptation for Time series Transformers using One-step fine-tuning ( http://arxiv.org/abs/2401.06524v1 )

ライセンス: Link先を確認
Subina Khanal, Seshu Tirupathi, Giulio Zizzo, Ambrish Rawat, and Torben Bach Pedersen(参考訳) 最近のディープラーニングにおけるトランスフォーマーのブレークスルーは、長距離の依存関係を捉える能力から、時系列コミュニティに大きな注目を集めている。 しかし、他のディープラーニングモデルと同様に、トランスフォーマーは時間的理解不足、一般化の課題、限られたデータを持つドメインのデータシフト問題など、時系列予測の制限に直面している。 さらに、モデルが新しいデータに触れたときに学習した情報を忘れてしまう破滅的な忘れの問題に対処することは、時系列タスクにおけるトランスフォーマーの堅牢性向上に注意を要するもう一つの重要な側面である。 これらの制約に対処するため,本論文では,ソース領域の時系列トランスフォーマモデルを十分なデータで事前学習し,限られたデータで対象領域で微調整する。 対象領域にソースドメインデータのパーセンテージを追加し、さまざまな時系列インスタンスをモデルに提供し、emph{one-step fine-tuning}アプローチを導入する。 そして、段階的な凍結防止技術を用いて、事前学習したモデルを微調整する。 これにより、限られたデータを持つドメインの時系列予測におけるモデルのパフォーマンスが向上する。 2つの実世界のデータセットの広範な実験結果から,室内温度と風力予測では,最先端のベースラインよりも4.35%,11.54%改善した。

The recent breakthrough of Transformers in deep learning has drawn significant attention of the time series community due to their ability to capture long-range dependencies. However, like other deep learning models, Transformers face limitations in time series prediction, including insufficient temporal understanding, generalization challenges, and data shift issues for the domains with limited data. Additionally, addressing the issue of catastrophic forgetting, where models forget previously learned information when exposed to new data, is another critical aspect that requires attention in enhancing the robustness of Transformers for time series tasks. To address these limitations, in this paper, we pre-train the time series Transformer model on a source domain with sufficient data and fine-tune it on the target domain with limited data. We introduce the \emph{One-step fine-tuning} approach, adding some percentage of source domain data to the target domains, providing the model with diverse time series instances. We then fine-tune the pre-trained model using a gradual unfreezing technique. This helps enhance the model's performance in time series prediction for domains with limited data. Extensive experimental results on two real-world datasets show that our approach improves over the state-of-the-art baselines by 4.35% and 11.54% for indoor temperature and wind power prediction, respectively.
翻訳日:2024-01-15 19:30:27 公開日:2024-01-12
# 超小型ジョセフソン接合におけるパルス駆動量子化電流ステップ

Pulse driven quantized current steps in ultrasmall Josephson junctions ( http://arxiv.org/abs/2401.06599v1 )

ライセンス: Link先を確認
Fabian Kaap, Christoph Kissling, Victor Gaydamachenko, Lukas Gr\"unhaupt, Sergey Lotkhov(参考訳) 最近の実験結果は、約40年前に行われた予測を検証し、超小型ジョセフソン接合と超伝導ナノワイヤにおける量子化された電流ステップの存在を裏付けている。 これらのいわゆる双対シャピロステップは、新しい電流標準の公約を持ち、量子距離三角形を閉じる可能性がある。 これは、ステップマーク量子化された電流レベル $i=\pm n \times 2ef$ であり、初等電荷 $e$ は新siにおける固定定数であり、周波数 $f$ は最高精度で測定される物理量である。 デュアルシャピロ法を実現するため, 粒状アルミニウムと酸化チタンからなる高インピーダンス環境にAl/AlO$_\mathrm{x}$/Al dc-SQUIDを埋め込む。 最大6\:\mathrm{ghz}$の正弦波駆動信号を適用することで、iv曲線における量子化電流のステップを実証し、その結果、最大$i \approx \pm 2\:\mathrm{na}$ の量子化電流レベルが得られた。 注目すべきは、パルス駆動に切り替える場合、第1の2重シャピロステップは、パルスの符号に応じて、大きな電圧振幅を持ち、反対のステップは消滅する。 ディファレンシャル抵抗のピーク値を平坦度の測定値として使用することにより、正弦波駆動と比較して、パルス駆動信号による改善を$\sim 2$の係数で示す。

Recent experimental results have validated a prediction made almost four decades ago, affirming the existence of quantized current steps in ultrasmall Josephson junctions and superconducting nanowires. These so-called dual Shapiro steps hold promise for a new current standard and thus could close the quantum metrological triangle. This is because the steps mark quantized current levels $I=\pm n \times 2ef$, where the elementary charge $e$ is a fixed constant in the new SI and the frequency $f$ is the physical quantity measured with the highest precision. To realize dual Shapiro steps, we embed an Al/AlO$_\mathrm{x}$/Al dc-SQUID in a high impedance environment made from granular aluminium and oxidized titanium. We successfully demonstrate quantized current steps in the IV-curves by applying sinusoidal driving signals of frequencies up to $6\:\mathrm{GHz}$ resulting in quantized current levels up to $I \approx \pm 2\:\mathrm{nA}$. Remarkably, if changing to a pulsed drive, the first dual Shapiro step has a larger voltage amplitude, while the opposite step vanishes, depending on the sign of the pulse. By using the peak values of the differential resistance as a measure of flatness, we demonstrate improvement due to the pulsed driving signals by a factor of $\sim 2$ compared to sinusoidal driving.
翻訳日:2024-01-15 19:23:20 公開日:2024-01-12
# ノード毎に異なる: 分散グラフクラスタリングのためのセルフスーパービジョンタスクを動的にFusingする

Every Node is Different: Dynamically Fusing Self-Supervised Tasks for Attributed Graph Clustering ( http://arxiv.org/abs/2401.06595v1 )

ライセンス: Link先を確認
Pengfei Zhu, Qian Wang, Yu Wang, Jialu Li, Qinghua Hu(参考訳) attributed graph clusteringは教師なしのタスクで、ノードを異なるグループに分割する。 自己教師付き学習(SSL)は、このタスクを扱う大きな可能性を示し、最近の研究では、複数のSSLタスクを同時に学習し、パフォーマンスをさらに向上する。 現在、異なるSSLタスクはすべてのグラフノードの重みのセットに割り当てられている。 しかし,異なるグループに隣接しているグラフノードでは,SSLタスクのエムフェーズが著しく異なる場合がある。 本稿では,異なるノードに対するSSLタスクの重み付けを動的に学習し,異なるSSLタスクから学んだ埋め込みを融合させて性能を向上させることを提案する。 本研究では,動的Fusing Self-Supervised Learning (DyFSS) という,革新的なグラフクラスタリング手法を設計する。 特にDyFSSは、ゲーティングネットワークから派生した異なる重みを使って、多様なSSLタスクから抽出された機能を融合する。 ゲーティングネットワークを効果的に学習するために,擬似ラベルとグラフ構造を組み込んだデュアルレベル自己教師付き戦略を設計する。 5つのデータセットに対する大規模な実験により、DyFSSは最先端のマルチタスクSSLメソッドよりも精度が最大8.66%向上していることが示された。 DyFSSのコードは、https://github.com/q086/DyFSSで入手できる。

Attributed graph clustering is an unsupervised task that partitions nodes into different groups. Self-supervised learning (SSL) shows great potential in handling this task, and some recent studies simultaneously learn multiple SSL tasks to further boost performance. Currently, different SSL tasks are assigned the same set of weights for all graph nodes. However, we observe that some graph nodes whose neighbors are in different groups require significantly different emphases on SSL tasks. In this paper, we propose to dynamically learn the weights of SSL tasks for different nodes and fuse the embeddings learned from different SSL tasks to boost performance. We design an innovative graph clustering approach, namely Dynamically Fusing Self-Supervised Learning (DyFSS). Specifically, DyFSS fuses features extracted from diverse SSL tasks using distinct weights derived from a gating network. To effectively learn the gating network, we design a dual-level self-supervised strategy that incorporates pseudo labels and the graph structure. Extensive experiments on five datasets show that DyFSS outperforms the state-of-the-art multi-task SSL methods by up to 8.66% on the accuracy metric. The code of DyFSS is available at: https://github.com/q086/DyFSS.
翻訳日:2024-01-15 19:22:54 公開日:2024-01-12
# prometheus-vision: きめ細かな評価のための判断としてのビジョン言語モデル

Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation ( http://arxiv.org/abs/2401.06591v1 )

ライセンス: Link先を確認
Seongyun Lee and Seungone Kim and Sue Hyun Park and Geewook Kim and Minjoon Seo(参考訳) VLM(Vision-Language Models)による長文応答の評価は困難である。 vlmが所定の命令に従うかどうかの確認だけでなく、テキスト出力が所定の画像に適切に接しているかどうかの検証も必要である。 本研究は, VLM を用いた VLM の評価手法に着想を得て, VLM を用いた VLM の評価手法を提案する。 そこで本研究では,評価中にユーザが関心を持つであろう15kのスコアラブリックを包含する,知覚収集と呼ばれる新しいフィードバックデータセットを提案する。 パーセプションコレクションを用いて、評価中にユーザ定義スコアの基準を理解することができるオープンソースのVLM評価モデルであるPrometheus-Visionを訓練する。 Prometheus-Visionは、オープンソースモデルにおいて、人間の評価器とGPT-4VとのPearson相関が最も高く、VLMの透過的かつアクセス可能な評価に有効であることを示す。 私たちはhttps://github.com/kaistAI/prometheus-visionでコード、データセット、モデルをオープンソース化しました。

Assessing long-form responses generated by Vision-Language Models (VLMs) is challenging. It not only requires checking whether the VLM follows the given instruction but also verifying whether the text output is properly grounded on the given image. Inspired by the recent approach of evaluating LMs with LMs, in this work, we propose to evaluate VLMs with VLMs. For this purpose, we present a new feedback dataset called the Perception Collection, encompassing 15K customized score rubrics that users might care about during assessment. Using the Perception Collection, we train Prometheus-Vision, the first open-source VLM evaluator model that can understand the user-defined score criteria during evaluation. Prometheus-Vision shows the highest Pearson correlation with human evaluators and GPT-4V among open-source models, showing its effectiveness for transparent and accessible evaluation of VLMs. We open-source our code, dataset, and model at https://github.com/kaistAI/prometheus-vision
翻訳日:2024-01-15 19:22:32 公開日:2024-01-12
# 強い遅延制約を持つ接続性音声認識の動的挙動

Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints ( http://arxiv.org/abs/2401.06588v1 )

ライセンス: Link先を確認
Giampiero Salvi(参考訳) 本稿では,強い遅延制約を持つ音声認識におけるコネクショナリスト手法の利用について述べる。 この制約は、音声信号から合成顔の唇の動きをリアルタイムで導出するタスクにより、音声文字列を調音合成器に供給することにより課される。 多層パーセプトロンによって学習される時間発展モデルとビタビデコーダによって課される遷移モデルとの相互作用を異なるレイテンシ条件下で解析するために、特に注意が払われている。 言語モデル(LM)の時間依存性をパラメータで制御する2つの実験を行った。 結果は、ニューラルネットワークトポロジ、LMにおける時間依存性の長さ、デコーダ遅延という、関連する3つの要因の強い相互作用を示す。

This paper describes the use of connectionist techniques in phonetic speech recognition with strong latency constraints. The constraints are imposed by the task of deriving the lip movements of a synthetic face in real time from the speech signal, by feeding the phonetic string into an articulatory synthesiser. Particular attention has been paid to analysing the interaction between the time evolution model learnt by the multi-layer perceptrons and the transition model imposed by the Viterbi decoder, in different latency conditions. Two experiments were conducted in which the time dependencies in the language model (LM) were controlled by a parameter. The results show a strong interaction between the three factors involved, namely the neural network topology, the length of time dependencies in the LM and the decoder latency.
翻訳日:2024-01-15 19:22:14 公開日:2024-01-12
# ダガー圏と複素数:有限次元ヒルベルト空間と線型縮約の圏に対する公理

Dagger categories and the complex numbers: Axioms for the category of finite-dimensional Hilbert spaces and linear contractions ( http://arxiv.org/abs/2401.06584v1 )

ライセンス: Link先を確認
Matthew Di Meglio and Chris Heunen(参考訳) 有限次元ヒルベルト空間と線型収縮の圏を、ノルム、連続性、次元、実数に言及しない単純な圏論的公理を用いて特徴づける。 この証明は、ゾルの定理の代わりに実数の古典的特徴化の新しい変種を用いて、分析の限界に圏論の極限を直接関連付けている。

We characterise the category of finite-dimensional Hilbert spaces and linear contractions using simple category-theoretic axioms that do not refer to norms, continuity, dimension, or real numbers. Our proof directly relates limits in category theory to limits in analysis, using a new variant of the classical characterisation of the real numbers instead of Sol\`er's theorem.
翻訳日:2024-01-15 19:22:00 公開日:2024-01-12
# TestSpark:IntelliJ IDEAの究極のテスト生成コンパニオン

TestSpark: IntelliJ IDEA's Ultimate Test Generation Companion ( http://arxiv.org/abs/2401.06580v1 )

ライセンス: Link先を確認
Arkadii Sapozhnikov, Mitchell Olsthoorn, Annibale Panichella, Vladimir Kovalenko, Pouria Derakhshanfar(参考訳) ソフトウェアテストを書くのは手間と時間を要する。 これを解決するために、先行研究は様々な自動テスト生成技術を導入した。 この分野でよく研究されている方向は単体テスト生成であり、人工知能(AI)技術はテスト中のメソッド/クラスのテストを作成する。 これらのテクニックの多くは主に研究の文脈で応用されているが、既存のツール(例えば、EvoSuite、Randoop、AthenaTest)はユーザーフレンドリーではなく、単一のテクニックに適合している。 本稿では,IntelliJ IDEA用のプラグインであるTestSparkを紹介し,IDE(Integrated Development Environment)内で数クリックで単体テストを生成する。 さらにtestsparkでは,生成したテストの修正や実行も簡単にでき,プロジェクトワークフローに統合することもできる。 TestSparkは検索ベースのテスト生成ツールの進歩を活用し、IDEとLLMの間のフィードバックサイクルを作成することで、LLM(Large Language Models)を使用したユニットテストを生成するテクニックを導入している。 TestSparkはオープンソース(https://github.com/JetBrains-Research/TestSpark)であり、拡張可能で文書化されたツールであるため、最小限の努力で新しいテスト生成メソッドをプラグインに追加することができる。 本稿では,テストパークに関する今後の研究と予備結果についても述べる。 デモビデオ: https://youtu.be/0f4prxwfixo

Writing software tests is laborious and time-consuming. To address this, prior studies introduced various automated test-generation techniques. A well-explored research direction in this field is unit test generation, wherein artificial intelligence (AI) techniques create tests for a method/class under test. While many of these techniques have primarily found applications in a research context, existing tools (e.g., EvoSuite, Randoop, and AthenaTest) are not user-friendly and are tailored to a single technique. This paper introduces TestSpark, a plugin for IntelliJ IDEA that enables users to generate unit tests with only a few clicks directly within their Integrated Development Environment (IDE). Furthermore, TestSpark also allows users to easily modify and run each generated test and integrate them into the project workflow. TestSpark leverages the advances of search-based test generation tools, and it introduces a technique to generate unit tests using Large Language Models (LLMs) by creating a feedback cycle between the IDE and the LLM. Since TestSpark is an open-source (https://github.com/JetBrains-Research/TestSpark), extendable, and well-documented tool, it is possible to add new test generation methods into the plugin with the minimum effort. This paper also explains our future studies related to TestSpark and our preliminary results. Demo video: https://youtu.be/0F4PrxWfiXo
翻訳日:2024-01-15 19:21:52 公開日:2024-01-12
# 360DVD:360度ビデオ拡散モデルによるパノラマ映像生成

360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model ( http://arxiv.org/abs/2401.06578v1 )

ライセンス: Link先を確認
Qian Wang, Weiqi Li, Chong Mou, Xinhua Cheng, Jian Zhang(参考訳) 360度パノラマ動画は最近、没入体験の高まりによって、研究と応用の両方により多くの関心を寄せている。 360度パノラマビデオを撮影するコストがかかるため、所定のプロンプトで所望のパノラマ動画を生成する必要がある。 近年,テキスト・ツー・ビデオ(T2V)拡散法が標準映像生成において顕著な効果を示した。 しかし、パノラマビデオと標準ビデオの間のコンテンツと動きのパターンが著しく異なるため、これらの手法は満足のいく360度パノラマビデオを生み出すという困難に直面する。 本稿では,パノラマ映像を生成するための360DVD(360-Degree Video Diffusion model)という制御可能なパノラマ映像生成パイプラインを提案する。 具体的には、360-Adapterと呼ばれる軽量モジュールを導入し、360度ビデオ生成のための事前学習されたT2Vモデルを変換する。 さらに,360度ビデオテキストペアによるパノラマデータセット WEB360 を提案し,キャプション付きパノラマビデオデータセットの欠如に対処する。 パノラマビデオ生成における360dvdの優位性と有効性を示す広範な実験。 コードとデータセットは間もなくリリースされる。

360-degree panoramic videos recently attract more interest in both studies and applications, courtesy of the heightened immersive experiences they engender. Due to the expensive cost of capturing 360-degree panoramic videos, generating desirable panoramic videos by given prompts is urgently required. Recently, the emerging text-to-video (T2V) diffusion methods demonstrate notable effectiveness in standard video generation. However, due to the significant gap in content and motion patterns between panoramic and standard videos, these methods encounter challenges in yielding satisfactory 360-degree panoramic videos. In this paper, we propose a controllable panorama video generation pipeline named 360-Degree Video Diffusion model (360DVD) for generating panoramic videos based on the given prompts and motion conditions. Concretely, we introduce a lightweight module dubbed 360-Adapter and assisted 360 Enhancement Techniques to transform pre-trained T2V models for 360-degree video generation. We further propose a new panorama dataset named WEB360 consisting of 360-degree video-text pairs for training 360DVD, addressing the absence of captioned panoramic video datasets. Extensive experiments demonstrate the superiority and effectiveness of 360DVD for panorama video generation. The code and dataset will be released soon.
翻訳日:2024-01-15 19:21:28 公開日:2024-01-12
# ソース言語における紛失: 大規模言語モデルが機械翻訳の品質を評価する方法

Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation ( http://arxiv.org/abs/2401.06568v1 )

ライセンス: Link先を確認
Xu Huang, Zhirui Zhang, Xiang Geng, Yichao Du, Jiajun Chen, Shujian Huang(参考訳) 大規模言語モデル(LLM)は機械翻訳評価タスクにおいて顕著な成果を上げてきたが、提供されたデータを用いて評価を行う方法については知識のギャップが残っている。 本研究の目的は,LLMの作業メカニズムをよりよく理解することを目的とした翻訳評価において,LLMがソース情報や参照情報をどのように活用するかを検討することである。 この目的のために,様々な入力モードとモデルタイプにわたる制御実験をデザインし,粗粒度と細粒度の両方を用いてソース情報と参照情報の有用性を識別する。 意外なことに、参照情報が評価精度を大幅に向上させるのに対して、ソース情報は時として非生産的であり、LLMを用いて翻訳を評価する場合の言語横断能力の欠如が示唆される。 さらに,LLMの翻訳誤り検出のためのメタ評価を行い,同様の現象を観察する。 また, 機械翻訳評価タスクにおいて, LLMの言語間能力を完全に活用し, 性能向上を図っている。

Large Language Models (LLMs) have achieved remarkable results in the machine translation evaluation task, yet there remains a gap in knowledge regarding how they utilize the provided data to conduct evaluations. This study aims to explore how LLMs leverage source and reference information in evaluating translations, with the ultimate goal of better understanding the working mechanism of LLMs. To this end, we design the controlled experiments across various input modes and model types, and employ both coarse-grained and fine-grained prompts to discern the utility of source versus reference information. Surprisingly, we find that reference information significantly enhances the evaluation accuracy, while source information sometimes is counterproductive, indicating a lack of cross-lingual capability when using LLMs to evaluate translations. We further conduct a meta-evaluation for translation error detection of LLMs, observing a similar phenomenon. These findings also suggest a potential research direction for LLMs that fully exploits the cross-lingual capability of LLMs to achieve better performance in machine translation evaluation tasks.
翻訳日:2024-01-15 19:21:06 公開日:2024-01-12
# 平均フィールドゲームにおける最大因果エントロピー逆強化学習

Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field Games ( http://arxiv.org/abs/2401.06566v1 )

ライセンス: Link先を確認
Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi(参考訳) 本稿では,離散時間平均場ゲーム(MFG)における最大カジュアルエントロピー逆強化学習(IRL)問題を,無限水平割引逆最適条件の下で導入する。 典型的なエージェントの状態空間は有限である。 我々のアプローチは、有限および無限水平シナリオにおける決定論的および確率的マルコフ決定過程(MDP)に関する最大エントロピーIRL問題の包括的レビューから始まる。 その後、MFGの最大カジュアルエントロピーIRL問題を定式化し、ポリシーに対する非凸最適化問題である。 mdpsの線形計画定式化を利用して、このirl問題を凸最適化問題に再構成し、収束率で最適解を計算するための勾配降下アルゴリズムを確立する。 最後に,MFG問題を一般化されたナッシュ平衡問題 (GNEP) として定式化し,前方RL問題に対する平均場平衡 (MFE) を計算可能な新しいアルゴリズムを提案する。 この方法は数値例のデータを生成するために用いられる。 このアルゴリズムは一般のMFE計算にも適用可能である。

In this paper, we introduce the maximum casual entropy Inverse Reinforcement Learning (IRL) problem for discrete-time mean-field games (MFGs) under an infinite-horizon discounted-reward optimality criterion. The state space of a typical agent is finite. Our approach begins with a comprehensive review of the maximum entropy IRL problem concerning deterministic and stochastic Markov decision processes (MDPs) in both finite and infinite-horizon scenarios. Subsequently, we formulate the maximum casual entropy IRL problem for MFGs - a non-convex optimization problem with respect to policies. Leveraging the linear programming formulation of MDPs, we restructure this IRL problem into a convex optimization problem and establish a gradient descent algorithm to compute the optimal solution with a rate of convergence. Finally, we present a new algorithm by formulating the MFG problem as a generalized Nash equilibrium problem (GNEP), which is capable of computing the mean-field equilibrium (MFE) for the forward RL problem. This method is employed to produce data for a numerical example. We note that this novel algorithm is also applicable to general MFE computations.
翻訳日:2024-01-15 19:20:45 公開日:2024-01-12
# 高次元環境下での観測不能なコンファウンディングによる正負因果推論

Valid causal inference with unobserved confounding in high-dimensional settings ( http://arxiv.org/abs/2401.06564v1 )

ライセンス: Link先を確認
Niloofar Moosavi, Tetiana Gorbach, Xavier de Luna(参考訳) 近年,高次元ニュアンスモデルがポストモデル選択や機械学習推定器によって推定される場合,データ生成プロセスに対して一様に有効である信頼区間による因果効果を推定する方法が提案されている。 これらの方法は通常、すべての共同創設者が効果の特定のために観察される必要がある。 半パラメトリック推論が、観測されていない共同創設者や高次元ニュアンスモデルの存在下でいかに有効かを示すことで貢献する。 そこで本研究では,不確かさの区間を提案し,非オブザーブされたコンファウンドの量がサンプルサイズに対して小さい場合,結果として得られる推論が有効であることを示す。 シミュレーション実験は,提案する区間の有限なサンプル特性を示し,観測されていないコンファウンディングの量が大きければ,その区間を経験的にカバーする手法を検討する。 最後に、妊娠中の喫煙が出生体重に及ぼす影響に関する事例研究を用いて、未観察の禁煙に対する感度分析を行うための方法が導入された。

Various methods have recently been proposed to estimate causal effects with confidence intervals that are uniformly valid over a set of data generating processes when high-dimensional nuisance models are estimated by post-model-selection or machine learning estimators. These methods typically require that all the confounders are observed to ensure identification of the effects. We contribute by showing how valid semiparametric inference can be obtained in the presence of unobserved confounders and high-dimensional nuisance models. We propose uncertainty intervals which allow for unobserved confounding, and show that the resulting inference is valid when the amount of unobserved confounding is small relative to the sample size; the latter is formalized in terms of convergence rates. Simulation experiments illustrate the finite sample properties of the proposed intervals and investigate an alternative procedure that improves the empirical coverage of the intervals when the amount of unobserved confounding is large. Finally, a case study on the effect of smoking during pregnancy on birth weight is used to illustrate the use of the methods introduced to perform a sensitivity analysis to unobserved confounding.
翻訳日:2024-01-15 19:20:30 公開日:2024-01-12
# スパイクニューラルネットワークとスパースセグメンテーションによる低解像度熱カメラによる資源効率なジェスチャー認識

Resource-Efficient Gesture Recognition using Low-Resolution Thermal Camera via Spiking Neural Networks and Sparse Segmentation ( http://arxiv.org/abs/2401.06563v1 )

ライセンス: Link先を確認
Ali Safa, Wout Mommen, Lars Keuninckx(参考訳) 本研究では,安価で低解像度 (24 x 32) の熱センサをスパイキングニューラルネットワーク (snn) で処理し, スパースセグメンテーションとロバスト主成分分析 (r-pca) による特徴に基づくジェスチャ分類を行った。 標準のRGBカメラと比較して、提案システムは、従来文献で使われていた高周波数レーダー、飛行時間カメラ、高分解能熱センサーと比較してはるかに安価でありながら、光の変動に敏感である。 本稿では,最近提案されたsnnの新たなクラスとして,モノstable multivibrator(mmv)ニューラルネットワークを革新的に使用することで,車室内で取得した5つのサーマルカメラデータセットを用いて,最上位のジェスチャ認識精度を93.9%に到達しながら,深層学習手法に比べて1桁以上のメモリと計算複雑性を達成できることを示す。 私たちのデータセットは将来の研究を支援するためにリリースされています。

This work proposes a novel approach for hand gesture recognition using an inexpensive, low-resolution (24 x 32) thermal sensor processed by a Spiking Neural Network (SNN) followed by Sparse Segmentation and feature-based gesture classification via Robust Principal Component Analysis (R-PCA). Compared to the use of standard RGB cameras, the proposed system is insensitive to lighting variations while being significantly less expensive compared to high-frequency radars, time-of-flight cameras and high-resolution thermal sensors previously used in literature. Crucially, this paper shows that the innovative use of the recently proposed Monostable Multivibrator (MMV) neural networks as a new class of SNN achieves more than one order of magnitude smaller memory and compute complexity compared to deep learning approaches, while reaching a top gesture recognition accuracy of 93.9% using a 5-class thermal camera dataset acquired in a car cabin, within an automotive context. Our dataset is released for helping future research.
翻訳日:2024-01-15 19:20:11 公開日:2024-01-12
# Intention Analysis Promptingは、大きな言語モデルを良いジェイルブレイクディフェンダーにする

Intention Analysis Prompting Makes Large Language Models A Good Jailbreak Defender ( http://arxiv.org/abs/2401.06561v1 )

ライセンス: Link先を確認
Yuqi Zhang and Liang Ding and Lefei Zhang and Dacheng Tao(参考訳) 大きな言語モデル(LLM)を人間の価値、特にステルスと複雑なジェイルブレイクに直面して調整することは、恐ろしい挑戦だ。 本研究では,IAプロンプト(Intention Analysis Prompting, IAプロンプト)という,シンプルで効果的な防衛戦略を提案する。 背景にある原則は、LSM固有の自己修正をトリガーし、2段階のプロセスを通じて能力を改善することである。 1)本質的意図分析、及び 2)政策対応対応。 特にIAPromptは推論のみの手法であり,その有用性を損なうことなくLLMの安全性を高めることができる。 Vicuna、ChatGLM、MPT、DeepSeek、GPT-3.5をまたいだSAP200とDANベンチマークの大規模な実験では、IAPromptは反応における有害性(平均-46.5%の攻撃成功率)を一貫して大幅に低減し、一般的な有用性を維持することができた。 さらなる分析は、我々の方法がどのように機能するかについての洞察を与える。 再現性を促進するため、コードとスクリプトをhttps://github.com/alphadl/SafeLLM_with_IntentionAnalysisでリリースします。

Aligning large language models (LLMs) with human values, particularly in the face of stealthy and complex jailbreaks, presents a formidable challenge. In this study, we present a simple yet highly effective defense strategy, i.e., Intention Analysis Prompting (IAPrompt). The principle behind is to trigger LLMs' inherent self-correct and improve ability through a two-stage process: 1) essential intention analysis, and 2) policy-aligned response. Notably, IAPrompt is an inference-only method, thus could enhance the safety of LLMs without compromising their helpfulness. Extensive experiments on SAP200 and DAN benchmarks across Vicuna, ChatGLM, MPT, DeepSeek, and GPT-3.5 show that IAPrompt could consistently and significantly reduce the harmfulness in response (averagely -46.5% attack success rate) and maintain the general helpfulness. Further analyses present some insights into how our method works. To facilitate reproducibility, We release our code and scripts at: https://github.com/alphadl/SafeLLM_with_IntentionAnalysis
翻訳日:2024-01-15 19:19:46 公開日:2024-01-12
# 一般ベンチマークフレームワークは動的グラフニューラルネットワークを必要とする

A General Benchmark Framework is Dynamic Graph Neural Network Need ( http://arxiv.org/abs/2401.06559v1 )

ライセンス: Link先を確認
Yusen Zhang(参考訳) 動的グラフ学習は、進化する関係と時間的ダイナミクスを持つ現実世界のシステムのモデリングに不可欠である。 しかし、現在の研究における統一ベンチマークフレームワークの欠如は、動的グラフモデルの不正確な評価につながった。 本稿では,動的グラフ学習の意義と各種分野への応用について述べる。 時間的ダイナミクス、グラフ構造の進化、ダウンストリームタスク要求をキャプチャする標準化されたベンチマークフレームワークの必要性を強調している。 統一ベンチマークを確立することで、研究者は既存のモデルの強みと限界を理解し、イノベーションを促進し、動的グラフ学習を進めることができる。 本稿では,標準ベンチマークフレームワークの欠如を,動的グラフ学習研究における現在の限界として挙げる。 このようなフレームワークは、正確なモデル評価を促進し、動的グラフ学習技術の進歩を促進し、現実世界のアプリケーションに対してより効果的なモデルの開発を可能にする。

Dynamic graph learning is crucial for modeling real-world systems with evolving relationships and temporal dynamics. However, the lack of a unified benchmark framework in current research has led to inaccurate evaluations of dynamic graph models. This paper highlights the significance of dynamic graph learning and its applications in various domains. It emphasizes the need for a standardized benchmark framework that captures temporal dynamics, evolving graph structures, and downstream task requirements. Establishing a unified benchmark will help researchers understand the strengths and limitations of existing models, foster innovation, and advance dynamic graph learning. In conclusion, this paper identifies the lack of a standardized benchmark framework as a current limitation in dynamic graph learning research . Such a framework will facilitate accurate model evaluation, drive advancements in dynamic graph learning techniques, and enable the development of more effective models for real-world applications.
翻訳日:2024-01-15 19:19:24 公開日:2024-01-12
# 社会的ネットワークを用いた因果効果推定のための治療・アウェアな双曲表現学習

Treatment-Aware Hyperbolic Representation Learning for Causal Effect Estimation with Social Networks ( http://arxiv.org/abs/2401.06557v1 )

ライセンス: Link先を確認
Ziqiang Cui, Xing Tang, Yang Qiao, Bowei He, Liang Chen, Xiuqiang He, Chen Ma(参考訳) 観察データから個々の治療効果(ite)を推定することは、複数の領域にまたがる重要な研究課題である。 隠れた共同設立者を識別する方法は、ite推定において重要な課題となる。 近年の研究では、この課題に取り組むためにソーシャルネットワークの構造情報が組み込まれ、顕著な進歩を遂げている。 しかし,これらの手法は,グラフニューラルネットワークを用いてユークリッド空間における隠れた共同創設者の表現を学習し,(1)ソーシャルネットワークがしばしばスケールのない構造を示す一方で,(2)ソーシャルネットワーク内のエゴ中心ネットワークは,隠れた共同創設者の顕著なパターンを示唆する治療的特徴を示す。 これらの課題に対処するため,我々はTAHyper(Process-Aware Hyperbolic Representation Learning)と呼ばれる新しい手法を提案する。 まず、TAHyperは双曲空間を用いてソーシャルネットワークを符号化し、ユークリッド埋め込みによる共同設立者の表現の歪みを効果的に軽減する。 第二に, 個人と隣人が同じ治療を受けるかどうかを識別することで, 隠れた共同創設者の表現を強化する治療・認識関係識別モジュールをデザインする。 提案手法の優位性を示すために,2つのベンチマークデータセットの大規模な実験を行った。

Estimating the individual treatment effect (ITE) from observational data is a crucial research topic that holds significant value across multiple domains. How to identify hidden confounders poses a key challenge in ITE estimation. Recent studies have incorporated the structural information of social networks to tackle this challenge, achieving notable advancements. However, these methods utilize graph neural networks to learn the representation of hidden confounders in Euclidean space, disregarding two critical issues: (1) the social networks often exhibit a scalefree structure, while Euclidean embeddings suffer from high distortion when used to embed such graphs, and (2) each ego-centric network within a social network manifests a treatment-related characteristic, implying significant patterns of hidden confounders. To address these issues, we propose a novel method called Treatment-Aware Hyperbolic Representation Learning (TAHyper). Firstly, TAHyper employs the hyperbolic space to encode the social networks, thereby effectively reducing the distortion of confounder representation caused by Euclidean embeddings. Secondly, we design a treatment-aware relationship identification module that enhances the representation of hidden confounders by identifying whether an individual and her neighbors receive the same treatment. Extensive experiments on two benchmark datasets are conducted to demonstrate the superiority of our method.
翻訳日:2024-01-15 19:19:00 公開日:2024-01-12
# LLMテキスト強化における多様性インセンティブがサンプル多様性および下流モデル性能に及ぼす影響

Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation ( http://arxiv.org/abs/2401.06643v1 )

ライセンス: Link先を確認
Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova, Peter Brusilovsky(参考訳) 最新の生成型大規模言語モデル(LLM)は、少数のテキストサンプルをLLMで表現し、モデルを微調整するために使用するデータ拡張タスクにその応用を見出した。 しかしながら、異なるプロンプト、シードデータ選択戦略、フィルタリング方法、モデル設定がパラフレッシュデータ(および下流モデル)の品質に与える影響を評価するには、さらなる研究が必要である。 本研究では,クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討した。 これらのインセンティブ法を,LLMのテキストデータセット拡張命令の一部として用いて,生成したテキストの語彙的多様性と下流モデルの性能に与える影響を計測する。 5つの異なるLLMと6つのデータセットに対する効果を比較する。 従来のパラフレーズをヒントとして使用する場合,下流モデルのパフォーマンスが最も高いのに対して,タブー語では多様性がもっとも増大することを示す。

The latest generative large language models (LLMs) have found their application in data augmentation tasks, where small numbers of text samples are LLM-paraphrased and then used to fine-tune the model. However, more research is needed to assess how different prompts, seed data selection strategies, filtering methods, or model settings affect the quality of paraphrased data (and downstream models). In this study, we investigate three text diversity incentive methods well established in crowdsourcing: taboo words, hints by previous outlier solutions, and chaining on previous outlier solutions. Using these incentive methods as part of instructions to LLMs augmenting text datasets, we measure their effects on generated texts' lexical diversity and downstream model performance. We compare the effects over 5 different LLMs and 6 datasets. We show that diversity is most increased by taboo words, while downstream model performance is highest when previously created paraphrases are used as hints.
翻訳日:2024-01-15 19:11:26 公開日:2024-01-12
# 実験的文脈は言語モデルにおけるロバストな意味的特性推論をファシリテートするが、矛盾する

Experimental Contexts Can Facilitate Robust Semantic Property Inference in Language Models, but Inconsistently ( http://arxiv.org/abs/2401.06640v1 )

ライセンス: Link先を確認
Kanishka Misra, Allyson Ettinger, Kyle Mahowald(参考訳) 最近のゼロショット評価では、意味抽出を行う言語モデル(LM)の重要な制限が強調されている。 しかし、現在では、実例や命令のような実験的な文脈の存在において、LMが根本的な改善を示すことが知られている。 これは、以前研究された意味に敏感なタスクにどの程度うまく翻訳できるのか? 我々は、実験的なコンテキストがプロパティ継承を行う際のlmsのロバスト性 -- 新規概念のセマンティクス特性を予測する -- をいかに改善できるか、というケーススタディを提示する。 インコンテキストの例と命令の性質を慎重に制御すると、本研究はLMにおける非自明なプロパティ継承挙動につながることを明らかにした。 しかし、この能力は矛盾しており、タスクの最小限の再構成で、いくつかのlmsが入力から浅い非意味論的ヒューリスティックを拾い上げることが分かり、意味的性質推論の計算原理はまだlmsによってマスターされていないことを示唆した。

Recent zero-shot evaluations have highlighted important limitations in the abilities of language models (LMs) to perform meaning extraction. However, it is now well known that LMs can demonstrate radical improvements in the presence of experimental contexts such as in-context examples and instructions. How well does this translate to previously studied meaning-sensitive tasks? We present a case-study on the extent to which experimental contexts can improve LMs' robustness in performing property inheritance -- predicting semantic properties of novel concepts, a task that they have been previously shown to fail on. Upon carefully controlling the nature of the in-context examples and the instructions, our work reveals that they can indeed lead to non-trivial property inheritance behavior in LMs. However, this ability is inconsistent: with a minimal reformulation of the task, some LMs were found to pick up on shallow, non-semantic heuristics from their inputs, suggesting that the computational principles of semantic property inference are yet to be mastered by LMs.
翻訳日:2024-01-15 19:11:08 公開日:2024-01-12
# 拡散モデル多様体における逆例

Adversarial Examples are Misaligned in Diffusion Model Manifolds ( http://arxiv.org/abs/2401.06637v1 )

ライセンス: Link先を確認
Peter Lorenz and Ricard Durall and Jansi Keuper(参考訳) 近年、拡散モデル(dms)は、データ分布の近似化に成功し、最先端の成果をもたらすという大きな注目を集めている。 それにもかかわらず、これらのモデルの汎用性は、画像インペインティング、セグメンテーション、敵対的ロバスト性など、様々な視覚応用を包含する生成能力を超えている。 本研究は拡散モデルのレンズを通しての対向攻撃の研究に焦点をあてる。 しかし,画像分類器の対角的堅牢性の向上は関与しない。 その代わり、画像に対するこれらの攻撃によって引き起こされる異常を検出し分析するために拡散モデルを活用することに重点を置いている。 そこで本研究では,拡散モデルを用いた変換過程に従えば,逆例の分布のアラインメントを体系的に検討する。 このアプローチの有効性はcifar-10とimagenetデータセットで評価され、後者の画像サイズも異なる。 その結果、良性画像と攻撃画像とを効果的に識別できる顕著な能力が示され、敵のインスタンスがDMの学習多様体と一致しないことが証明された。

In recent years, diffusion models (DMs) have drawn significant attention for their success in approximating data distributions, yielding state-of-the-art generative results. Nevertheless, the versatility of these models extends beyond their generative capabilities to encompass various vision applications, such as image inpainting, segmentation, adversarial robustness, among others. This study is dedicated to the investigation of adversarial attacks through the lens of diffusion models. However, our objective does not involve enhancing the adversarial robustness of image classifiers. Instead, our focus lies in utilizing the diffusion model to detect and analyze the anomalies introduced by these attacks on images. To that end, we systematically examine the alignment of the distributions of adversarial examples when subjected to the process of transformation using diffusion models. The efficacy of this approach is assessed across CIFAR-10 and ImageNet datasets, including varying image sizes in the latter. The results demonstrate a notable capacity to discriminate effectively between benign and attacked images, providing compelling evidence that adversarial instances do not align with the learned manifold of the DMs.
翻訳日:2024-01-15 19:10:48 公開日:2024-01-12
# ccfc:連合クラスタリングとコントラスト学習の橋渡し

CCFC: Bridging Federated Clustering and Contrastive Learning ( http://arxiv.org/abs/2401.06634v1 )

ライセンス: Link先を確認
Jie Yan, Jing Liu and Zhong-Yuan Zhang(参考訳) フェデレーションクラスタリング(federated clustering)は、フェデレーションシナリオのための集中型クラスタリングの不可欠な拡張であり、複数のデータ保持クライアントがデータをローカルに保持しながら、協調的にデータをグループ化することができる。 集中型シナリオでは、表現学習によって駆動されるクラスタリングは、高次元の複雑なデータを扱う上で大きな進歩を遂げている。 しかし、連合クラスタリングと表現学習の組み合わせはいまだに未検討である。 これを実現するために,まず,クラスタリングにやさしい表現を学習するためのクラスタ結合モデルを提案する。 次に,このモデルを用いて,ccfc(cluster-contrastive federated clustering)と呼ばれる新しいフェデレーションクラスタリング手法を提案する。 表現学習の恩恵を受け、CCFCのクラスタリング性能は、場合によっては最高のベースライン手法の2倍にもなる。 最も関連するベースラインと比較すると、最も顕著なケースではNMIスコアが0.4155まで改善される。 さらに, CCFCは, 実用的観点から装置故障の処理性能も優れていた。

Federated clustering, an essential extension of centralized clustering for federated scenarios, enables multiple data-holding clients to collaboratively group data while keeping their data locally. In centralized scenarios, clustering driven by representation learning has made significant advancements in handling high-dimensional complex data. However, the combination of federated clustering and representation learning remains underexplored. To bridge this, we first tailor a cluster-contrastive model for learning clustering-friendly representations. Then, we harness this model as the foundation for proposing a new federated clustering method, named cluster-contrastive federated clustering (CCFC). Benefiting from representation learning, the clustering performance of CCFC even double those of the best baseline methods in some cases. Compared to the most related baseline, the benefit results in substantial NMI score improvements of up to 0.4155 on the most conspicuous case. Moreover, CCFC also shows superior performance in handling device failures from a practical viewpoint.
翻訳日:2024-01-15 19:10:29 公開日:2024-01-12
# ada-retrieval:逐次レコメンデーションのための適応型マルチラウンド検索パラダイム

Ada-Retrieval: An Adaptive Multi-Round Retrieval Paradigm for Sequential Recommendations ( http://arxiv.org/abs/2401.06633v1 )

ライセンス: Link先を確認
Lei Li, Jianxun Lian, Xiao Zhou, Xing Xie(参考訳) 検索モデルは、あるユーザの好みにマッチする少数の項目候補を選択することを目的としている。 ローダのようなその後のモデルがアイテム候補の品質に大きく依存するため、大規模なレコメンデーションシステムにおいて重要な役割を果たす。 しかし、既存の検索モデルの多くはシングルラウンド推論パラダイムを採用しており、ユーザの好みの動的な性質を適切に捉えておらず、アイテム空間の1つの領域に留まっている。 本稿では,ユーザ表現を反復的に洗練し,全項目領域の候補をよりよく把握する,適応型マルチラウンド検索パラダイムであるAda-Retrievalを提案する。 Ada-Retrievalは、アイテム表現アダプタとユーザ表現アダプタの2つの重要なモジュールから構成されている。 フレームワークはモデルに依存しない設計を維持しており、RNNやTransformerといった様々なバックボーンモデルとシームレスに統合できる。 5つの強力なシーケンシャルレコメンデータをバックボーンモデルとして組み込んだ,広く使用されている3つの公開データセットの実験を行った。 以上の結果から,Ada-Retrievalは様々なベースモデルの性能を著しく向上し,各データセット間で一貫した改善が見られた。 私たちのコードとデータは、https://github.com/ll0ruc/Ada-Retrieval.comで公開されています。

Retrieval models aim at selecting a small set of item candidates which match the preference of a given user. They play a vital role in large-scale recommender systems since subsequent models such as rankers highly depend on the quality of item candidates. However, most existing retrieval models employ a single-round inference paradigm, which may not adequately capture the dynamic nature of user preferences and stuck in one area in the item space. In this paper, we propose Ada-Retrieval, an adaptive multi-round retrieval paradigm for recommender systems that iteratively refines user representations to better capture potential candidates in the full item space. Ada-Retrieval comprises two key modules: the item representation adapter and the user representation adapter, designed to inject context information into items' and users' representations. The framework maintains a model-agnostic design, allowing seamless integration with various backbone models such as RNNs or Transformers. We perform experiments on three widely used public datasets, incorporating five powerful sequential recommenders as backbone models. Our results demonstrate that Ada-Retrieval significantly enhances the performance of various base models, with consistent improvements observed across different datasets. Our code and data are publicly available at: https://github.com/ll0ruc/Ada-Retrieval.
翻訳日:2024-01-15 19:10:12 公開日:2024-01-12
# OOP: 大規模言語モデルのオブジェクト指向プログラミング評価ベンチマーク

OOP: Object-Oriented Programming Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2401.06628v1 )

ライセンス: Link先を確認
Shuai Wang, Liang Ding, Li Shen, Yong Luo, Bo Du, Dacheng Tao(参考訳) 自動プログラミングの適応は、堅牢で包括的なコード生成ベンチマークを必要とするが、現在の評価フレームワークは、関数型プログラミング(FP)、例えばHumanEvalやMBPPを優先してオブジェクト指向プログラミング(OOP)をほとんど無視している。 そこで本研究では,OOPの基本的な概念と,クラスやカプセル化メソッドといった機能を含む431のPythonプログラムを特徴とする,OOPにフォーカスした先駆的なベンチマークを紹介した。 本稿では、OOP用に調整された新しい評価基準であるpass@oを提案し、従来のpass@k対策を強化する。 汎用モデルとコード特化モデルを含む23大言語モデル(LLM)の評価では,3つの重要な洞察が得られた。 1) pass@oはOOPコード生成に関するより関連性があり包括的な評価を提供する。 2) FP が優れているにもかかわらず、OOP の WizardCoder のようなコード特化 LLM は ChatGPT のようなモデルに比べて遅延している。 3) OOPベンチマークにおける先進的なLLMの低パフォーマンスは、この分野において重要な改善の必要性を強調しています。 ベンチマークとスクリプトは、https://github.com/alphadl/oop-eval.com/で公開しています。

Advancing automated programming necessitates robust and comprehensive code generation benchmarks, yet current evaluation frameworks largely neglect object-oriented programming (OOP) in favor of functional programming (FP), e.g., HumanEval and MBPP. To address this, our study introduces a pioneering OOP-focused benchmark, featuring 431 Python programs that encompass essential OOP concepts and features like classes and encapsulation methods. We propose a novel evaluation metric, pass@o, tailored for OOP, enhancing traditional pass@k measures. Our evaluation of 23 leading large language models (LLMs), including both general and code-specialized models, reveals three key insights: 1) pass@o offers a more relevant and comprehensive assessment for OOP code generation; 2) Despite excelling in FP, code-specialized LLMs like WizardCoder lag in OOP compared to models like ChatGPT; 3) The poor performance of all advanced LLMs on our OOP benchmark highlights a critical need for improvements in this field. Our benchmark and scripts are publicly released at: https://github.com/alphadl/OOP-eval.
翻訳日:2024-01-15 19:09:47 公開日:2024-01-12
# 信頼区間を有する望ましい特性のデバイス非依存認証

Device-independent certification of desirable properties with a confidence interval ( http://arxiv.org/abs/2401.06627v1 )

ライセンス: Link先を確認
Wan-Guan Chang and Kai-Chun Chen and Kai-Siang Chen and Shin-Liang Chen and Yeong-Cherng Liang(参考訳) 量子技術の発展において、測定装置や状態準備装置、変換装置など、量子デバイスの特徴付けるための信頼性の高い手段が不可欠である。 しかし、例えば量子状態トモグラフィーやプロセストモグラフィーに基づく従来のアプローチは、現実的な実験環境では必ずしも正当化できない仮定に依存している。 この問題に対するデバイス非依存のアプローチは、最小限の正当化可能な仮定をすることで上記の欠点を取り巻くが、これまでの理論的な提案のほとんどは、独立かつ同一に分散された試行が仮定される理想化された環境でのみ機能する。 ここでは,i.i.d.仮定に依存しない厳密なデバイス非依存認証のための汎用ソリューションを提案する。 具体的には、仮説テストのために開発された予測ベース比(PBR)プロトコルとマーチンゲールベースのプロトコルを、現在の文脈で適用して、信頼区間を持つ望ましい特性のデバイス非依存の認証を実現する方法について述べる。 これらの手法の汎用性を説明するために、有限データ、根底にある負性、ヒルベルト空間次元、絡み合い深さ、目的とする純状態への忠実さの証明にどのように使用できるかを示す。 特に,証明可能な負性度と忠実度が試行回数とともにどのようにスケールするかを示す。 また, martingale ベースのプロトコルは実装が容易であるが,その性能は bell 関数の選択に大きく依存することを示した。 興味深いことに、自己検査に有用なベル関数は、対応する目標状態に対する忠実性を証明するための最適な信頼率を与えるとは限らない。

In the development of quantum technologies, a reliable means for characterizing quantum devices, be it a measurement device, a state-preparation device, or a transformation device, is crucial. However, the conventional approach based on, for example, quantum state tomography or process tomography relies on assumptions that are often not necessarily justifiable in a realistic experimental setting. While the device-independent approach to this problem gets around the shortcomings above by making only minimal, justifiable assumptions, most of the theoretical proposals to date only work in the idealized setting where independent and identically distributed (i.i.d.) trials are assumed. Here, we provide a versatile solution for rigorous device-independent certification that does not rely on the i.i.d. assumption. Specifically, we describe how the prediction-based-ratio (PBR) protocol and martingale-based protocol developed for hypothesis testing can be applied in the present context to achieve a device-independent certification of desirable properties with confidence interval. To illustrate the versatility of these methods, we demonstrate how we can use them to certify -- with finite data -- the underlying negativity, Hilbert space dimension, entanglement depth, and fidelity to some target pure state. In particular, we give examples showing how the amount of certifiable negativity and fidelity scales with the number of trials. Our results also show that, while the martingale-based protocol is more straightforward to implement, its performance depends strongly on the choice of the Bell function. Intriguingly, a Bell function useful for self-testing does not necessarily give the optimal confidence-gain rate for certifying the fidelity to the corresponding target state.
翻訳日:2024-01-15 19:09:29 公開日:2024-01-12
# TransliCo:多言語事前学習言語モデルにおけるスクリプトバリアに対処するコントラスト学習フレームワーク

TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models ( http://arxiv.org/abs/2401.06620v1 )

ライセンス: Link先を確認
Yihong Liu, Chunlan Ma, Haotian Ye, Hinrich Sch\"utze(参考訳) 293のスクリプトが7,000以上の言語を書体で表現している。 様々な理由から、多くの近縁言語は異なるスクリプトを使用しており、語彙重なりを通じて言語間知識を学ぶのに多言語事前学習言語モデル(mPLM)では困難である。 異なるスクリプトからの表現は、異なるサブスペースに配置されているため、異なるスクリプトの言語を含む言語間転送が、サブ最適性能を示す理由を示す強力な指標である。 そこで本研究では,この問題を解決するために,学習データ中の文とそれらの訳文を統一スクリプト(この場合はlatn)で対比することにより,mplmを微調整するためのtcm(transliteration contrastive modeling)を含む単純なフレームワークであるtranslicoを提案し,異なるスクリプトの表現空間における均一性を保証する。 500以上の言語で事前訓練されたmPLMであるGlot500-mをソースモデルとして、トレーニングデータのごく一部(5\%)で検出し、結果のモデルをFurinaと参照する。 Furinaは、異なるスクリプトから表現をコーディネートするだけでなく、さまざまな言語間転送タスクにおいてオリジナルのGlot500-mよりも優れていることを示す。 さらに,言語が高度に関連しているが異なるスクリプトを使用するindicグループのケーススタディにおいて,一貫した改善を達成している。 コードとモデルを公開しています。

There are 293 scripts representing over 7,000 languages in the written form. Due to various reasons, many closely related languages use different scripts, which poses difficulty for multilingual pretrained language models (mPLMs) in learning crosslingual knowledge through lexical overlap. As a result, mPLMs present a script barrier: representations from different scripts are located in different subspaces, which is a strong indicator of why crosslingual transfer involving languages of different scripts shows sub-optimal performance. To address this problem, we propose a simple framework TransliCo that contains Transliteration Contrastive Modeling (TCM) to fine-tune an mPLM by contrasting sentences in its training data and their transliterations in a unified script (Latn, in our case), which ensures uniformity in the representation space for different scripts. Using Glot500-m, an mPLM pretrained on over 500 languages, as our source model, we find-tune it on a small portion (5\%) of its training data, and refer to the resulting model as Furina. We show that Furina not only better aligns representations from distinct scripts but also outperforms the original Glot500-m on various crosslingual transfer tasks. Additionally, we achieve consistent improvement in a case study on the Indic group where the languages are highly related but use different scripts. We make our code and models publicly available.
翻訳日:2024-01-15 19:09:02 公開日:2024-01-12
# PyTy: Pythonの静的型エラーの修正

PyTy: Repairing Static Type Errors in Python ( http://arxiv.org/abs/2401.06619v1 )

ライセンス: Link先を確認
Yiu Wai Chow, Luca Di Grazia, Michael Pradel(参考訳) グラデーショナル型付けにより、開発者は自身の選択した型に注釈を付けることができ、型アノテーションと完全に静的な型付け言語の間に柔軟な中間層を提供する。 より多くのコードベースに型アノテーションが加えられるにつれて、静的型チェッカーはますます多くの型エラーを検出する。 残念ながら、これらのエラーを修正するには手作業が必要です。 本稿では,Python の静的検出可能な型エラーを対象とした自動プログラム修復手法 PyTy を提案する。 型エラーを修復する問題は、特定の修復パターンを公開し、修正の場所と適用方法に関するヒントと、段階的な型チェックが修正を検証する自動的な方法として機能する警告メッセージを提供するため、特に注意に値する。 3つの貢献を通してこの問題に対処します (i)pythonの型エラーの修正方法を調査し、繰り返し発生するパターンで様々な修正戦略を示す実証的研究。 (ii) 型エラーフィックスを自動的に抽出するアプローチで、pytydefectsという名前の176のgithubリポジトリから2,766のエラーフィックスペアのデータセットを作成することができる。 (iii)Pythonの型エラーを修正するための最初の学習ベースの修復テクニック。 問題の相対的なデータ不足により、PyTyのコアにあるニューラルネットワークは、言語間移動学習を通じて訓練される。 我々の評価によると、PyTyは10の頻繁な型エラーに対して修正を提供し、281の現実世界エラーの85.4%に対処できた。 この効果は、(2.1倍の)型エラーの修正を求める最先端の大規模言語モデルよりも優れており、実行時に現れる型エラーを対象とする以前のテクニックを補完するものである。 最後に、PyTy推奨修正による30のプルリクエストのうち20が開発者によってマージされ、実際にPyTyの有用性が示されている。

Gradual typing enables developers to annotate types of their own choosing, offering a flexible middle ground between no type annotations and a fully statically typed language. As more and more code bases get type-annotated, static type checkers detect an increasingly large number of type errors. Unfortunately, fixing these errors requires manual effort, hampering the adoption of gradual typing in practice. This paper presents PyTy, an automated program repair approach targeted at statically detectable type errors in Python. The problem of repairing type errors deserves specific attention because it exposes particular repair patterns, offers a warning message with hints about where and how to apply a fix, and because gradual type checking serves as an automatic way to validate fixes. We addresses this problem through three contributions: (i) an empirical study that investigates how developers fix Python type errors, showing a diverse set of fixing strategies with some recurring patterns; (ii) an approach to automatically extract type error fixes, which enables us to create a dataset of 2,766 error-fix pairs from 176 GitHub repositories, named PyTyDefects; (iii) the first learning-based repair technique for fixing type errors in Python. Motivated by the relative data scarcity of the problem, the neural model at the core of PyTy is trained via cross-lingual transfer learning. Our evaluation shows that PyTy offers fixes for ten frequent categories of type errors, successfully addressing 85.4% of 281 real-world errors. This effectiveness outperforms state-of-the-art large language models asked to repair type errors (by 2.1x) and complements a previous technique aimed at type errors that manifest at runtime. Finally, 20 out of 30 pull requests with PyTy-suggested fixes have been merged by developers, showing the usefulness of PyTy in practice.
翻訳日:2024-01-15 19:08:32 公開日:2024-01-12
# 偶数オーダーのフィールド上のスタビリサー符号

Stabiliser codes over fields of even order ( http://arxiv.org/abs/2401.06618v1 )

ライセンス: Link先を確認
Simeon Ball, Edgar Moreno and Robin Simoens(参考訳) GF(2^h) と GF(2)^h の間の自然同型は、局所次元 q=2^h の n 量子ビット上の安定化器符号と hn 量子ビット上の二項安定化器符号の間の単射を誘導する。 これにより、これらの符号を幾何学的に記述することができる: 偶数次体上のスタビリサー符号は、いわゆるシンプレクティック極空間の量子集合に対応する。 さらに、等価安定化器符号は同様の幾何学を持ち、[[4,0,3]_4安定化器符号と[[7,1,4]_4および[[8,0,5]_4安定化器符号の両方の存在を証明できる。

We prove that the natural isomorphism between GF(2^h) and GF(2)^h induces a bijection between stabiliser codes on n quqits with local dimension q=2^h and binary stabiliser codes on hn qubits. This allows us to describe these codes geometrically: a stabiliser code over a field of even order corresponds to a so-called quantum set of symplectic polar spaces. Moreover, equivalent stabiliser codes have a similar geometry, which can be used to prove the uniqueness of a [[4,0,3]]_4 stabiliser code and the nonexistence of both a [[7,1,4]]_4 and an [[8,0,5]]_4 stabiliser code.
翻訳日:2024-01-15 19:07:58 公開日:2024-01-12
# 半導体-超伝導ハイブリッドによる連続マイクロ波光子計数

Continuous microwave photon counting by semiconductor-superconductor hybrids ( http://arxiv.org/abs/2401.06617v1 )

ライセンス: Link先を確認
Subhomoy Haldar, David Barker, Harald Havir, Antti Ranni, Sebastian Lehmann, Kimberly A. Dick, Ville F. Maisi(参考訳) 量子情報への関心が高まり、高い忠実度を持つマイクロ波光子状態の操作と読み出しが可能になった。 現在利用可能なマイクロ波光子カウンタは超伝導回路に基づいており、非連続パルスモード動作に限られており、実際の測定の前に量子状態の準備のための追加ステップが必要である。 ここでは超伝導空洞結合半導体量子ドットに基づく連続マイクロ波光子カウンタを提案する。 この装置は、光子支援トンネルを二重量子ドットで利用し、トンネル現象を第3のドットで調査する。 2レベル二重ドート吸収器のエネルギー可変性により、単光子と多光子の両方の吸収現象を独立に検出する。 P(E)理論に沿った空洞光子状態の測定には,光子支援トンネルの速度が有効であることを示す。 さらに、Jaynes-Cummings入出力理論を用いた単一光子検出について記述し、P(E)理論の予測に一致することを示す。

The growing interest in quantum information has enabled the manipulation and readout of microwave photon states with high fidelities. The presently available microwave photon counters, based on superconducting circuits, are limited to non-continuous pulsed mode operation, requiring additional steps for qubit state preparation before an actual measurement. Here, we present a continuous microwave photon counter based on superconducting cavity-coupled semiconductor quantum dots. The device utilizes photon-assisted tunneling in a double quantum dot with tunneling events being probed by a third dot. Our device detects both single and multiple-photon absorption events independently, thanks to the energy tunability of a two-level double-dot absorber. We show that the photon-assisted tunnel rates serve as the measure of the cavity photon state in line with the P(E) theory - a theoretical framework delineating the mediation of the cavity photon field via a two-level environment. We further describe the single photon detection using the Jaynes-Cummings input-output theory and show that it agrees with the P(E) theory predictions.
翻訳日:2024-01-15 19:07:40 公開日:2024-01-12
# Motion2VecSets:非剛性形状再構成と追跡のための4次元遅延ベクトル集合拡散

Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking ( http://arxiv.org/abs/2401.06614v1 )

ライセンス: Link先を確認
Wei Cao, Chang Luo, Biao Zhang, Matthias Nie{\ss}ner, Jiapeng Tang(参考訳) motion2vecsetsは,点雲列からの動的表面再構成のための4次元拡散モデルである。 既存の最先端の手法では、ニューラルフィールド表現を用いた非剛性物体の再構成に成功したが、従来のフィードフォワードネットワークでは、ノイズ、部分的、あるいはスパースポイントの雲からの曖昧な観測で課題に遭遇している。 これらの課題に対処するために,非剛性物体の形状と運動分布を,圧縮潜在表現の反復的消音過程を通じて明示的に学習する拡散モデルを提案する。 拡散に基づく事前処理は、曖昧な入力を扱う場合により妥当で確率的な再構築を可能にする。 グローバル潜時ではなく、潜在ベクトル集合を用いて4次元ダイナミクスをパラメータ化する。 この新たな4次元表現は,局所的な表面形状と変形パターンを学習し,より高精度な非線形運動キャプチャを可能にし,非知覚運動と同一性に対する一般化性を大幅に向上させる。 より時間的コヒーレントなオブジェクト追跡のために、変形潜時セットを同期的にデノベートし、複数のフレーム間で情報を交換する。 計算オーバーヘッドを回避するため,空間領域と時間領域に沿った変形遅延を交互に集約するインターリーブ空間と時間注意ブロックを設計する。 最先端の手法との広範な比較により、不完全な観測から4次元の再構成におけるmotion2vecsetの優位性が示され、特にiou(intersection over union)が19%向上し、deformingthings4d-animalsデータセット上の不審な個人を疎点の雲から再構築するcadexと比較された。 詳細はhttps://vveicao.github.io/projects/Motion2VecSets/で確認できる。

We introduce Motion2VecSets, a 4D diffusion model for dynamic surface reconstruction from point cloud sequences. While existing state-of-the-art methods have demonstrated success in reconstructing non-rigid objects using neural field representations, conventional feed-forward networks encounter challenges with ambiguous observations from noisy, partial, or sparse point clouds. To address these challenges, we introduce a diffusion model that explicitly learns the shape and motion distribution of non-rigid objects through an iterative denoising process of compressed latent representations. The diffusion-based prior enables more plausible and probabilistic reconstructions when handling ambiguous inputs. We parameterize 4D dynamics with latent vector sets instead of using a global latent. This novel 4D representation allows us to learn local surface shape and deformation patterns, leading to more accurate non-linear motion capture and significantly improving generalizability to unseen motions and identities. For more temporal-coherent object tracking, we synchronously denoise deformation latent sets and exchange information across multiple frames. To avoid the computational overhead, we design an interleaved space and time attention block to alternately aggregate deformation latents along spatial and temporal domains. Extensive comparisons against the state-of-the-art methods demonstrate the superiority of our Motion2VecSets in 4D reconstruction from various imperfect observations, notably achieving a 19% improvement in Intersection over Union (IoU) compared to CaDex for reconstructing unseen individuals from sparse point clouds on the DeformingThings4D-Animals dataset. More detailed information can be found at https://vveicao.github.io/projects/Motion2VecSets/.
翻訳日:2024-01-15 19:07:24 公開日:2024-01-12
# 政策勾配部分空間の同定

Identifying Policy Gradient Subspaces ( http://arxiv.org/abs/2401.06604v1 )

ライセンス: Link先を確認
Jan Schneider, Pierre Schumacher, Simon Guist, Le Chen, Daniel H\"aufle, Bernhard Sch\"olkopf, Dieter B\"uchler(参考訳) 政策勾配法は複雑な連続制御タスクを解く大きな可能性を秘めている。 それでも、最適化問題の内部構造を活用し、トレーニング効率を向上させることができる。 最近の研究は、勾配が低次元でゆっくりと変化する部分空間にあるという事実を活用することで教師あり学習を加速できることを示している。 本稿では,この現象をシミュレーションされたベンチマークタスク上で,2つの一般的な政策勾配法に対して徹底的に評価する。 強化学習に固有のデータ分布が連続的に変化しているにもかかわらず,このような勾配部分空間が存在することを示す。 これらの結果は、パラメータ空間探索の改善や二階最適化の実現など、より効率的な強化学習に向けた今後の取り組みに有望な方向を示している。

Policy gradient methods hold great potential for solving complex continuous control tasks. Still, their training efficiency can be improved by exploiting structure within the optimization problem. Recent work indicates that supervised learning can be accelerated by leveraging the fact that gradients lie in a low-dimensional and slowly-changing subspace. In this paper, we conduct a thorough evaluation of this phenomenon for two popular deep policy gradient methods on various simulated benchmark tasks. Our results demonstrate the existence of such gradient subspaces despite the continuously changing data distribution inherent to reinforcement learning. These findings reveal promising directions for future work on more efficient reinforcement learning, e.g., through improving parameter-space exploration or enabling second-order optimization.
翻訳日:2024-01-15 19:06:53 公開日:2024-01-12
# 双方向フィードバック機構による大規模言語と強化学習モデルの相互強化:事例研究

Mutual Enhancement of Large Language and Reinforcement Learning Models through Bi-Directional Feedback Mechanisms: A Case Study ( http://arxiv.org/abs/2401.06603v1 )

ライセンス: Link先を確認
Shangding Gu(参考訳) 大規模言語モデル(LLM)は、計画や推論機能といった強化学習(RL)モデルに顕著な能力を示した。 しかし,LLM と RL モデルコラボレーションの問題はまだ解決する必要がある。 本研究では,RLモデルを用いたLLMモデルに対するフィードバックの提供と,協調型マルチエージェント環境におけるLLモデルに対する高レベル情報の提供により,これらの問題に対処する教師学生学習フレームワークを用いる。 この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。 2人のエージェントは、"i help you help i help"のような再帰的な助けのプロセスを通じて協力して助け合う。 LLM剤は、RL剤に抽象情報を供給し、効率的な探索及び政策改善を可能にする。 RLエージェントはLLMエージェントにフィードバックを提供し、より有用なトークンを生成するための貴重なリアルタイム情報を提供する。 この双方向フィードバックループは、両エージェントの最適化、探索、相互改善を促進し、ますます困難なタスクを実現できる。 本稿では,本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。

Large Language Models (LLMs) have demonstrated remarkable capabilities for reinforcement learning (RL) models, such as planning and reasoning capabilities. However, the problems of LLMs and RL model collaboration still need to be solved. In this study, we employ a teacher-student learning framework to tackle these problems, specifically by offering feedback for LLMs using RL models and providing high-level information for RL models with LLMs in a cooperative multi-agent setting. Within this framework, the LLM acts as a teacher, while the RL model acts as a student. The two agents cooperatively assist each other through a process of recursive help, such as "I help you help I help." The LLM agent supplies abstract information to the RL agent, enabling efficient exploration and policy improvement. In turn, the RL agent offers feedback to the LLM agent, providing valuable, real-time information that helps generate more useful tokens. This bi-directional feedback loop promotes optimization, exploration, and mutual improvement for both agents, enabling them to accomplish increasingly challenging tasks. Remarkably, we propose a practical algorithm to address the problem and conduct empirical experiments to evaluate the effectiveness of our method.
翻訳日:2024-01-15 19:06:43 公開日:2024-01-12
# セキュリティの自動化による管理 - 産業用DevOpsのケーススタディ

Automated Security Findings Management: A Case Study in Industrial DevOps ( http://arxiv.org/abs/2401.06602v1 )

ライセンス: Link先を確認
Markus Voggenreiter, Florian Angermeir, Fabiola Moy\'on, Ulrich Sch\"opp and Pierre Bonvin(参考訳) 近年、開発と運用のワークフローの統合であるDevOpsは、産業ソフトウェア開発ライフサイクルのトレンドになっています。 セキュリティ活動は、業界におけるセキュアなソフトウェア開発の基本的な部分であるため、devops原則のための重要なアプリケーション分野へと変わりました。 この傾向から生じる一般的なプラクティスは、いくつかの観点からソフトウェア製品を分析するセキュリティテストの自動化である。 分析された製品のセキュリティを効果的に改善するためには、特定されたセキュリティの発見を管理し、ステークホルダーが行動を起こすためにプロジェクトチームにループする必要がある。 このマネジメントは、低いデータ品質から、DevOpsを目標とする結果の一貫性のある優先順位付けまで、いくつかの課題に対処する必要があります。 DevOpsプロジェクトで他の活動と同じ効率でセキュリティの発見を管理するためには、DevOps原則を意識した産業セキュリティの発見を管理するための方法論が不可欠である。 本稿では,産業用devopsプロジェクトにおけるセキュリティ所見の管理手法を提案するとともに,この分野の研究成果を要約し,その結果を提示する。 この手法の例として,セキュリティ発見の自動管理のための意味知識基盤であるSecurity Flamaを開発した。 産業実践における方法論の影響を分析するため,多国籍企業における2つのDevOpsプロジェクトのケーススタディを行った。 結果は、産業用devopsプロジェクトでこのような自動化手法を使うことの重要性を強調し、我々のアプローチの有用性と研究プロジェクトへのポジティブな影響を確認し、コミュニケーション戦略を実践におけるユーザビリティの重要な要素として捉えた。

In recent years, DevOps, the unification of development and operation workflows, has become a trend for the industrial software development lifecycle. Security activities turned into an essential field of application for DevOps principles as they are a fundamental part of secure software development in the industry. A common practice arising from this trend is the automation of security tests that analyze a software product from several perspectives. To effectively improve the security of the analyzed product, the identified security findings must be managed and looped back to the project team for stakeholders to take action. This management must cope with several challenges ranging from low data quality to a consistent prioritization of findings while following DevOps aims. To manage security findings with the same efficiency as other activities in DevOps projects, a methodology for the management of industrial security findings minding DevOps principles is essential. In this paper, we propose a methodology for the management of security findings in industrial DevOps projects, summarizing our research in this domain and presenting the resulting artifact. As an instance of the methodology, we developed the Security Flama, a semantic knowledge base for the automated management of security findings. To analyze the impact of our methodology on industrial practice, we performed a case study on two DevOps projects of a multinational industrial enterprise. The results emphasize the importance of using such an automated methodology in industrial DevOps projects, confirm our approach's usefulness and positive impact on the studied projects, and identify the communication strategy as a crucial factor for usability in practice.
翻訳日:2024-01-15 19:06:23 公開日:2024-01-12
# 埋め込みプラングラムコンプライアンス制御システム

Embedded Planogram Compliance Control System ( http://arxiv.org/abs/2401.06690v1 )

ライセンス: Link先を確認
M. Erkin Y\"ucel, Serkan Topalo\u{g}lu, Cem \"Unsalan(参考訳) 小売部門は、高度なパターン認識とコンピュータビジョン技術から恩恵を受ける可能性のある、オープンで挑戦的な問題をいくつか提示している。 そのような重要な課題の1つは、プラノグラムコンプライアンス制御である。 本研究では,この問題に対処するための組み込みシステムを提案する。 本システムでは,スタンドアロンの組み込みカメラモジュールによる画像取得と転送,コンピュータビジョンによる物体検出,シングルボードコンピュータで作業するディープラーニング手法,シングルボードコンピュータで再び作業するプラングラムコンプライアンス制御方法,組込みカメラモジュールに付随するエネルギー回収と電力管理ブロックという4つの重要なコンポーネントからなる。 ESP-EYEカメラモジュールに画像取得・転送ブロックを実装する。 オブジェクト検出ブロックは、深層学習法および局所特徴抽出としてのYOLOv5に基づいている。 我々はRaspberry Pi 4,NVIDIA Jetson Orin Nano,NVIDIA Jetson AGX Orinをシングルボードコンピュータとして実装した。 計画図コンプライアンス制御ブロックは、修正されたニードルマン・ウォンシュアルゴリズムを通じてシーケンスアライメントを利用する。 このブロックは、同じシングルボードコンピュータ上のオブジェクト検出ブロックとも連携している。 エネルギー回収および電力管理ブロックは、動作に適した電池パックを備えた太陽およびRFエネルギー回収モジュールからなる。 提案手法を2つの異なるデータセット上で検証し,その強度と弱点について貴重な知見を得た。 その結果,本手法は対象検出ブロックのF1スコアの0.997と1.0をそれぞれ達成した。 さらに, 完全組込みシステムでは, 最大2年間をバッテリに基いて, 単独で動作可能と計算した。 この期間は、提案された太陽エネルギーとRFエネルギーの回収オプションを統合することでさらに延長することができる。

The retail sector presents several open and challenging problems that could benefit from advanced pattern recognition and computer vision techniques. One such critical challenge is planogram compliance control. In this study, we propose a complete embedded system to tackle this issue. Our system consists of four key components as image acquisition and transfer via stand-alone embedded camera module, object detection via computer vision and deep learning methods working on single board computers, planogram compliance control method again working on single board computers, and energy harvesting and power management block to accompany the embedded camera modules. The image acquisition and transfer block is implemented on the ESP-EYE camera module. The object detection block is based on YOLOv5 as the deep learning method and local feature extraction. We implement these methods on Raspberry Pi 4, NVIDIA Jetson Orin Nano, and NVIDIA Jetson AGX Orin as single board computers. The planogram compliance control block utilizes sequence alignment through a modified Needleman-Wunsch algorithm. This block is also working along with the object detection block on the same single board computers. The energy harvesting and power management block consists of solar and RF energy harvesting modules with suitable battery pack for operation. We tested the proposed embedded planogram compliance control system on two different datasets to provide valuable insights on its strengths and weaknesses. The results show that our method achieves F1 scores of 0.997 and 1.0 in object detection and planogram compliance control blocks, respectively. Furthermore, we calculated that the complete embedded system can work in stand-alone form up to two years based on battery. This duration can be further extended with the integration of the proposed solar and RF energy harvesting options.
翻訳日:2024-01-15 18:59:43 公開日:2024-01-12
# ランク付けしないで、コンバイン! 品質推定を用いた機械翻訳仮説の組合せ

Don't Rank, Combine! Combining Machine Translation Hypotheses Using Quality Estimation ( http://arxiv.org/abs/2401.06688v1 )

ライセンス: Link先を確認
Giorgos Vernikos and Andrei Popescu-Belis(参考訳) ニューラルネットワーク翻訳システムは、与えられた原文のターゲット文の確率を推定するが、これらの推定は人間の嗜好と一致しないかもしれない。 この研究は品質推定基準(QE)を利用したQE融合(QE-fusion)を導入し、人間の判断とよりよく相関し、改良された翻訳を合成する。 QE融合はモデルからサンプリングされた候補プールを利用し、CometKiwiのようなQEメトリクスを使用して、異なる候補のスパンを組み合わせる。 ビームサーチに対するQE融合と,近年の最小ベイズリスク復号化やQE復号化といった手法との比較を行った。 本手法は,翻訳用大規模言語モデル (polylm, xglm, llama2, mistral) および多言語翻訳モデル (nllb) に適用した場合,comet と bleurt による翻訳品質を一貫して向上させる。 特にqe-fusionは多様な出力を生成する能力によりllmを大きく改善している。 提案手法は, 半数以上のケースで新たな翻訳を生成し, 様々な候補 (5~200) に対して, 一貫して他の手法よりも優れることを示す。 さらに, qe-fusionはプール内の候補数と線形にスケールすることを示した。 QE融合は、LLMのコスト削減を必要とせず、LLMベースの翻訳を改善するのに有効である。

Neural machine translation systems estimate probabilities of target sentences given source sentences, yet these estimates may not align with human preferences. This work introduces QE-fusion, a method utilizing a quality estimation metric (QE) that better correlates with human judgments to synthesize improved translations. QE-fusion leverages a candidate pool sampled from a model, combining spans from different candidates using QE metrics such as CometKiwi. We compare QE-fusion against beam search and recent reranking techniques, such as Minimum Bayes Risk decoding or QE-reranking. Our method consistently improves translation quality in terms of COMET and BLEURT scores when applied to large language models (LLMs) used for translation (PolyLM, XGLM, Llama2, and Mistral) and to multilingual translation models (NLLB), over five language pairs. Notably, QE-fusion exhibits larger improvements for LLMs due to their ability to generate diverse outputs. We demonstrate that our approach generates novel translations in over half of the cases and consistently outperforms other methods across varying numbers of candidates (5-200). Furthermore, we empirically establish that QE-fusion scales linearly with the number of candidates in the pool. QE-fusion proves effective in enhancing LLM-based translation without the need for costly retraining of LLMs.
翻訳日:2024-01-15 18:59:16 公開日:2024-01-12
# テキストデータを用いた近位因果推論

Proximal Causal Inference With Text Data ( http://arxiv.org/abs/2401.06687v1 )

ライセンス: Link先を確認
Jacob M. Chen, Rohit Bhattacharya, Katherine A. Keith(参考訳) 最近のテキストベース因果法は、部分的にあるいは不完全に測定された共起変数のプロキシとして非構造化テキストデータを含めることで、共起バイアスの軽減を試みる。 これらのアプローチは、データプライバシやコストのために必ずしも実現不可能な制約であるインスタンスのサブセットについて、共同創設者のラベルを監督していると、アナリストが仮定している。 ここでは、重要なコンバウンディング変数が完全にオブザーバされない設定に対処する。 本稿では,処理前のテキストデータを分割し,分割した2つのゼロショットモデルから2つのプロキシを推定する新しい因果推論法を提案する。 本手法は,g-formulaの近位法に必要な識別条件を満たすが,他の妥当な提案では満足できないことを示す。 本手法は, 合成および半合成条件下で評価し, 低バイアスで推定値が得られた。 近位因果推論とゼロショット分類器の組み合わせは(我々の知る限り)新しいものであり、実践者が利用できるテキスト固有の因果的手法のセットを拡張する。

Recent text-based causal methods attempt to mitigate confounding bias by including unstructured text data as proxies of confounding variables that are partially or imperfectly measured. These approaches assume analysts have supervised labels of the confounders given text for a subset of instances, a constraint that is not always feasible due to data privacy or cost. Here, we address settings in which an important confounding variable is completely unobserved. We propose a new causal inference method that splits pre-treatment text data, infers two proxies from two zero-shot models on the separate splits, and applies these proxies in the proximal g-formula. We prove that our text-based proxy method satisfies identification conditions required by the proximal g-formula while other seemingly reasonable proposals do not. We evaluate our method in synthetic and semi-synthetic settings and find that it produces estimates with low bias. This combination of proximal causal inference and zero-shot classifiers is novel (to our knowledge) and expands the set of text-specific causal methods available to practitioners.
翻訳日:2024-01-15 18:58:51 公開日:2024-01-12
# dqnc2s: dqnベースのクロスストリーム危機イベント要約

DQNC2S: DQN-based Cross-stream Crisis event Summarizer ( http://arxiv.org/abs/2401.06683v1 )

ライセンス: Link先を確認
Daniele Rege Cambrin, Luca Cagliero, Paolo Garza(参考訳) 複数の災害関連データストリームを同時に要約することは、既存の検索/リランキング戦略が、マルチストリームデータの固有の冗長性と、マルチクエリ設定でのスケーラビリティの制限に苦しむため、特に難しい。 本研究は,ディープqネットワークを用いた弱いアノテーションに基づく危機タイムライン生成手法を提案する。 人間のアノテーションやコンテンツの再ランキングを必要とせずに、関連するテキストをオンザフライで選択する。 これにより、推論時間は入力クエリの数に依存しない。 提案手法では,報酬関数に冗長フィルタを組み込んで,ストリーム間の重複を効果的に処理する。 ROUGEとBERTScoreの結果は、CrisisFACTS 2022ベンチマークの最高の性能のモデルよりも優れている。

Summarizing multiple disaster-relevant data streams simultaneously is particularly challenging as existing Retrieve&Re-ranking strategies suffer from the inherent redundancy of multi-stream data and limited scalability in a multi-query setting. This work proposes an online approach to crisis timeline generation based on weak annotation with Deep Q-Networks. It selects on-the-fly the relevant pieces of text without requiring neither human annotations nor content re-ranking. This makes the inference time independent of the number of input queries. The proposed approach also incorporates a redundancy filter into the reward function to effectively handle cross-stream content overlaps. The achieved ROUGE and BERTScore results are superior to those of best-performing models on the CrisisFACTS 2022 benchmark.
翻訳日:2024-01-15 18:58:34 公開日:2024-01-12
# LLMRS:ソフトウェア購入のためのLCMベースのレコメンダシステムのアンロック可能性

LLMRS: Unlocking Potentials of LLM-Based Recommender Systems for Software Purchase ( http://arxiv.org/abs/2401.06676v1 )

ライセンス: Link先を確認
Angela John, Theophilus Aidoo, Hamayoon Behmanush, Irem B. Gunduz, Hewan Shrestha, Maxx Richard Rahman, Wolfgang Maa{\ss}(参考訳) spotifyのプレイリスト提案からamazonのプロダクト提案まで、レコメンデーションシステムはユビキタスだ。 それでも、方法論やデータセットによっては、これらのシステムは通常、ユーザの好みを捉えて、一般的なレコメンデーションを生成しない。 LLM(Large Language Models)の最近の進歩は、ユーザクエリの分析に有望な結果をもたらす。 しかし、ユーザの好みや効率を捉えるためにこれらのモデルを採用することは、未解決の問題である。 本稿では,LLMをベースとしたゼロショットレコメンデーションシステムであるLLMRSを提案し,ユーザレビューをレビュースコアにエンコードし,ユーザに適したレコメンデーションを生成する。 LLMRSを実世界のデータセットであるAmazon製品レビューで、ソフトウェア購入のユースケースについて実験しました。 その結果,LLMRSは製品レビューから有意義な情報を収集し,信頼性の高いレコメンデーションを提供するとともに,ランキングベースのベースラインモデルよりも優れていた。

Recommendation systems are ubiquitous, from Spotify playlist suggestions to Amazon product suggestions. Nevertheless, depending on the methodology or the dataset, these systems typically fail to capture user preferences and generate general recommendations. Recent advancements in Large Language Models (LLM) offer promising results for analyzing user queries. However, employing these models to capture user preferences and efficiency remains an open question. In this paper, we propose LLMRS, an LLM-based zero-shot recommender system where we employ pre-trained LLM to encode user reviews into a review score and generate user-tailored recommendations. We experimented with LLMRS on a real-world dataset, the Amazon product reviews, for software purchase use cases. The results show that LLMRS outperforms the ranking-based baseline model while successfully capturing meaningful information from product reviews, thereby providing more reliable recommendations.
翻訳日:2024-01-15 18:58:20 公開日:2024-01-12
# エージェントベースモデルの感度解析によるディザスタ後回復の臨界遷移の探索

Finding critical transitions of the post-disaster recovery using the sensitivity analysis of agent-based models ( http://arxiv.org/abs/2401.06672v1 )

ライセンス: Link先を確認
Sangung Park, Jiawei Xue, Satish V. Ukkusuri(参考訳) 頻繁で集中的な災害は、繰り返し、不確実な復興プロセスを引き起こす。 回復プロセスが成功したにもかかわらず, 過去のシミュレーションでは, 十分な数の家計リターン決定モデル, 人口規模, およびそれに対応するシステムの臨界遷移条件について検討しなかった。 本稿では,マルチレイヤネットワークを用いたエージェントベースモデルの回復過程をシミュレートし,玩具ネットワークにおける家計リターン決定モデルと人口規模の影響を明らかにする。 その後,2017年にハリケーン・ハーヴェイによって被害を受けた5郡に対してエージェントベースモデルを適用し,世帯復帰決定モデルの種類による都市・地域回復の差異について検討した。 エージェントベースモデルは3つの結論をもたらす。 まず、しきい値モデルはバイナリロジットモデルをうまく置き換えることができる。 第2に、高い閾値と1,000人未満の人口が回復過程を乱し、回復過程の間に重要な遷移をもたらす。 第3に,異なる意思決定モデルによる都市・農村復興価値の相違を検討する。 本研究は, 回復過程における重要な変遷と都市構造の違いを確認するために, 閾値モデルと人口規模の重要性を浮き彫りにする。

Frequent and intensive disasters make the repeated and uncertain post-disaster recovery process. Despite the importance of the successful recovery process, previous simulation studies on the post-disaster recovery process did not explore the sufficient number of household return decision model types, population sizes, and the corresponding critical transition conditions of the system. This paper simulates the recovery process in the agent-based model with multilayer networks to reveal the impact of household return decision model types and population sizes in a toy network. After that, this paper applies the agent-based model to the five selected counties affected by Hurricane Harvey in 2017 to check the urban-rural recovery differences by types of household return decision models. The agent-based model yields three conclusions. First, the threshold model can successfully substitute the binary logit model. Second, high thresholds and less than 1,000 populations perturb the recovery process, yielding critical transitions during the recovery process. Third, this study checks the urban-rural recovery value differences by different decision model types. This study highlights the importance of the threshold models and population sizes to check the critical transitions and urban-rural differences in the recovery process.
翻訳日:2024-01-15 18:58:06 公開日:2024-01-12
# PolyTOPS: 再構成可能でフレキシブルなPolyhedral Scheduler

PolyTOPS: Reconfigurable and Flexible Polyhedral Scheduler ( http://arxiv.org/abs/2401.06665v1 )

ライセンス: Link先を確認
Gianpietro Consolaro, Zhen Zhang, Harenome Razanajato, Nelson Lossing, Nassim Tchoulak, Adilla Susungi, Artur Cesar Araujo Alves, Renwei Zhang, Denis Barthou, Corinne Ancourt, Cedric Bastoul(参考訳) ポリヘドラル技術は、低レベルコンパイラや高レベルプロセスにおける自動コード最適化に広く用いられている。 ループ最適化はこの技術の中心であり、Feautrier、Pluto、Isl、Tensor Schedulerといった複数の多面体スケジューラが提案されている。 アーキテクチャの不均一性によってシナリオ固有の最適化の必要性が高まっている。 最も重要な事例の1つは、aiに使用されるnpu(neural processing unit)で表現され、異なる目的のループ最適化を必要とする可能性がある。 もう1つの考慮すべき要素は、多面的最適化が行われるフレームワークまたはコンパイラである。 ターゲットアーキテクチャ、コンパイル環境、アプリケーションドメインによって異なるシナリオは、アーキテクチャの機能セットを最大限活用するために異なる種類の最適化を必要とするかもしれません。 我々は,多面体スケジューラであるpolytopsを新たに導入した。 このスケジューラは、シナリオ固有のもの(最先端スケジューラのような)とカーネル固有のものの両方が可能な、多様なスケジューリング戦略の作成を可能にする。 PolyTOPSはIllとCLooGをコードジェネレータとして使用しており、MindSpore AKGディープラーニングコンパイラに統合されている。 異なるシナリオにおける実験結果は、優れた性能を示している: mindspore (npu ascend architecture) 上でのジオメアのスピードアップ 7.66x islスケジューリング上のハイブリッドカスタムオペレータ、冥王星スケジューリング上の異なるマルチコアアーキテクチャ上でのポリベンチ上でのジオメアのスピードアップ 1.80倍までである。 最後に、さまざまな最先端ツールとの比較をPolyMageのシナリオで示す。

Polyhedral techniques have been widely used for automatic code optimization in low-level compilers and higher-level processes. Loop optimization is central to this technique, and several polyhedral schedulers like Feautrier, Pluto, isl and Tensor Scheduler have been proposed, each of them targeting a different architecture, parallelism model, or application scenario. The need for scenario-specific optimization is growing due to the heterogeneity of architectures. One of the most critical cases is represented by NPUs (Neural Processing Units) used for AI, which may require loop optimization with different objectives. Another factor to be considered is the framework or compiler in which polyhedral optimization takes place. Different scenarios, depending on the target architecture, compilation environment, and application domain, may require different kinds of optimization to best exploit the architecture feature set. We introduce a new configurable polyhedral scheduler, PolyTOPS, that can be adjusted to various scenarios with straightforward, high-level configurations. This scheduler allows the creation of diverse scheduling strategies that can be both scenario-specific (like state-of-the-art schedulers) and kernel-specific, breaking the concept of a one-size-fits-all scheduler approach. PolyTOPS has been used with isl and CLooG as code generators and has been integrated in MindSpore AKG deep learning compiler. Experimental results in different scenarios show good performance: a geomean speedup of 7.66x on MindSpore (for the NPU Ascend architecture) hybrid custom operators over isl scheduling, a geomean speedup up to 1.80x on PolyBench on different multicore architectures over Pluto scheduling. Finally, some comparisons with different state-of-the-art tools are presented in the PolyMage scenario.
翻訳日:2024-01-15 18:57:46 公開日:2024-01-12
# WisdoM:文脈世界知識の融合によるマルチモーダル感性分析の改善

WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World Knowledge ( http://arxiv.org/abs/2401.06659v1 )

ライセンス: Link先を確認
Wenbin Wang, Liang Ding, Li Shen, Yong Luo, Han Hu, Dacheng Tao(参考訳) 様々なデータモダリティ(テキスト、画像など)を活用することで、感性分析が急速に進んでいる。 しかし、以前のほとんどの作品は表面的な情報に依存しており、文脈的世界知識(例えば、与えられた画像とテキストペアから派生した背景情報)を無視することで、より良いマルチモーダルな感情分析を実現する能力を制限する。 本稿では,大規模視覚言語モデル(LVLM)から得られた文脈的世界知識を活用し,マルチモーダル感情分析の強化を目的としたプラグインフレームワークWisdoMを提案する。 WisdoMはLVLMを使用して画像と対応する文を包括的に解析し、関連するコンテキストを同時に生成する。 文脈における雑音を低減するため、トレーニング不要なコンテキスト融合機構も導入する。 マルチモーダル感情分析タスクの多種多様な粒度にわたる実験結果から、我々の手法はいくつかの最先端手法よりも大幅に改善されている(5つの高度な手法で平均+1.89F1スコアを得る)。 コードはリリースされる。

Sentiment analysis is rapidly advancing by utilizing various data modalities (e.g., text, image). However, most previous works relied on superficial information, neglecting the incorporation of contextual world knowledge (e.g., background information derived from but beyond the given image and text pairs) and thereby restricting their ability to achieve better multimodal sentiment analysis. In this paper, we proposed a plug-in framework named WisdoM, designed to leverage contextual world knowledge induced from the large vision-language models (LVLMs) for enhanced multimodal sentiment analysis. WisdoM utilizes a LVLM to comprehensively analyze both images and corresponding sentences, simultaneously generating pertinent context. To reduce the noise in the context, we also introduce a training-free Contextual Fusion mechanism. Experimental results across diverse granularities of multimodal sentiment analysis tasks consistently demonstrate that our approach has substantial improvements (brings an average +1.89 F1 score among five advanced methods) over several state-of-the-art methods. Code will be released.
翻訳日:2024-01-15 18:57:13 公開日:2024-01-12
# 特異摂動のためのニューラルネットワーク

Neural Networks for Singular Perturbations ( http://arxiv.org/abs/2401.06656v1 )

ライセンス: Link先を確認
Joost A. A. Opschoor, Christoph Schwab, Christos Xenophontos(参考訳) 本研究では,ソボレフ法則において,一様摂動型楕円型2点境界値問題の解集合に対して,有界区間$(-1,1)$に対して,Deep Neural Network (DNN for short) expressivity rate boundsを証明した。 与えられた源項と反応係数は$[-1,1]$で解析可能であると仮定する。 DNNアーキテクチャのいくつかのクラスに対する特異摂動パラメータに関して一様であるNNサイズの観点から、ソボレフノルムにおける表現速度境界を確立する。 特に、ReLU NN、スパイクNN、$\tanh$-およびsigmoid-activated NN。 後者のアクティベーションは、DNNの最後の隠された層、すなわち浅いサブネットワークにおいて、明示的に 'exponential boundary layer solution features'' を表現でき、NNサイズの観点から堅牢な表現率境界を改善することができる。 すべてのDNNアーキテクチャは、解析入力データに対して、いわゆる「エネルギー」と「平衡」ソボレフノルムで堅牢な指数関数的解表現を可能にすることを証明している。

We prove deep neural network (DNN for short) expressivity rate bounds for solution sets of a model class of singularly perturbed, elliptic two-point boundary value problems, in Sobolev norms, on the bounded interval $(-1,1)$. We assume that the given source term and reaction coefficient are analytic in $[-1,1]$. We establish expression rate bounds in Sobolev norms in terms of the NN size which are uniform with respect to the singular perturbation parameter for several classes of DNN architectures. In particular, ReLU NNs, spiking NNs, and $\tanh$- and sigmoid-activated NNs. The latter activations can represent ``exponential boundary layer solution features'' explicitly, in the last hidden layer of the DNN, i.e. in a shallow subnetwork, and afford improved robust expression rate bounds in terms of the NN size. We prove that all DNN architectures allow robust exponential solution expression in so-called `energy' as well as in `balanced' Sobolev norms, for analytic input data.
翻訳日:2024-01-15 18:56:54 公開日:2024-01-12
# 量子近似最適化アルゴリズムにおけるパラメータ転送可能性のためのグラフ表現学習

Graph Representation Learning for Parameter Transferability in Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2401.06655v1 )

ライセンス: Link先を確認
Jose Falla, Quinn Langfitt, Yuri Alexeev and Ilya Safro(参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子強化組合せ最適化による量子優位性を達成するための最も有望な候補の1つである。 特殊MaxCut問題インスタンスに対する最適QAOAパラメータ濃度効果が観測されているが、厳密な研究はいまだ不十分である。 maxcutのための最適なqaoaパラメータのクラスタリングにより、maxcutインスタンス間のパラメータ転送性が、グラフを構成するサブグラフ(ライトコーン)の種類やグラフのノードの全体度(パリティ)など、グラフの局所的な特性に基づいて説明され、予測することができる。 本研究では,MaxCutインスタンスの異なるクラス間のパラメータ転送可能性を含むパラメータ転送可能性の優れたドナー候補を決定するために,5種類のグラフ埋め込み手法を適用する。 この手法を用いて,パラメータ最適化に要するイテレーション数を効果的に削減し,目標問題に対する近似解を桁違いに高速化する。 この手法はパラメータの変動最適化中に不毛高原に遭遇する問題を効果的に除去する。 さらに, 伝達パラメータが雑音下においても有効性を維持し, 実世界の量子アプリケーションでの利用をサポートすることを示した。 本研究は,QAOAが理想的条件と雑音条件の両方で著しく加速されるように最適なドナー候補を予測できる組合せ最適化インスタンスのクラスを特定するためのフレームワークを提案する。

The quantum approximate optimization algorithm (QAOA) is one of the most promising candidates for achieving quantum advantage through quantum-enhanced combinatorial optimization. Optimal QAOA parameter concentration effects for special MaxCut problem instances have been observed, but a rigorous study of the subject is still lacking. Due to clustering of optimal QAOA parameters for MaxCut, successful parameter transferability between different MaxCut instances can be explained and predicted based on local properties of the graphs, including the type of subgraphs (lightcones) from which graphs are composed as well as the overall degree of nodes in the graph (parity). In this work, we apply five different graph embedding techniques to determine good donor candidates for parameter transferability, including parameter transferability between different classes of MaxCut instances. Using this technique, we effectively reduce the number of iterations required for parameter optimization, obtaining an approximate solution to the target problem with an order of magnitude speedup. This procedure also effectively removes the problem of encountering barren plateaus during the variational optimization of parameters. Additionally, our findings demonstrate that the transferred parameters maintain effectiveness when subjected to noise, supporting their use in real-world quantum applications. This work presents a framework for identifying classes of combinatorial optimization instances for which optimal donor candidates can be predicted such that QAOA can be substantially accelerated under both ideal and noisy conditions.
翻訳日:2024-01-15 18:56:34 公開日:2024-01-12
# 一貫性XAIベンチマークのためのフラッピングとオクルージョン戦略の分離

Decoupling Pixel Flipping and Occlusion Strategy for Consistent XAI Benchmarks ( http://arxiv.org/abs/2401.06654v1 )

ライセンス: Link先を確認
Stefan Bl\"ucher, Johanna Vielhaben, Nils Strodthoff(参考訳) 特徴除去は、排他的説明(共有値)と評価(ピクセルフリップ、PF)の両方のための、eXplainable AI(XAI)のための中心的なビルディングブロックである。 しかし、咬合戦略は単純な平均置換から最先端の拡散モデルによる塗装まで大きく異なる可能性がある。 この曖昧さは、排他的アプローチの有用性を制限する。 例えば、PFベンチマークはランキングに矛盾する。 特徴は、最も影響力のある第1(MIF)から始まるか、最も影響力の低い第1(LIF)から削除される。 本研究は、この不一致問題を解決するための2つの相補的視点を提案する。 まず,人工試料が信頼性の低いモデル評価につながるという,オクルージョンに基づくXAIの一般的な批判に対処する。 本稿では,R(eference)-Out-of-Model-Scope(OMS)スコアによる信頼性の測定を提案する。 R-OMSスコアは、オクルージョン戦略の体系的な比較を可能にし、一貫性のあるPFランキングをグループ化することで、不一致を解消する。 第2に,MIFとLIFの洞察力はR-OMSスコアに反比例することを示した。 これを活用するために、MIF と LIF の測度を対称相対性ゲイン(SRG)測度に組み合わせる。 これは、根底にある閉塞戦略と固有のつながりを壊し、一貫性のあるランキングにつながる。 これにより、40の異なるオクルージョン戦略の集合を検証できる不一致問題を解消する。

Feature removal is a central building block for eXplainable AI (XAI), both for occlusion-based explanations (Shapley values) as well as their evaluation (pixel flipping, PF). However, occlusion strategies can vary significantly from simple mean replacement up to inpainting with state-of-the-art diffusion models. This ambiguity limits the usefulness of occlusion-based approaches. For example, PF benchmarks lead to contradicting rankings. This is amplified by competing PF measures: Features are either removed starting with most influential first (MIF) or least influential first (LIF). This study proposes two complementary perspectives to resolve this disagreement problem. Firstly, we address the common criticism of occlusion-based XAI, that artificial samples lead to unreliable model evaluations. We propose to measure the reliability by the R(eference)-Out-of-Model-Scope (OMS) score. The R-OMS score enables a systematic comparison of occlusion strategies and resolves the disagreement problem by grouping consistent PF rankings. Secondly, we show that the insightfulness of MIF and LIF is conversely dependent on the R-OMS score. To leverage this, we combine the MIF and LIF measures into the symmetric relevance gain (SRG) measure. This breaks the inherent connection to the underlying occlusion strategy and leads to consistent rankings. This resolves the disagreement problem, which we verify for a set of 40 different occlusion strategies.
翻訳日:2024-01-15 18:56:07 公開日:2024-01-12
# Kotlinコンパイラの差分テストのための進化的生成ファズリング

Evolutionary Generative Fuzzing for Differential Testing of the Kotlin Compiler ( http://arxiv.org/abs/2401.06653v1 )

ライセンス: Link先を確認
Calin Georgescu, Mitchell Olsthoorn, Pouria Derakhshanfar, Marat Akhin, Annibale Panichella(参考訳) コンパイラの正確性は、信頼できるソフトウェア開発の基盤である。 しかし、プログラムの膨大なスペースと現代のプログラミング言語の複雑さを考えると、コンパイラの体系的なテストは実現不可能である。 この文脈では、差分テストは、入力と同じプログラムセットが与えられた代替コンパイラの出力を比較することで、オラクルの問題に対処する実用的な方法論を提供する。 本稿ではJetBrainsが開発したKotlinコンパイラのバグ検出における差分テストの有効性について検討する。 K1およびK2コンパイラの入力プログラムを生成するブラックボックス生成手法を提案する。 まず、kotlinセマンティック(semantic interface)と構文(enriched context-free grammar)言語機能の動作可能なモデルを構築し、その後、ランダムコードスニペットを生成するために活用します。 次に、より多様な入力プログラムを生成するために、2つの遺伝的アルゴリズム(GA)を導入することで、ランダムサンプリングを拡張する。 今回のケーススタディでは,提案手法がk1とk2のバグを効果的に検出できることが示されている。 異なる検索アルゴリズムによって発見された欠陥の数に有意な差はみられないが、ランダム検索とGAは、異なるカテゴリのバグを見つけるために相補的である。 最後に,生成した入力プログラムのサイズ,複雑性,障害検出能力の関係について考察する。

Compiler correctness is a cornerstone of reliable software development. However, systematic testing of compilers is infeasible, given the vast space of possible programs and the complexity of modern programming languages. In this context, differential testing offers a practical methodology as it addresses the oracle problem by comparing the output of alternative compilers given the same set of programs as input. In this paper, we investigate the effectiveness of differential testing in finding bugs within the Kotlin compilers developed at JetBrains. We propose a black-box generative approach that creates input programs for the K1 and K2 compilers. First, we build workable models of Kotlin semantic (semantic interface) and syntactic (enriched context-free grammar) language features, which are subsequently exploited to generate random code snippets. Second, we extend random sampling by introducing two genetic algorithms (GAs) that aim to generate more diverse input programs. Our case study shows that the proposed approach effectively detects bugs in K1 and K2; these bugs have been confirmed and (some) fixed by JetBrains developers. While we do not observe a significant difference w.r.t. the number of defects uncovered by the different search algorithms, random search and GAs are complementary as they find different categories of bugs. Finally, we provide insights into the relationships between the size, complexity, and fault detection capability of the generated input programs.
翻訳日:2024-01-15 18:55:42 公開日:2024-01-12
# ParEGOを用いたデータ効率の良い対話型多目的最適化

Data-Efficient Interactive Multi-Objective Optimization Using ParEGO ( http://arxiv.org/abs/2401.06649v1 )

ライセンス: Link先を確認
Arash Heidari, Sebastian Rojas Gonzalez, Tom Dhaene, Ivo Couckuyt(参考訳) 多目的最適化は、工学や金融など様々な分野において広く研究されている問題であり、競争対象間の最適なトレードオフを提供する非支配的なソリューションの集合を特定しようとするものである。 しかしながら、パレート前線全体の計算は、計算資源と時間、特に多くの目的を扱う場合の両方において、非常に高価になる可能性がある。 実践的な応用では、意思決定者(DM)は、実装すべき好みに合わせてパレートフロントの単一ソリューションを選択し、従来の多目的アルゴリズムはDMにとって面白くない多くの予算サンプリングソリューションに投資する。 本稿では,ガウス過程と高度な離散化手法を用いた2つの新しいアルゴリズムを提案する。 我々のアプローチは意思決定者と対話し、最適化プロセスを望ましいトレードオフに向けて導く。 提案手法は,計算効率を維持しつつ意思決定者の選好に合致する非支配的な解を見つけるのに有効であることを示す。

Multi-objective optimization is a widely studied problem in diverse fields, such as engineering and finance, that seeks to identify a set of non-dominated solutions that provide optimal trade-offs among competing objectives. However, the computation of the entire Pareto front can become prohibitively expensive, both in terms of computational resources and time, particularly when dealing with a large number of objectives. In practical applications, decision-makers (DMs) will select a single solution of the Pareto front that aligns with their preferences to be implemented; thus, traditional multi-objective algorithms invest a lot of budget sampling solutions that are not interesting for the DM. In this paper, we propose two novel algorithms that employ Gaussian Processes and advanced discretization methods to efficiently locate the most preferred region of the Pareto front in expensive-to-evaluate problems. Our approach involves interacting with the decision-maker to guide the optimization process towards their preferred trade-offs. Our experimental results demonstrate that our proposed algorithms are effective in finding non-dominated solutions that align with the decision-maker's preferences while maintaining computational efficiency.
翻訳日:2024-01-15 18:55:19 公開日:2024-01-12
# 外挿によるブロック磁化最小化と$\beta$-NMFへの応用

Block Majorization Minimization with Extrapolation and Application to $\beta$-NMF ( http://arxiv.org/abs/2401.06646v1 )

ライセンス: Link先を確認
Le Thi Khanh Hien, Valentin Leplat, Nicolas Gillis(参考訳) マルチ凸最適化問題のクラスを解くために,外挿法(BMMe)を用いたブロック偏極最小化法を提案する。 BMMeの外挿パラメータは、新しい適応更新ルールを用いて更新される。 ブロックメジャー化最小化をブロックミラー降下法として再構成できることを示し,各イテレーションでブレグマン分岐を適応的に更新することにより,bmmeに対する後続収束を確立する。 この手法は,非負行列分解問題に対して,$\beta\in [1,2]$ の$\beta$-divergences (\beta$-nmf) を用いて効率的なアルゴリズムを設計する。 これらのアルゴリズムは乗法的更新と外挿を併用し、収束保証を提供する新しい結果の恩恵を受ける。 また,広範囲な実験により,$\beta$-nmf に対する bmme の大幅な加速を実証的に示す。

We propose a Block Majorization Minimization method with Extrapolation (BMMe) for solving a class of multi-convex optimization problems. The extrapolation parameters of BMMe are updated using a novel adaptive update rule. By showing that block majorization minimization can be reformulated as a block mirror descent method, with the Bregman divergence adaptively updated at each iteration, we establish subsequential convergence for BMMe. We use this method to design efficient algorithms to tackle nonnegative matrix factorization problems with the $\beta$-divergences ($\beta$-NMF) for $\beta\in [1,2]$. These algorithms, which are multiplicative updates with extrapolation, benefit from our novel results that offer convergence guarantees. We also empirically illustrate the significant acceleration of BMMe for $\beta$-NMF through extensive experiments.
翻訳日:2024-01-15 18:55:00 公開日:2024-01-12
# SeizNet:セズレ予測のためのAI内蔵型センサーネットワークシステム

SeizNet: An AI-enabled Implantable Sensor Network System for Seizure Prediction ( http://arxiv.org/abs/2401.06644v1 )

ライセンス: Link先を確認
Ali Saeizadeh, Douglas Schonholtz, Daniel Uvaydov, Raffaele Guida, Emrecan Demirors, Pedram Johari, Jorge M. Jimenez, Joseph S. Neimat, Tommaso Melodia(参考訳) 本稿では,Deep Learning (DL) 法と組込み型センサネットワークを用いてててんかん発作を予測する閉ループシステムであるSeezNetを紹介する。 薬理学的治療は一部のてんかん患者(世界中で約65万人が影響を受ける)に効果があるが、3人に1人は薬剤耐性てんかんに苦しむ。 発作の影響を軽減するために、差し迫った発作の患者に通知し、予防措置を講じることができる予測システムが開発されている。 SeizNetはDL技術を活用し、複数の記録、特に頭蓋内脳波(iEEG)と心電図(ECG)センサーからのデータを組み合わせて、非常に高い感度を維持しながら発作予測の特異性を大幅に改善することができる。 seiznet dlアルゴリズムは、エッジでの効率的なリアルタイム実行、データプライバシの懸念、データ転送オーバーヘッド、クラウドベースのソリューションに関連する電力非効率を最小化するように設計されている。 以上の結果から,SeizNetは従来の単一モダリティおよび非個人化予測システムよりも優れており,99%の精度で発作を予測し,難治性てんかん治療における新たな道筋を提供することがわかった。

In this paper, we introduce SeizNet, a closed-loop system for predicting epileptic seizures through the use of Deep Learning (DL) method and implantable sensor networks. While pharmacological treatment is effective for some epilepsy patients (with ~65M people affected worldwide), one out of three suffer from drug-resistant epilepsy. To alleviate the impact of seizure, predictive systems have been developed that can notify such patients of an impending seizure, allowing them to take precautionary measures. SeizNet leverages DL techniques and combines data from multiple recordings, specifically intracranial electroencephalogram (iEEG) and electrocardiogram (ECG) sensors, that can significantly improve the specificity of seizure prediction while preserving very high levels of sensitivity. SeizNet DL algorithms are designed for efficient real-time execution at the edge, minimizing data privacy concerns, data transmission overhead, and power inefficiencies associated with cloud-based solutions. Our results indicate that SeizNet outperforms traditional single-modality and non-personalized prediction systems in all metrics, achieving up to 99% accuracy in predicting seizure, offering a promising new avenue in refractory epilepsy treatment.
翻訳日:2024-01-15 18:54:46 公開日:2024-01-12
# 騒音適応型(加速型)確率重ボールモーメント

Noise-adaptive (Accelerated) Stochastic Heavy-Ball Momentum ( http://arxiv.org/abs/2401.06738v1 )

ライセンス: Link先を確認
Anh Dang, Reza Babanezhad, Sharan Vaswani(参考訳) 我々は,滑らかで強い凸条件下での確率重球(SHB)運動量の収束を解析した。 Kidambi et al. (2018) は、SHB (小さなミニバッチを持つ) が二次数に対してさえ収束速度が加速できないことを示し、SHB の実用的ゲインがミニバッチの副産物であるという予想を示した。 ミニバッチサイズがしきい値より大きい場合、shbは加速速度を得ることができることを示すことで、この主張を裏付ける。 特に、条件数$\kappa$の強い凸二次数に対して、標準のステップサイズと運動量パラメータを持つSHBが$O\left(\exp(-\frac{T}{\sqrt{\kappa}}) + \sigma \right)$収束率、$T$は反復数、$\sigma^2$は確率勾配の分散であることを示す。 最小化器への収束を確保するために、雑音適応型 $O\left(-\frac{T}{\sqrt{\kappa}} \right) + \frac{\sigma}{T}\right)$ rate をもたらす多段階アプローチを提案する。 一般の強凸函数に対しては、SHB の平均解釈と指数的なステップサイズを使い、$O\left(\exp\left(-\frac{T}{\kappa} \right) + \frac{\sigma^2}{T} \right)$ を雑音適応的に最小値に収束させる。 最後に,提案アルゴリズムの有効性を実証的に示す。

We analyze the convergence of stochastic heavy ball (SHB) momentum in the smooth, strongly-convex setting. Kidambi et al. (2018) show that SHB (with small mini-batches) cannot attain an accelerated rate of convergence even for quadratics, and conjecture that the practical gain of SHB is a by-product of mini-batching. We substantiate this claim by showing that SHB can obtain an accelerated rate when the mini-batch size is larger than some threshold. In particular, for strongly-convex quadratics with condition number $\kappa$, we prove that SHB with the standard step-size and momentum parameters results in an $O\left(\exp(-\frac{T}{\sqrt{\kappa}}) + \sigma \right)$ convergence rate, where $T$ is the number of iterations and $\sigma^2$ is the variance in the stochastic gradients. To ensure convergence to the minimizer, we propose a multi-stage approach that results in a noise-adaptive $O\left(\exp\left(-\frac{T}{\sqrt{\kappa}} \right) + \frac{\sigma}{T}\right)$ rate. For general strongly-convex functions, we use the averaging interpretation of SHB along with exponential step-sizes to prove an $O\left(\exp\left(-\frac{T}{\kappa} \right) + \frac{\sigma^2}{T} \right)$ convergence to the minimizer in a noise-adaptive manner. Finally, we empirically demonstrate the effectiveness of the proposed algorithms.
翻訳日:2024-01-15 18:47:49 公開日:2024-01-12
# ライニング粒子

Lying particles ( http://arxiv.org/abs/2401.06735v1 )

ライセンス: Link先を確認
Lev Vaidman(参考訳) 粒子がどこにいるかに関する誤解を招く証拠を提示するいくつかの実験の共通した特徴を同定し、議論する。 干渉増幅効果を考慮に入れると,実験結果が一貫した画像が得られることが示唆された。

The common feature of several experiments, performed and proposed, in which particles provide misleading evidence about where they have been, is identified and discussed. It is argued that the experimental results provide a consistent picture when interference amplification effects are taken into account.
翻訳日:2024-01-15 18:47:16 公開日:2024-01-12
# 信頼できないこと:言語モデルが不確実性表現に与える影響

Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty ( http://arxiv.org/abs/2401.06730v1 )

ライセンス: Link先を確認
Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Maarten Sap(参考訳) 自然言語が人間のAIインタラクションのデフォルトインターフェースになるにつれて、下流アプリケーションで不確実性を適切に伝達するLMが不可欠である。 本研究では, 自然言語による応答に対する自信と, LMを用いた不確実性に対する下流ユーザの行動について検討する。 一般に展開されたモデルについて検討し,不適切な応答を発生しても疑問に答える場合,LMは不確かさを表現できないことを発見した。 LMは明示的に自信を表現するよう促すことができるが、自信過剰な傾向があり、自信のある反応の中で高いエラー率(平均47%)をもたらす。 我々は,人間実験を行うことで,自信過剰のリスクを検証し,ユーザが確実にマークされているかどうかに関わらず,lm世代に大きく依存していることを示す。 最後に、RLHFアライメントで使用される嗜好注釈付きデータセットを調査し、不確実性のあるテキストに対して人間が偏見を持っていることを確認する。 我々の研究は、人間とLMの相互作用に直面する新たな安全上の障害を強調し、今後の設計勧告と緩和戦略を提案する。

As natural language becomes the default interface for human-AI interaction, there is a critical need for LMs to appropriately communicate uncertainties in downstream applications. In this work, we investigate how LMs incorporate confidence about their responses via natural language and how downstream users behave in response to LM-articulated uncertainties. We examine publicly deployed models and find that LMs are unable to express uncertainties when answering questions even when they produce incorrect responses. LMs can be explicitly prompted to express confidences, but tend to be overconfident, resulting in high error rates (on average 47%) among confident responses. We test the risks of LM overconfidence by running human experiments and show that users rely heavily on LM generations, whether or not they are marked by certainty. Lastly, we investigate the preference-annotated datasets used in RLHF alignment and find that humans have a bias against texts with uncertainty. Our work highlights a new set of safety harms facing human-LM interactions and proposes design recommendations and mitigating strategies moving forward.
翻訳日:2024-01-15 18:47:11 公開日:2024-01-12
# 計量的精度の資源として、偶体相互作用は非対称性を好む

Even-body interactions favour asymmetry as a resource in metrological precision ( http://arxiv.org/abs/2401.06729v1 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Debarupa Saha, Ujjwal Sen(参考訳) 真のマルチパーティの絡み合ったプローブは、ジェネレータが局所項のみからなる場合、ユニタリエンコーダのジェネレータに対応する位相を推定する最小誤差をもたらす。 我々は、ジェネレータに高次相互作用項を用いる場合、真のマルチパーティの絡み合いが最高の気象学的精度を達成するのに不可欠かどうかを問う。 私たちは答えの中で二分法を識別する。 具体的には、奇体相互作用を持つ発生器は、最善の計測精度を達成するためにプローブの真の多成分絡み合いを必要とするが、偶体相互作用を持つ生成器の場合、状況は逆である。 偶体相互作用項を含む生成子に対応する最適プローブは、絡み合っているかもしれないが、すべての二分詞、特に、大きな数制限を含む一部のパーティの数の範囲において、最適状態は非対称である。 したがって、非対称性は真の多元的絡み合いではなく、このシナリオの資源であり、グローバルシステムの局所的な部分の状態の相違を指す。 さらに、我々は、常に非対称な積状態を得ることができ、偶数体相互作用に最適なメトロジー的精度を与えるパーティーの数に上限を与える。 その過程で、任意の数の当事者に対する2体および3体の相互作用に対して閉形式に量子フィッシャー情報を見いだし、どちらの場合においても、当事者数が大きければ、対称な積プローブのみを考えると、メトロロジー精度は最適でないことを証明する。 さらに, 任意の局所次元に対してこれらの結果を保持する生成器の局所成分の条件を同定する。

Genuine multiparty entangled probes lead to minimum error in estimating the phase corresponding to the generator of a unitary encoder, if the generator comprises of only local terms. We ask if genuine multiparty entanglement remains indispensable in attaining the best metrological precision if we employ higher-order interaction terms in the generator. We identify a dichotomy in the answer. Specifically, we find that generators having odd-body interactions necessarily require genuine multipartite entanglement in probes to attain the best metrological precision, but the situation is opposite in the case of generators with even-body interactions. The optimal probes corresponding to generators that contain even-body interaction terms, may be entangled, but certainly not so in all bipartitions, and particularly, for certain ranges of the number of parties including the large number limit, the optimal state is asymmetric. Asymmetry, which therefore is a resource in this scenario rather than genuine multiparty entanglement, refers to the disparity between states of local parts of the global system. Additionally, we provide an upper bound on the number of parties up to which one can always obtain an asymmetric product state that gives the best metrological precision for even-body interactions. En route, we find the quantum Fisher information in closed form for two- and three-body interactions for an arbitrary number of parties, and prove, in both the cases, that when the number of parties is large, the metrological precision is non-optimal if we consider only symmetric product probes. Further, we identify conditions on the local component of the generator, for which these results hold for arbitrary local dimensions.
翻訳日:2024-01-15 18:46:51 公開日:2024-01-12
# 有意グラフ埋め込みのためのディープマニホールドグラフ自動エンコーダ

Deep Manifold Graph Auto-Encoder for Attributed Graph Embedding ( http://arxiv.org/abs/2401.06727v1 )

ライセンス: Link先を確認
Bozhen Hu, Zelin Zang, Jun Xia, Lirong Wu, Cheng Tan, Stan Z. Li(参考訳) 後続タスクのための低次元空間におけるグラフデータの表現は、属性グラフ埋め込みの目的である。 既存のニューラルネットワークアプローチのほとんどは、再構成エラーを最小限にして潜在表現を学ぶ。 稀な研究では、潜在コードのデータ分布とトポロジー構造を同時に考慮し、実世界のグラフデータへの埋め込みが劣ることが多い。 本稿では,学習表現の安定性と質を向上させるために,属性付きグラフデータに対する新しいDeep Manifold (Variational Graph Auto-Encoder (DMVGAE/DMGAE)法を提案する。 ノード対ノードの測地線類似性は、予め定義された分布の下で元の空間と潜在空間の間に保存される。 提案手法は,一般的なデータセットにまたがる異なるダウンストリームタスクにおいて,最先端のベースラインアルゴリズムを有意なマージンで上回っている。 受け入れ後、コードのリリースを約束します。

Representing graph data in a low-dimensional space for subsequent tasks is the purpose of attributed graph embedding. Most existing neural network approaches learn latent representations by minimizing reconstruction errors. Rare work considers the data distribution and the topological structure of latent codes simultaneously, which often results in inferior embeddings in real-world graph data. This paper proposes a novel Deep Manifold (Variational) Graph Auto-Encoder (DMVGAE/DMGAE) method for attributed graph data to improve the stability and quality of learned representations to tackle the crowding problem. The node-to-node geodesic similarity is preserved between the original and latent space under a pre-defined distribution. The proposed method surpasses state-of-the-art baseline algorithms by a significant margin on different downstream tasks across popular datasets, which validates our solutions. We promise to release the code after acceptance.
翻訳日:2024-01-15 18:46:23 公開日:2024-01-12
# 局所ハミルトニアンにおける製品状態問題の複雑度分類

Complexity Classification of Product State Problems for Local Hamiltonians ( http://arxiv.org/abs/2401.06725v1 )

ライセンス: Link先を確認
John Kallaugher, Ojas Parekh, Kevin Thompson, Yipu Wang and Justin Yirka(参考訳) 積状態(英: product states, unentangled tensor products of single qubits)は、最先端のハミルトニアン近似アルゴリズムを含む量子計算におけるユビキタスアンサッツである。 自然の疑問は、ハミルトンの興味深いファミリーの製品状態の問題を効率的に解決するかどうかである。 許容される2量子ビット相互作用の任意の固定集合によって定義されるハミルトニアンの最小エネルギー積状態を見つける複雑さを完全に分類する。 その結果、ハミルトン問題を解く複雑さと、許容される制約に基づいて古典的な制約満足度問題を分類した。 積状態の最小エネルギーを推定することは、全ての許容相互作用が 1-局所であり、NP-完全でない場合に限る。 同様に、非自明な2体相互作用の族は、NP完全積状態問題を持つハミルトニアンを生成する。 我々の硬さ構造は、一定の大きさの結合強度しか必要としない。 我々の証明の重要な構成要素は、ベクトルマックス・カット問題の新しい変種に対する硬度結果の収集である。 我々の定義は、二乗距離よりも距離の和を含み、直線的なストレッチを可能にする。 我々の分類は、量子マックスカットモデル(量子ハイゼンベルクモデル)における積状態の最適化がnp完全であることを示す新しい証明である。

Product states, unentangled tensor products of single qubits, are a ubiquitous ansatz in quantum computation, including for state-of-the-art Hamiltonian approximation algorithms. A natural question is whether we should expect to efficiently solve product state problems on any interesting families of Hamiltonians. We completely classify the complexity of finding minimum-energy product states for Hamiltonians defined by any fixed set of allowed 2-qubit interactions. Our results follow a line of work classifying the complexity of solving Hamiltonian problems and classical constraint satisfaction problems based on the allowed constraints. We prove that estimating the minimum energy of a product state is in P if and only if all allowed interactions are 1-local, and NP-complete otherwise. Equivalently, any family of non-trivial two-body interactions generates Hamiltonians with NP-complete product-state problems. Our hardness constructions only require coupling strengths of constant magnitude. A crucial component of our proofs is a collection of hardness results for a new variant of the Vector Max-Cut problem, which should be of independent interest. Our definition involves sums of distances rather than squared distances and allows linear stretches. A corollary of our classification is a new proof that optimizing product states in the Quantum Max-Cut model (the quantum Heisenberg model) is NP-complete.
翻訳日:2024-01-15 18:46:07 公開日:2024-01-12
# 分析的推論としての税法改正

Reframing Tax Law Entailment as Analogical Reasoning ( http://arxiv.org/abs/2401.06715v1 )

ライセンス: Link先を確認
Xinrui Zou, Ming Zhang, Nathaniel Weir, Benjamin Van Durme, and Nils Holzenberger(参考訳) 法定推論とは、自然言語で記述された一連の事例事実に立法の規定を適用することを指す。 法定推論を類推タスクとして再構成し、類推タスクの各インスタンスは法定推論の2つのインスタンスの組み合わせを含む。 これはデータセットのサイズを2桁大きくし、解釈可能性の要素を導入する。 このタスクは、自然言語処理モデルが本来のタスクとほぼ同等に困難であることを示す。 最後に、私たちは法定推論に戻り、検索メカニズムとアナロジーモデルの組み合わせでそれを解決し、以前の比較作業でいくつかの進歩を示しています。

Statutory reasoning refers to the application of legislative provisions to a series of case facts described in natural language. We re-frame statutory reasoning as an analogy task, where each instance of the analogy task involves a combination of two instances of statutory reasoning. This increases the dataset size by two orders of magnitude, and introduces an element of interpretability. We show that this task is roughly as difficult to Natural Language Processing models as the original task. Finally, we come back to statutory reasoning, solving it with a combination of a retrieval mechanism and analogy models, and showing some progress on prior comparable work.
翻訳日:2024-01-15 18:45:45 公開日:2024-01-12
# スタイル表現を用いた機械生成テキストの少数ショット検出

Few-Shot Detection of Machine-Generated Text using Style Representations ( http://arxiv.org/abs/2401.06712v1 )

ライセンス: Link先を確認
Rafael Rivera Soto, Kailin Koch, Aleem Khan, Barry Chen, Marcus Bishop, and Nicholas Andrews(参考訳) 人間の文章を巧みに模倣する指導訓練言語モデルの出現は、乱用の大きなリスクをもたらす。 例えば、そのようなモデルは、盗作、偽情報、スパム、フィッシングに使用することができる。 しかし、そのような虐待は、テキストが人間ではなく言語モデルによって構成されているかどうかを検出する能力に反する可能性がある。 この問題に対する以前のアプローチは、確認された人や機械による文書のコーパスに基づいて訓練された教師あり手法に依存していた。 残念なことに、モデル過小評価は、ニューラルネットワークベースの検出器にとって避けられない課題となり、検出器のトレーニングに使用するモデルよりも、さらに流動的なテキストを生成する言語モデルのリリースなど、データシフトに直面して脆弱になる。 他の以前のアプローチでは、推論や検出時に問題となるドキュメントを生成したかもしれないモデルにアクセスする必要がある。 これらの課題を踏まえて、トレーニング時に言語モデルからのサンプルに依存しない、根本的に異なるアプローチを追求します。 代わりに,人間の文章から推定される文体表現の活用を提案する。 実際、人間の著者間の識別に有効な機能は、llama 2、chatgpt、gpt-4といった最先端の大規模言語モデルを含む、人間とマシン作者の区別にも有効であることが分かりました。 さらに、いくつかの特定の言語モデルによって構成された少数の例を考えると、我々の手法は、与えられた文書を生成するモデルを予測できる。

The advent of instruction-tuned language models that convincingly mimic human writing poses a significant risk of abuse. For example, such models could be used for plagiarism, disinformation, spam, or phishing. However, such abuse may be counteracted with the ability to detect whether a piece of text was composed by a language model rather than a human. Some previous approaches to this problem have relied on supervised methods trained on corpora of confirmed human and machine-written documents. Unfortunately, model under-specification poses an unavoidable challenge for neural network-based detectors, making them brittle in the face of data shifts, such as the release of further language models producing still more fluent text than the models used to train the detectors. Other previous approaches require access to the models that may have generated a document in question at inference or detection time, which is often impractical. In light of these challenges, we pursue a fundamentally different approach not relying on samples from language models of concern at training time. Instead, we propose to leverage representations of writing style estimated from human-authored text. Indeed, we find that features effective at distinguishing among human authors are also effective at distinguishing human from machine authors, including state of the art large language models like Llama 2, ChatGPT, and GPT-4. Furthermore, given a handful of examples composed by each of several specific language models of interest, our approach affords the ability to predict which model generated a given document.
翻訳日:2024-01-15 18:45:35 公開日:2024-01-12
# 大規模変換関数最適化のためのモデル自由近似ベイズ学習

Model-Free Approximate Bayesian Learning for Large-Scale Conversion Funnel Optimization ( http://arxiv.org/abs/2401.06710v1 )

ライセンス: Link先を確認
Garud Iyengar and Raghav Singal(参考訳) 消費者国家の機能として広告行動を選択する柔軟性は、現代のマーケティングキャンペーンにとって重要である。 新製品の採用確率を最大化する最適な個別化介入を同定する問題について検討する。 消費者の振る舞いを変換ファネルでモデル化し、各消費者の状態(例えば、企業とのインタラクション履歴)をキャプチャし、消費者の行動が、彼女の状態と会社のシーケンシャルな介入の両方の機能として変化するようにする。 実世界のメールマーケティングデータセットにおいて, 消費者行動の精度を極めて高い(サンプル外AUCは0.95以上)。 しかし、これは非常に大規模な学習問題を引き起こし、企業は消費者の相互作用から様々な介入の状態固有の効果を学ばなければならない。 本稿では,モデルレス近似ベイズ学習と呼ばれる,帰属型意思決定アルゴリズムを提案する。 提案アルゴリズムはトンプソンサンプリングの帯域幅に対する解釈可能性とスケーラビリティを継承し,各状態依存的介入の価値に関する近似的信念を維持する。 アルゴリズムが消費者と対話するにつれて、信念が更新される。 ベイズ更新の近似であるにもかかわらず、アルゴリズムの漸近的最適性を証明し、収束率を分析する。 本アルゴリズムは,実世界のメールマーケティングデータセットに校正された大規模シミュレーションに対する従来のアプローチを著しく上回っていることを示す。

The flexibility of choosing the ad action as a function of the consumer state is critical for modern-day marketing campaigns. We study the problem of identifying the optimal sequential personalized interventions that maximize the adoption probability for a new product. We model consumer behavior by a conversion funnel that captures the state of each consumer (e.g., interaction history with the firm) and allows the consumer behavior to vary as a function of both her state and firm's sequential interventions. We show our model captures consumer behavior with very high accuracy (out-of-sample AUC of over 0.95) in a real-world email marketing dataset. However, it results in a very large-scale learning problem, where the firm must learn the state-specific effects of various interventions from consumer interactions. We propose a novel attribution-based decision-making algorithm for this problem that we call model-free approximate Bayesian learning. Our algorithm inherits the interpretability and scalability of Thompson sampling for bandits and maintains an approximate belief over the value of each state-specific intervention. The belief is updated as the algorithm interacts with the consumers. Despite being an approximation to the Bayes update, we prove the asymptotic optimality of our algorithm and analyze its convergence rate. We show that our algorithm significantly outperforms traditional approaches on extensive simulations calibrated to a real-world email marketing dataset.
翻訳日:2024-01-15 18:45:13 公開日:2024-01-12
# ユーザペンドテキストにおける心理概念抽出と分類の信頼性解析

Reliability Analysis of Psychological Concept Extraction and Classification in User-penned Text ( http://arxiv.org/abs/2401.06709v1 )

ライセンス: Link先を確認
Muskan Garg, MSVPJ Sathvik, Amrit Chadha, Shaina Raza, Sunghwan Sohn(参考訳) 社会的NLP研究コミュニティは、言語の使用と自己認識の間の複雑な相互作用のための責任あるAIモデルを構築するために、メンタルヘルス分析の計算的進歩が最近急増しているのを目撃している。 このような責任あるAIモデルは、ソーシャルメディア上でユーザーが入力したテキストから心理的概念を定量化するのに役立つ。 低レベル(分類)タスクを超えて考えることで、既存のバイナリ分類データセットを、説明のレンズを通して信頼性分析の高レベルタスクへと前進させ、安全対策の1つとします。 私たちはLoSTデータセットに注釈を付け、Redditユーザーの投稿に低い自己評価があることを示唆するニュアンスのあるテキストキューをキャプチャします。 さらに、低自尊心の有無を決定するために開発されたNLPモデルは、以下の3つのタイプに焦点をあてている。 (i)トリガー:精神障害を引き起こす単語 (ii)LoST指標:低自尊心を強調するテキスト指標、 (iii)結果:精神障害の結果を表す言葉。 既存の分類器を実装し,事前学習された言語モデル (plms) における注意のメカニズムを検討する。 以上の結果から,PLM の焦点を Trigger と Consequences からより包括的な説明に移すことの必要性が示唆された。

The social NLP research community witness a recent surge in the computational advancements of mental health analysis to build responsible AI models for a complex interplay between language use and self-perception. Such responsible AI models aid in quantifying the psychological concepts from user-penned texts on social media. On thinking beyond the low-level (classification) task, we advance the existing binary classification dataset, towards a higher-level task of reliability analysis through the lens of explanations, posing it as one of the safety measures. We annotate the LoST dataset to capture nuanced textual cues that suggest the presence of low self-esteem in the posts of Reddit users. We further state that the NLP models developed for determining the presence of low self-esteem, focus more on three types of textual cues: (i) Trigger: words that triggers mental disturbance, (ii) LoST indicators: text indicators emphasizing low self-esteem, and (iii) Consequences: words describing the consequences of mental disturbance. We implement existing classifiers to examine the attention mechanism in pre-trained language models (PLMs) for a domain-specific psychology-grounded task. Our findings suggest the need of shifting the focus of PLMs from Trigger and Consequences to a more comprehensive explanation, emphasizing LoST indicators while determining low self-esteem in Reddit posts.
翻訳日:2024-01-15 18:44:49 公開日:2024-01-12
# マルチCandidate Speculative Decoding

Multi-Candidate Speculative Decoding ( http://arxiv.org/abs/2401.06706v1 )

ライセンス: Link先を確認
Sen Yang, Shujian Huang, Xinyu Dai, Jiajun Chen(参考訳) 大きな言語モデルは様々なnlpタスクにまたがって印象的な機能を示してきたが、テキストの自動生成は時間を要する。 これは、ターゲットモデルによって並列に検証される高速なドラフトモデルから候補セグメント(トークンのシーケンス)を生成する。 しかし、候補トークンの受け入れ率は、モデル、データセット、デコード設定など、いくつかの要因から制限を受ける。 本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチで整理する。 対象モデルの分布を維持しつつ,効率的な複数候補検証のためのアルゴリズムを設計する。 我々のアプローチは、複数のデータセットやモデルに対する受け入れ率を大幅に改善し、標準の投機的デコーディングを一貫して上回っていることを示している。

Large language models have shown impressive capabilities across a variety of NLP tasks, yet their generating text autoregressively is time-consuming. One way to speed them up is speculative decoding, which generates candidate segments (a sequence of tokens) from a fast draft model that is then verified in parallel by the target model. However, the acceptance rate of candidate tokens receives limitations from several factors, such as the model, the dataset, and the decoding setup. This paper proposes sampling multiple candidates from a draft model and then organising them in batches for verification. We design algorithms for efficient multi-candidate verification while maintaining the distribution of the target model. Our approach shows significant improvements in acceptance rates on multiple datasets and models, consistently outperforming standard speculative decoding.
翻訳日:2024-01-15 18:44:26 公開日:2024-01-12
# リモート核スピン多ビットレジスタ間の光子による絡み合いの忠実性

Fidelity of photon-mediated entanglement between remote nuclear-spin multi-qubit registers ( http://arxiv.org/abs/2401.06705v1 )

ライセンス: Link先を確認
W.-R. Hannes, Regina Finsterhoelzl, Guido Burkard(参考訳) ダイヤモンドの窒素空洞中心の電子スピンは、ダイナミックなデカップリング法によって近位$^{13}$cの核スピンを制御するのに役立ち、おそらくは高周波駆動と組み合わせられる。 複数ビットレジスタの実現に必要な長寿命単一量子状態と高忠実電子核ゲートがすでに実証されている。 スケーラブルなアーキテクチャの目標に向けて、フォトニックネットワークで複数のレジスタをリンクすることは重要なステップである。 複数組の遠隔量子ビットは、高度なアルゴリズムやエラー訂正プロトコルを可能にする。 本研究では,本態窒素スピンからノード当たりの複数の$^{13}$cスピンまで,フォトニックアーキテクチャを拡張できる方法を検討する。 デコヒーレンス保護ゲートを順次適用することにより,複数対のリモートエンタングルキュービットを作成する忠実性をシミュレートする。 現在達成されている$^{13}$cスピンの制御は大規模なデバイスでは不十分かもしれないが、この2つのスキームは原則として互換性がある。 1つの要件は、デカップリングシーケンス中に非調整核スピンによって獲得される無条件位相の補正である。

The electron spin of a nitrogen-vacancy center in diamond lends itself to the control of proximal $^{13}$C nuclear spins via dynamical decoupling methods, possibly combined with radio-frequency driving. Long-lived single-qubit states and high-fidelity electron-nuclear gates required for the realization of a multiqubit register have already been demonstrated. Towards the goal of a scalable architecture, linking multiple such registers in a photonic network represents an important step. Multiple pairs of remotely entangled qubits can enable advanced algorithms or error correction protocols. We investigate how a photonic architecture can be extended from the intrinsic nitrogen spin to multiple $^{13}$C spins per node. Applying decoherence-protected gates sequentially, we simulate the fidelity of creating multiple pairs of remotely entangled qubits. Even though the currently achieved degree of control of $^{13}$C spins might not be sufficient for large-scale devices, the two schemes are compatible in principle. One requirement is the correction of unconditional phases acquired by unaddressed nuclear spins during a decoupling sequence.
翻訳日:2024-01-15 18:44:15 公開日:2024-01-12
# Superpoint Graph Clusteringによるスケーラブルな3Dパノプティクスセグメンテーション

Scalable 3D Panoptic Segmentation With Superpoint Graph Clustering ( http://arxiv.org/abs/2401.06704v1 )

ライセンス: Link先を確認
Damien Robert, Hugo Raguet, Loic Landrieu(参考訳) 本稿では,この課題をスケーラブルなグラフクラスタリング問題として再定義することにより,大規模3次元点雲のパノプティカルセグメンテーションを効率的に行う方法を提案する。 このアプローチは、ローカルな補助タスクのみを使用してトレーニングできるため、トレーニング中のリソース集約型インスタンスマッチングステップが不要になる。 さらに,我々の定式化はスーパーポイントパラダイムに容易に適応でき,効率も向上する。 これにより、モデルは単一の推論で数百万のポイントと数千のオブジェクトでシーンを処理できます。 この方法はsuperclusterと呼ばれ、2つの屋内スキャンデータセットで最新のpanopticセグメンテーション性能を実現している。s3dis area~5の50.1$ pq (+7.8$)、scannetv2の58.7$ pq (+25.2$)である。 また、KITTI-360 と DALES という2つの大規模モバイルマッピングベンチマークの最先端を初めて設定した。 たったの209ドル(約2万2000円)のパラメータで、私たちのモデルはベストコンペティングメソッドの30ドル(約3万3000円)以上もします。 私たちのコードと事前訓練されたモデルは、https://github.com/drprojects/superpoint_transformer.comで利用可能です。

We introduce a highly efficient method for panoptic segmentation of large 3D point clouds by redefining this task as a scalable graph clustering problem. This approach can be trained using only local auxiliary tasks, thereby eliminating the resource-intensive instance-matching step during training. Moreover, our formulation can easily be adapted to the superpoint paradigm, further increasing its efficiency. This allows our model to process scenes with millions of points and thousands of objects in a single inference. Our method, called SuperCluster, achieves a new state-of-the-art panoptic segmentation performance for two indoor scanning datasets: $50.1$ PQ ($+7.8$) for S3DIS Area~5, and $58.7$ PQ ($+25.2$) for ScanNetV2. We also set the first state-of-the-art for two large-scale mobile mapping benchmarks: KITTI-360 and DALES. With only $209$k parameters, our model is over $30$ times smaller than the best-competing method and trains up to $15$ times faster. Our code and pretrained models are available at https://github.com/drprojects/superpoint_transformer.
翻訳日:2024-01-15 18:43:57 公開日:2024-01-12
# 完全連結フィードフォワードニューラルネットワークにおける重み最適化のための閉形式解法

A Closed-form Solution for Weight Optimization in Fully-connected Feed-forward Neural Networks ( http://arxiv.org/abs/2401.06699v1 )

ライセンス: Link先を確認
Slavisa Tomic, Jo\~ao Pedro Matos-Carvalho, Marko Beko(参考訳) 本研究は,完全接続型フィードフォワードニューラルネットワークの重み最適化問題に対処する。 back-propagation (bp) と chain rule gradient-based optimization (反復実行、潜在的に負担、時間消費を含む) に基づく既存のアプローチとは異なり、提案手法は最小二乗法(ls)の手法により閉形式での重み最適化のソリューションを提供する。 入出力マッピングが注入的である場合、新しいアプローチでは、各ニューロンの各層における重みの組を共同で最適化することにより、1回のイテレーションでバックプロパゲーション方式で重みを最適化する。 入出力マッピングが単射でない場合(例えば分類問題において)、提案する解は、数回のイテレーションで最終的な解を得るために容易に適応される。 既存のソリューションに対する重要なアドバンテージは、これらの計算(レイヤー内の全てのニューロン)が互いに独立であることである。 さらに、その実行時間は、すべてのネットワーク層(非インジェクティブマッピングの場合、イテレーション当たり)の重み付けを最適化するために必要な正確な計算数を得ることができるという意味で決定論的である。 シミュレーションおよび実験結果から,提案手法であるBPLSは,既存の手法と精度で競合するが,実行時間ではかなり上回っていることがわかった。 要約すると、新しい手法は実装が簡単で、既存の方法よりも競争力があり、計算効率が良く、並列実装に適している。

This work addresses weight optimization problem for fully-connected feed-forward neural networks. Unlike existing approaches that are based on back-propagation (BP) and chain rule gradient-based optimization (which implies iterative execution, potentially burdensome and time-consuming in some cases), the proposed approach offers the solution for weight optimization in closed-form by means of least squares (LS) methodology. In the case where the input-to-output mapping is injective, the new approach optimizes the weights in a back-propagating fashion in a single iteration by jointly optimizing a set of weights in each layer for each neuron. In the case where the input-to-output mapping is not injective (e.g., in classification problems), the proposed solution is easily adapted to obtain its final solution in a few iterations. An important advantage over the existing solutions is that these computations (for all neurons in a layer) are independent from each other; thus, they can be carried out in parallel to optimize all weights in a given layer simultaneously. Furthermore, its running time is deterministic in the sense that one can obtain the exact number of computations necessary to optimize the weights in all network layers (per iteration, in the case of non-injective mapping). Our simulation and empirical results show that the proposed scheme, BPLS, works well and is competitive with existing ones in terms of accuracy, but significantly surpasses them in terms of running time. To summarize, the new method is straightforward to implement, is competitive and computationally more efficient than the existing ones, and is well-tailored for parallel implementation.
翻訳日:2024-01-15 18:43:31 公開日:2024-01-12
# 大規模言語モデルのラベル効率向上のための実験的設計フレームワーク

An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models ( http://arxiv.org/abs/2401.06692v1 )

ライセンス: Link先を確認
Gantavya Bhatt, Yifang Chen, Arnav M. Das, Jifan Zhang, Sang T. Truong, Stephen Mussmann, Yinglun Zhu, Jeffrey Bilmes, Simon S. Du, Kevin Jamieson, Jordan T. Ash, Robert D. Nowak(参考訳) 命令データセットの教師付き微調整(SFT)は、現代の大言語モデル(LLM)で観測される顕著なゼロショット一般化能力を達成する上で重要な役割を担っている。 しかし、命令データセットにまたがるタスク数が増え続けているため、命令の質の高い応答を生成するのに必要なアノテーションの労力は、特に高価になってきている。 アクティブラーニングは、ラベルのないプールからアノテートするサンプルの有用なサブセットを特定するのに有効であるが、その高い計算コストは、LLMの文脈においてその広範な適用可能性の障壁である。 SFTのアノテーションコストを軽減し、アクティブラーニングの計算ボトルネックを回避するために、実験設計を用いて提案する。 実験的な設計手法は最も有益なサンプルを選び、不確実性や多様性の概念を最大化する。 本研究では,既存および新規な実験設計手法の評価を行うフレームワークを実装し,これらの手法が計算オーバーヘッドが少なく,ラベル効率の大幅な向上を図っている。 生成タスクにおいて,提案手法は同じ一般化性能を,ランダムサンプリングで要求されるアノテーションコスト50\%で達成する。

Supervised finetuning (SFT) on instruction datasets has played a crucial role in achieving the remarkable zero-shot generalization capabilities observed in modern large language models (LLMs). However, the annotation efforts required to produce high quality responses for instructions are becoming prohibitively expensive, especially as the number of tasks spanned by instruction datasets continues to increase. Active learning is effective in identifying useful subsets of samples to annotate from an unlabeled pool, but its high computational cost remains a barrier to its widespread applicability in the context of LLMs. To mitigate the annotation cost of SFT and circumvent the computational bottlenecks of active learning, we propose using experimental design. Experimental design techniques select the most informative samples to label, and typically maximize some notion of uncertainty and/or diversity. In our work, we implement a framework that evaluates several existing and novel experimental design techniques and find that these methods consistently yield significant gains in label efficiency with little computational overhead. On generative tasks, our methods achieve the same generalization performance with only $50\%$ of annotation cost required by random sampling.
翻訳日:2024-01-15 18:43:02 公開日:2024-01-12
# 機械翻訳モデルは翻訳方向ゼロショット検出器である

Machine Translation Models are Zero-Shot Detectors of Translation Direction ( http://arxiv.org/abs/2401.06769v1 )

ライセンス: Link先を確認
Michelle Wastl and Jannis Vamvas and Rico Sennrich(参考訳) パラレルテキストの翻訳方向を検出することは、機械翻訳の訓練や評価に応用できるが、盗作や偽造疑惑の解決といった法医学的な応用もある。 本研究では,翻訳や機械翻訳においてよく知られた単純化効果に動機付けられた$p(\text{translation}|\text{original})>p(\text{original}|\text{translation})$という単純な仮説に基づいて,翻訳方向検出に対する教師なしのアプローチを検討する。 20個の翻訳方向にわたる多言語機械翻訳モデルを用いた実験において,高資源言語対に対する手法の有効性を確認し,nmt翻訳では82-96%,人間の翻訳では60-81%であった。 コードとデモはhttps://github.com/zurichnlp/translation-direction-detectionで利用可能である。

Detecting the translation direction of parallel text has applications for machine translation training and evaluation, but also has forensic applications such as resolving plagiarism or forgery allegations. In this work, we explore an unsupervised approach to translation direction detection based on the simple hypothesis that $p(\text{translation}|\text{original})>p(\text{original}|\text{translation})$, motivated by the well-known simplification effect in translationese or machine-translationese. In experiments with massively multilingual machine translation models across 20 translation directions, we confirm the effectiveness of the approach for high-resource language pairs, achieving document-level accuracies of 82-96% for NMT-produced translations, and 60-81% for human translations, depending on the model used. Code and demo are available at https://github.com/ZurichNLP/translation-direction-detection
翻訳日:2024-01-15 18:36:08 公開日:2024-01-12
# Mind Your Format: 文脈内学習改善の一貫性評価を目指して

Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements ( http://arxiv.org/abs/2401.06766v1 )

ライセンス: Link先を確認
Anton Voronov, Lena Wolf, Max Ryabinin(参考訳) 大規模な言語モデルは、いくつかの例から新しいタスクを学習する驚くべき能力を示しています。 プロンプトテンプレート(またはプロンプトを得るために入力例がフォーマットされる方法)は、コンテキスト内学習において重要でしばしば見過ごされる側面である。 本研究では,テンプレート形式が文脈内学習性能に与える影響について,包括的に研究する。 770mから70bまでのパラメータ)モデルと4つの標準分類データセットにまたがるプロンプトテンプレートの影響を評価した。 テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。 さらに重要なことに、最高のテンプレートは、異なるセットアップ間や同じファミリのモデル間でさえも転送しない。 その結果,テンプレート選択を無視する評価手法が,異なる作業におけるテンプレートの相違による誤解を招く可能性が示唆された。 この問題を軽減するための第一歩として,複数のテンプレートにまたがるモデル予測を集約するテンプレートアンサンブルを提案する。 この単純なテスト時間拡張は、ランダムなテンプレートセットの選択に対して堅牢でありながら、平均的なパフォーマンスを高める。

Large language models demonstrate a remarkable capability for learning to solve new tasks from a few examples. The prompt template, or the way the input examples are formatted to obtain the prompt, is an important yet often overlooked aspect of in-context learning. In this work, we conduct a comprehensive study of the template format's influence on the in-context learning performance. We evaluate the impact of the prompt template across models (from 770M to 70B parameters) and 4 standard classification datasets. We show that a poor choice of the template can reduce the performance of the strongest models and inference methods to a random guess level. More importantly, the best templates do not transfer between different setups and even between models of the same family. Our findings show that the currently prevalent approach to evaluation, which ignores template selection, may give misleading results due to different templates in different works. As a first step towards mitigating this issue, we propose Template Ensembles that aggregate model predictions across several templates. This simple test-time augmentation boosts average performance while being robust to the choice of random set of templates.
翻訳日:2024-01-15 18:35:48 公開日:2024-01-12
# 言語モデルを用いた自動テストケース修復

Automated Test Case Repair Using Language Models ( http://arxiv.org/abs/2401.06765v1 )

ライセンス: Link先を確認
Ahmadreza Saboor Yaraghi, Darren Holden, Nafiseh Kahani, Lionel Briand(参考訳) テストを通じてソフトウェアシステムの品質を保証することは不可欠だが、テストケースのメンテナンスには大きな課題とコストが伴う。 テスト中のシステムの進化に合わせて頻繁に更新する必要性は、これらのテストケースを維持するための高い複雑さとコストを伴います。 さらに、失敗したテストケースはテストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊し、開発者の時間を浪費します。 この課題に対処するために、テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGet(Test repair GEneraTor)を提案する。 targetはテストの修正を言語翻訳タスクとして扱い、2段階のプロセスを使用してテストのブレークを特徴付ける本質的なコンテキストデータに基づいて言語モデルを微調整する。 このアプローチを評価するために、59のオープンソースプロジェクトで45,373件の壊れたテスト修正をカバーした総合ベンチマークであるTaRBenchを紹介した。 その結果,TaRGetの有効性が示され,66.1%の精度で一致した。 さらに, 各種テスト修復シナリオにおけるTaRGetの有効性について検討した。 生成したテスト修復が信頼性の低い状況を予測するための実用的なガイドを提供する。 また、細調整にプロジェクト固有のデータが常に必要かどうか、新しいプロジェクトにアプローチが有効かどうかについても検討する。

Ensuring the quality of software systems through testing is essential, yet maintaining test cases poses significant challenges and costs. The need for frequent updates to align with the evolving system under test often entails high complexity and cost for maintaining these test cases. Further, unrepaired broken test cases can degrade test suite quality and disrupt the software development process, wasting developers' time. To address this challenge, we present TaRGet (Test Repair GEneraTor), a novel approach leveraging pre-trained code language models for automated test case repair. TaRGet treats test repair as a language translation task, employing a two-step process to fine-tune a language model based on essential context data characterizing the test breakage. To evaluate our approach, we introduce TaRBench, a comprehensive benchmark we developed covering 45,373 broken test repairs across 59 open-source projects. Our results demonstrate TaRGet's effectiveness, achieving a 66.1% exact match accuracy. Furthermore, our study examines the effectiveness of TaRGet across different test repair scenarios. We provide a practical guide to predict situations where the generated test repairs might be less reliable. We also explore whether project-specific data is always necessary for fine-tuning and if our approach can be effective on new projects.
翻訳日:2024-01-15 18:35:32 公開日:2024-01-12
# 光チャネル上のcovert量子通信

Covert Quantum Communication Over Optical Channels ( http://arxiv.org/abs/2401.06764v1 )

ライセンス: Link先を確認
Evan J.D. Anderson, Christopher K. Eyre, Isabel M. Dailey, and Boulat A. Bash(参考訳) 光を含む多くの実用チャネルの量子力学モデルである損失熱雑音ボソニックチャネル上の量子ビットを隠蔽的に通信する問題について検討する。 隠密通信は、敵がチャネルノイズに隠されている伝送の存在を検知できないことを保証する。 フォトニックデュアルレール量子ビットを用いた量子被覆通信における達成可能な下界について検討する。 この符号化は、光チャネル上での長距離リピータベースの量子通信のために提案されている。

We explore the problem of covertly communicating qubits over the lossy thermal-noise bosonic channel, which is a quantum-mechanical model of many practical channels, including optical. Covert communication ensures that an adversary is unable to detect the presence of transmissions, which are concealed in channel noise. We investigate an achievable lower bound on quantum covert communication using photonic dual-rail qubits. This encoding has practical significance, as it has been proposed for long-range repeater-based quantum communication over optical channels.
翻訳日:2024-01-15 18:35:11 公開日:2024-01-12
# 木々を通した道路の視線:空間的依存関係を空中画像でモデル化するためのベンチマーク

Seeing the roads through the trees: A benchmark for modeling spatial dependencies with aerial imagery ( http://arxiv.org/abs/2401.06762v1 )

ライセンス: Link先を確認
Caleb Robinson, Isaac Corley, Anthony Ortiz, Rahul Dodhia, Juan M. Lavista Ferres, Peyman Najafirad(参考訳) 複雑な高解像度の衛星や空中画像のシーンを完全に理解するには、広義のコンテキストに関する空間的推論が必要となることが多い。 人間のオブジェクト認識システムは、長時間のコンテキストにおいて、シーン内のオブジェクトを理解することができる。 例えば、木製天蓋で区切られた道路の一部を示す空中シーンを人間が観察した場合、実際に道路が木々によって分割され、その代わりに近くの木の天蓋が道路を覆っていると考えることはありそうにない。 しかし、現代の機械学習モデルの長距離文脈理解についての研究は限られている。 本研究では,地理空間機械学習モデルの空間的長距離コンテキスト理解を評価するための,道路セグメンテーションベンチマークデータセットであるchesapeake roads spatial context(rsc)を提案する。 例えば、航空画像の背景から道路を切り離すように訓練されたu-netは、未閉塞の道路で84%のリコールを達成したが、同じ方法でモデル化されたにもかかわらず、ツリーキャノピーに覆われた道路では63.5%しかリコールできなかった。 さらに、決定(この場合、未排除道路)の関連する文脈としてモデルの性能がどのように変化するかを分析する。 イメージとマスクの実験とデータセットを再現するコードをリリースし、この方向の今後の研究を促進するために、https://github.com/isaaccorley/chesapeakersc.com/。

Fully understanding a complex high-resolution satellite or aerial imagery scene often requires spatial reasoning over a broad relevant context. The human object recognition system is able to understand object in a scene over a long-range relevant context. For example, if a human observes an aerial scene that shows sections of road broken up by tree canopy, then they will be unlikely to conclude that the road has actually been broken up into disjoint pieces by trees and instead think that the canopy of nearby trees is occluding the road. However, there is limited research being conducted to understand long-range context understanding of modern machine learning models. In this work we propose a road segmentation benchmark dataset, Chesapeake Roads Spatial Context (RSC), for evaluating the spatial long-range context understanding of geospatial machine learning models and show how commonly used semantic segmentation models can fail at this task. For example, we show that a U-Net trained to segment roads from background in aerial imagery achieves an 84% recall on unoccluded roads, but just 63.5% recall on roads covered by tree canopy despite being trained to model both the same way. We further analyze how the performance of models changes as the relevant context for a decision (unoccluded roads in our case) varies in distance. We release the code to reproduce our experiments and dataset of imagery and masks to encourage future research in this direction -- https://github.com/isaaccorley/ChesapeakeRSC.
翻訳日:2024-01-15 18:35:02 公開日:2024-01-12
# APAR: LLMは自動並列自動回帰デコードが可能

APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding ( http://arxiv.org/abs/2401.06761v1 )

ライセンス: Link先を確認
Mingdao Liu and Aohan Zeng and Bowen Wang and Peng Zhang and Jie Tang and Yuxiao Dong(参考訳) 大規模言語モデル(LLM)の大規模な採用は、効率的なデプロイメント戦略を必要とする。 しかし、ほとんどのLLMがテキストを生成する方法の基本である自動回帰復号処理は、効率的なサービスを実現するための課題を提起する。 本研究では,並列自動回帰生成手法を提案する。 階層構造を含む一般的なドメインデータをインストラクションすることで、LCMは独立して生成プロセスを計画し、自動並列自動回帰(APAR)生成を実行でき、生成ステップの数を大幅に削減できる。 APARだけで最大2倍のスピードアップが達成でき、投機的復号と組み合わせると最大4倍のスピードアップが得られる。 さらに、APARは生成中のキー値キャッシュの消費と注意計算を減らす。 これにより、スループットが20~70%向上し、高スループットシナリオではレイテンシが20~35%削減される。

The massive adoption of large language models (LLMs) demands efficient deployment strategies. However, the auto-regressive decoding process, which is fundamental to how most LLMs generate text, poses challenges to achieve efficient serving. In this work, we introduce a parallel auto-regressive generation method. By instruct-tuning on general domain data that contains hierarchical structures, we enable LLMs to independently plan their generation process and perform auto-parallel auto-regressive (APAR) generation, significantly reducing the number of generation steps. APAR alone can achieve up to 2x speed-up, and when combined with speculative decoding, the speed-up can reach up to 4x. In addition, APAR reduces the key-value cache consumption and attention computation during generation. This leads to a throughput increase of 20-70% and a latency reduce of 20-35% in high-throughput scenarios, compared to state-of-the-art serving frameworks.
翻訳日:2024-01-15 18:34:31 公開日:2024-01-12
# メトリクスmazeのナビゲート - スコアのマグニチュードと精度の調整

Navigating the Metrics Maze: Reconciling Score Magnitudes and Accuracies ( http://arxiv.org/abs/2401.06760v1 )

ライセンス: Link先を確認
Tom Kocmi and Vil\'em Zouhar and Christian Federmann and Matt Post(参考訳) 10年前、単一のメトリクスBLEUが機械翻訳研究の進歩を支配した。 良くも悪くも、今日ではそのようなコンセンサスがないため、初期の研究と展開の決定を導いたメートル法デルタに関するヒューリスティックな直観を研究・維持することは困難である。 本稿では,測定値の内外差の意味を包括的に理解するために,多数の現代指標の「ダイナミックレンジ」について検討する。つまり,測定値Yにおける点差Xが,人間の注意を喚起する2つのシステム間でどのような点差Xが必要とされるのかを問う。 我々は、新しい大規模データセットであるtoship23について評価を行い、メトリクスが人間にとって意味のあるシステムレベルの差異を達成するデルタを見つけるために使用します。 さらに、このデルタ精度の確立方法は、テストセットサイズに関する統計p値の標準使用よりも安定であることを示す。 データサイズが許される場所では、翻訳方向、ドメイン、システム近接性といったよりきめ細かい特徴に対するメートル差と精度の影響についても検討する。

Ten years ago a single metric, BLEU, governed progress in machine translation research. For better or worse, there is no such consensus today, and consequently it is difficult for researchers to develop and retain the kinds of heuristic intuitions about metric deltas that drove earlier research and deployment decisions. This paper investigates the "dynamic range" of a number of modern metrics in an effort to provide a collective understanding of the meaning of differences in scores both within and among metrics; in other words, we ask what point difference X in metric Y is required between two systems for humans to notice? We conduct our evaluation on a new large dataset, ToShip23, using it to discover deltas at which metrics achieve system-level differences that are meaningful to humans, which we measure by pairwise system accuracy. We additionally show that this method of establishing delta-accuracy is more stable than the standard use of statistical p-values in regards to testset size. Where data size permits, we also explore the effect of metric deltas and accuracy across finer-grained features such as translation direction, domain, and system closeness.
翻訳日:2024-01-15 18:34:14 公開日:2024-01-12
# 歩行者意図予測のための合成データ生成フレームワーク、データセットおよび効率的な深層モデル

Synthetic Data Generation Framework, Dataset, and Efficient Deep Model for Pedestrian Intention Prediction ( http://arxiv.org/abs/2401.06757v1 )

ライセンス: Link先を確認
Muhammad Naveed Riaz, Maciej Wielgosz, Abel Garcia Romera, Antonio M. Lopez(参考訳) 歩行者意図予測は自動運転に不可欠である。 特に、歩行者がエゴ車の前で横断するかどうかを知ることは、安全で快適な操作を行うための核心である。 このような意図をシーケンシャルな画像から予測する正確で高速なモデルを作成することは難しい。 この要因の1つは、様々な交差および非交差(c/nc)シナリオを持つデータセットの欠如である。 我々は、C/NCビデオクリップサンプルからなる合成データセットをプログラムで生成するARCANEというフレームワークを導入することで、この不足に対処する。 例えば、ARCANEを使用して、PedSynthという大規模で多様なデータセットを生成します。 PedSynthは、JAADやPIEなどの広く使われている現実世界のデータセットを補完し、より正確なC/NC予測モデルを可能にすることを示す。 C/NC予測モデルのオンボード展開を考慮すると、高速でメモリフットプリントが非常に少ないPedGNNというディープモデルも提案する。 PedGNNはGNN-GRUアーキテクチャに基づいており、横断意図を予測するために一連の歩行者骨格を入力として利用する。

Pedestrian intention prediction is crucial for autonomous driving. In particular, knowing if pedestrians are going to cross in front of the ego-vehicle is core to performing safe and comfortable maneuvers. Creating accurate and fast models that predict such intentions from sequential images is challenging. A factor contributing to this is the lack of datasets with diverse crossing and non-crossing (C/NC) scenarios. We address this scarceness by introducing a framework, named ARCANE, which allows programmatically generating synthetic datasets consisting of C/NC video clip samples. As an example, we use ARCANE to generate a large and diverse dataset named PedSynth. We will show how PedSynth complements widely used real-world datasets such as JAAD and PIE, so enabling more accurate models for C/NC prediction. Considering the onboard deployment of C/NC prediction models, we also propose a deep model named PedGNN, which is fast and has a very low memory footprint. PedGNN is based on a GNN-GRU architecture that takes a sequence of pedestrian skeletons as input to predict crossing intentions.
翻訳日:2024-01-15 18:33:56 公開日:2024-01-12
# 機械学習ライブラリを用いた構造格子上の界面キャプチャによる離散多相流方程式の解法

Solving the Discretised Multiphase Flow Equations with Interface Capturing on Structured Grids Using Machine Learning Libraries ( http://arxiv.org/abs/2401.06755v1 )

ライセンス: Link先を確認
Boyang Chen, Claire E. Heaney, Jefferson L. M. A. Gomes, Omar K. Matar, Christopher C. Pain(参考訳) 本稿では,AI4PDEを用いたインタフェースキャプチャによる多相流方程式の解法について述べる。 AI4PDEのソルバは、機械学習(ML)ライブラリのツールを使用して、数値的な方法で識別された偏微分方程式(PDE)を解決する。 畳み込み層は、トレーニングではなく数値法によって重みが決定されるニューラルネットワークとして離散化を表現するのに使うことができる。 この問題を解決するために、u-netアーキテクチャを持つニューラルネットワークを介してマルチグリッドソルバを実装する。 既約二相流は3次元非圧縮性ナビエ・ストークス方程式によってモデル化され、流体間の界面を記述する体積分数場の面張力と対流を持つ。 ペトロフガレルキンを用いた残差定式化に基づく新しい圧縮代数的流体体積法を導入し,ai4pdesを念頭に設計した。 高次有限要素に基づくスキームは、崩壊する水柱と上昇する気泡をモデル化するために選択される。 その結果,AI4PDEsアプローチによるニューラルネットワークの解法を用いて,初めて多相流の有限要素の偏差を解くことができた。 ニューラルネットワークとして数値的離散化を表現する利点は、コードが修正なしで、特にaiコードを実行するために設計されたcpu、gpu、最新のアクセラレータ上で実行できることだ。

This paper solves the multiphase flow equations with interface capturing using the AI4PDEs approach (Artificial Intelligence for Partial Differential Equations). The solver within AI4PDEs uses tools from machine learning (ML) libraries to solve (exactly) partial differential equations (PDEs) that have been discretised using numerical methods. Convolutional layers can be used to express the discretisations as a neural network, whose weights are determined by the numerical method, rather than by training. To solve the system, a multigrid solver is implemented through a neural network with a U-Net architecture. Immiscible two-phase flow is modelled by the 3D incompressible Navier-Stokes equations with surface tension and advection of a volume fraction field, which describes the interface between the fluids. A new compressive algebraic volume-of-fluids method is introduced, based on a residual formulation using Petrov-Galerkin for accuracy and designed with AI4PDEs in mind. High-order finite-element based schemes are chosen to model a collapsing water column and a rising bubble. Results compare well with experimental data and other numerical results from the literature, demonstrating that, for the first time, finite element discretisations of multiphase flows can be solved using the neural network solver from the AI4PDEs approach. A benefit of expressing numerical discretisations as neural networks is that the code can run, without modification, on CPUs, GPUs or the latest accelerators designed especially to run AI codes.
翻訳日:2024-01-15 18:33:37 公開日:2024-01-12
# 状態依存トラップ中の原子による近接共鳴光散乱

Near-resonant light scattering by an atom in a state-dependent trap ( http://arxiv.org/abs/2401.06753v1 )

ライセンス: Link先を確認
Teresa D. Karanikolaou, Robert J. Bettles, Darrick E. Chang(参考訳) 固定原子の光学的性質はよく知られ、研究されている。 例えば、共鳴光子に見られるような1つの原子の超大面積の断面積は量子光学応用に必須である。 光散乱に関連した力学的効果もよく研究され、例えばレーザー冷却とトラップの基礎を形成する。 これにもかかわらず、驚くほど広範囲に研究されていない根本的な問題が一つあるが、多くの量子光学実験に関係している。 これらの実験では、原子の基底状態は遠方共鳴光によって形成され、近方共鳴光との効率的な相互作用を促進する。 しかし、励起状態は異なるポテンシャルを経験するか、あるいは反トラップ状態になるかもしれない。 ここでは,不等トラップが原子-光間相互作用に及ぼす影響を系統的に解析する。 特に,そのようなトラップが余分な加熱を引き起こし,原子-光子相互作用効率の低下に伴う全散乱断面積と弾性散乱断面積の削減につながるレジームを同定した。 これらの効果を理解することは、共鳴に対する効率的な原子-光相互作用が望まれる量子光学プラットフォームを最適化するのに有用であるが、等しいトラップを達成することは不可能である。

The optical properties of a fixed atom are well-known and investigated. For example, the extraordinarily large cross section of a single atom as seen by a resonant photon is essential for quantum optical applications. Mechanical effects associated with light scattering are also well-studied, forming the basis of laser cooling and trapping, for example. Despite this, there is one fundamental problem that surprisingly has not been extensively studied, yet is relevant to a number of emerging quantum optics experiments. In these experiments, the ground state of the atom experiences a tight optical trap formed by far-off-resonant light, to facilitate efficient interactions with near-resonant light. However, the excited state might experience a different potential, or even be anti-trapped. Here, we systematically analyze the effects of unequal trapping on near-resonant atom-light interactions. In particular, we identify regimes where such trapping can lead to significant excess heating, and a reduction of total and elastic scattering cross sections associated with a decreased atom-photon interaction efficiency. Understanding these effects can be valuable for optimizing quantum optics platforms where efficient atom-light interactions on resonance are desired, but achieving equal trapping is not feasible.
翻訳日:2024-01-15 18:33:11 公開日:2024-01-12
# 著者・著者スタイル変更検出のための複数文献のスティロメトリ解析

Stylometry Analysis of Multi-authored Documents for Authorship and Author Style Change Detection ( http://arxiv.org/abs/2401.06752v1 )

ライセンス: Link先を確認
Muhammad Tayyab Zamir, Muhammad Asif Ayub, Asma Gul, Nasir Ahmad, Kashif Ahmad(参考訳) 近年、人工知能を用いたテキスト生成ツールの利用が増加し、文書作成、認証、著者名検出に新たな課題が生じた。 しかし,スタイリメトリーの進歩は,書体解析技術を用いた複数文献の自動作成と書体変更検出の機会を与えている。 スタイル分析は、文書の証明と認証のための主ステップとして機能する。 本稿では,スタイル分析の3つの重要な課題について考察する。 (i)単一文書及び複数文書の分類 (ii) 単一変更検出は、著者が切り替えた点を特定することを含む。 (iii)複数文書における複数の著者切替検出 3つのタスクすべてを分類問題として定式化し,最先端自然言語処理 (nlp) アルゴリズムと重み付け最適化技術を統合するメリットベースの融合フレームワークを提案する。 また,nlpアプリケーションの前処理時に通常除去される特殊文字の可能性についても検討し,クリーンデータと生データの両方について広範な実験を行い,提案手法の性能について検討した。 実験結果は、ベンチマークデータセット上の3つのタスクすべてに対する既存のソリューションよりも大幅に改善されたことを示している。

In recent years, the increasing use of Artificial Intelligence based text generation tools has posed new challenges in document provenance, authentication, and authorship detection. However, advancements in stylometry have provided opportunities for automatic authorship and author change detection in multi-authored documents using style analysis techniques. Style analysis can serve as a primary step toward document provenance and authentication through authorship detection. This paper investigates three key tasks of style analysis: (i) classification of single and multi-authored documents, (ii) single change detection, which involves identifying the point where the author switches, and (iii) multiple author-switching detection in multi-authored documents. We formulate all three tasks as classification problems and propose a merit-based fusion framework that integrates several state-of-the-art natural language processing (NLP) algorithms and weight optimization techniques. We also explore the potential of special characters, which are typically removed during pre-processing in NLP applications, on the performance of the proposed methods for these tasks by conducting extensive experiments on both cleaned and raw datasets. Experimental results demonstrate significant improvements over existing solutions for all three tasks on a benchmark dataset.
翻訳日:2024-01-15 18:32:53 公開日:2024-01-12
# ハードタスクのための簡易トレーニングデータの妥当な有効性

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks ( http://arxiv.org/abs/2401.06751v1 )

ライセンス: Link先を確認
Peter Hase, Mohit Bansal, Peter Clark, Sarah Wiegreffe(参考訳) ハードトレーニングデータが正確なラベル付けが難しい場合に、どうやってモデルをトレーニングしてハードテストデータでうまく機能させるのか? この問題はスケーラブルな監視問題と呼ばれ、言語モデルが継続的に改善され、注目を集めている。 本稿では、現在の言語モデルが、ハードデータで訓練された「奇数」モデルと同様に、比較的容易にハードデータから一般化されることがしばしばあるという驚くべき結論を示す。 本研究では,テキスト内学習,線形分類器ヘッド,QLoRAといった簡易な学習手法を用いて,データポイント硬度を7つの異なる尺度で測定し,これらを実験的に異なる6つの人的硬度測定(グレードレベルなど)と1つのモデルベース測定(ロスベース)に応用した。 さらに,ハードデータに対するモデルパフォーマンスを最も重視している場合でも,ハードデータよりもデータ収集やトレーニングが容易であることを示す。 実験では,70bまでの大きさのオープンモデルと,3年生の理科質問から大学レベルのSTEM質問,一般知識トリヴィアまで,難易度の高い4つの質問回答データセットを用いた。 LMの難易度一般化は, 従来考えられていたよりも, スケーラブルな監視問題は容易である可能性が示唆された。 私たちのコードはhttps://github.com/allenai/easy-to-hard-generalizationで利用可能です。

How can we train models to perform well on hard test data when hard training data is by definition difficult to label correctly? This question has been termed the scalable oversight problem and has drawn increasing attention as language models have continually improved. In this paper, we present the surprising conclusion that current language models often generalize relatively well from easy to hard data, even performing as well as "oracle" models trained on hard data. We demonstrate this kind of easy-to-hard generalization using simple training methods like in-context learning, linear classifier heads, and QLoRA for seven different measures of datapoint hardness, including six empirically diverse human hardness measures (like grade level) and one model-based measure (loss-based). Furthermore, we show that even if one cares most about model performance on hard data, it can be better to collect and train on easy data rather than hard data, since hard data is generally noisier and costlier to collect. Our experiments use open models up to 70b in size and four publicly available question-answering datasets with questions ranging in difficulty from 3rd grade science questions to college level STEM questions and general-knowledge trivia. We conclude that easy-to-hard generalization in LMs is surprisingly strong for the tasks studied, suggesting the scalable oversight problem may be easier than previously thought. Our code is available at https://github.com/allenai/easy-to-hard-generalization
翻訳日:2024-01-15 18:32:37 公開日:2024-01-12
# ダイヤモンド中の窒素空孔中心の励起エネルギーに対する量子ビブロニック効果

Quantum Vibronic Effects on the Excitation Energies of the Nitrogen-Vacancy Center in Diamond ( http://arxiv.org/abs/2401.06745v1 )

ライセンス: Link先を確認
Arpan Kundu and Giulia Galli(参考訳) 固体スピン欠陥の電子的性質に及ぼす量子ビブロニックカップリングの影響を,確率的手法と量子サーモスタットを用いた分子動力学の第一原理を用いて検討する。 典型例としてダイヤモンド中の負電荷窒素空孔中心に着目した結果,0Kにおいても,ダイヤモンドのバンドギャップ内における2重縮退する単粒子準位が180mVを超える大きな動的分裂が認められた。 この顕著な分裂は、これらのレベルの相当な再正規化をもたらし、その後、二重縮退した一重項および三重項励起状態の垂直励起エネルギーをもたらす。 本研究は,第一原理計算に量子振動効果を取り入れる必要性,特に計算垂直励振エネルギーと実験データを比較する場合の必要性を浮き彫りにしている。 また, 固体スピン欠陥のフォノン再正規化の研究における確率的熱線サンプリングの効率も明らかにした。

We investigate the impact of quantum vibronic coupling on the electronic properties of solid-state spin defects using stochastic methods and first principles molecular dynamics with a quantum thermostat. Focusing on the negatively charged nitrogen-vacancy center in diamond as an exemplary case, we found a significant dynamic Jahn-Teller splitting of the doubly degenerate single-particle levels within the diamond's band gap, even at 0 K, with a magnitude exceeding 180 meV. This pronounced splitting leads to substantial renormalizations of these levels and subsequently, of the vertical excitation energies of the doubly degenerate singlet and triplet excited states. Our findings underscore the pressing need to incorporate quantum vibronic effects in first-principles calculations, particularly when comparing computed vertical excitation energies with experimental data. Our study also reveals the efficiency of stochastic thermal line sampling for studying phonon renormalizations of solid-state spin defects.
翻訳日:2024-01-15 18:32:12 公開日:2024-01-12
# 新しいドメインにおける対話から人格抽出を改善する自然言語推論

Using Natural Language Inference to Improve Persona Extraction from Dialogue in a New Domain ( http://arxiv.org/abs/2401.06742v1 )

ライセンス: Link先を確認
Alexandra DeLucia, Mengjie Zhao, Yoshinori Maeda, Makoto Yoda, Keiichi Yamada, Hiromi Wakaki(参考訳) PersonaChatのような貴重なデータセットは、ペルソナ・グラウンドの対話エージェントを訓練するための基盤を提供するが、会話や物語の設定の多様性は欠いている。 固有なパーソナラを持つ対話エージェントを開発するために、モデルは特定のパーソナラと会話するように訓練されるが、これらのパーソナラを手作りすることは時間を要するため、既存のキャラクター特有の対話からパーソナ情報を自動抽出する方法が存在する。 しかし、これらのペルソナ抽出モデルは、PersonaChatから派生したデータセットに基づいて訓練され、ファンタジー中心のデータセットであるLIGHTのような現実世界では起こらない会話設定から高品質なペルソナ情報を提供するのに苦労している。 特定の環境でモデルをトレーニングするための新しいデータを作ることは、人間に重きを置いている。 これら2つの課題に対処するために,訓練されたペルソナ抽出モデルを新たな環境に適応するための自然言語推論手法を提案する。 我々は、対話自然言語推論(NLI)の文献からインスピレーションを得て、対話から構造化されたペルソナ情報を抽出するNLI格付け手法を考案した。 既存のペルソナ抽出モデルと比較して,本手法は高品質なペルソナを出力し,人間のアノテーションを少なくする。

While valuable datasets such as PersonaChat provide a foundation for training persona-grounded dialogue agents, they lack diversity in conversational and narrative settings, primarily existing in the "real" world. To develop dialogue agents with unique personas, models are trained to converse given a specific persona, but hand-crafting these persona can be time-consuming, thus methods exist to automatically extract persona information from existing character-specific dialogue. However, these persona-extraction models are also trained on datasets derived from PersonaChat and struggle to provide high-quality persona information from conversational settings that do not take place in the real world, such as the fantasy-focused dataset, LIGHT. Creating new data to train models on a specific setting is human-intensive, thus prohibitively expensive. To address both these issues, we introduce a natural language inference method for post-hoc adapting a trained persona extraction model to a new setting. We draw inspiration from the literature of dialog natural language inference (NLI), and devise NLI-reranking methods to extract structured persona information from dialogue. Compared to existing persona extraction models, our method returns higher-quality extracted persona and requires less human annotation.
翻訳日:2024-01-15 18:31:55 公開日:2024-01-12
# ジャンプ拡散モデルにおけるオプション価格設定のための暗黙-明示最小化運動法

A deep implicit-explicit minimizing movement method for option pricing in jump-diffusion models ( http://arxiv.org/abs/2401.06740v1 )

ライセンス: Link先を確認
Emmanuil H. Georgoulis, Antonis Papapantoleon, Costas Smaragdakis(参考訳) 我々は、ジャンプ拡散力学に従う資産に書かれた欧州のバスケットオプションの価格設定のための新しいディープラーニングアプローチを開発する。 オプション価格問題は部分積分微分方程式として定式化され、これは新しい暗黙的な最小化運動時間ステッピングアプローチによって近似され、各時間ステップごとに深部、残留型ニューラルネットワーク(ANN)による近似を含む。 積分作用素は2つの異なるアプローチによって離散化される。 a)特異値分解から生じる局所座標軸に続くスパースグリッドガウス-ヘルマイト近似 b) ANNに基づく高次元特殊目的二次規則 重要な点として, 提案手法では, 解の漸近的挙動を基礎値の大きい値に対して保証し, 解の事前の既知の定性的性質に関して一貫した出力を導く。 メルトンジャンプ拡散モデルを含む一連の数値実験において, 手法の寸法に対する性能とロバスト性を評価した。

We develop a novel deep learning approach for pricing European basket options written on assets that follow jump-diffusion dynamics. The option pricing problem is formulated as a partial integro-differential equation, which is approximated via a new implicit-explicit minimizing movement time-stepping approach, involving approximation by deep, residual-type Artificial Neural Networks (ANNs) for each time step. The integral operator is discretized via two different approaches: a) a sparse-grid Gauss--Hermite approximation following localised coordinate axes arising from singular value decompositions, and b) an ANN-based high-dimensional special-purpose quadrature rule. Crucially, the proposed ANN is constructed to ensure the asymptotic behavior of the solution for large values of the underlyings and also leads to consistent outputs with respect to a priori known qualitative properties of the solution. The performance and robustness with respect to the dimension of the methods are assessed in a series of numerical experiments involving the Merton jump-diffusion model.
翻訳日:2024-01-15 18:31:31 公開日:2024-01-12
# 集団スピン系における測定誘起マルチパーティタイト・エンタングルメントレジーム

Measurement-induced multipartite-entanglement regimes in collective spin systems ( http://arxiv.org/abs/2305.10209v4 )

ライセンス: Link先を確認
Pablo M. Poggi, Manuel H. Mu\~noz-Arias(参考訳) 量子軌道のレベルでスピン1/2粒子のアンサンブルのダイナミクスにおける集団的一般化測定と相互作用誘起スクランブルの競合効果について検討した。 この設定は、量子回路における測定誘起遷移につながるものと類似していると考えられる。 本研究は,集合的ユニタリダイナミクスと測定値の相互作用が,モニタリング強度の関数として,多部交絡の証となる平均量子漁業情報(QFI)の3つの状態につながることを示す。 弱い測定と強い測定の両方が広範囲のqfi密度(すなわち個々の量子軌道はハイゼンベルクスケーリングを示す状態を与える)をもたらすのに対して、古典的様状態の中間配置が出現し、そこでは測定はスクランブルグダイナミクスと効果的に競合し、量子相関の発展を阻害し、サブハイゼンベルク制限状態につながる。 我々は,これらのレジームとそれらの間のクロスオーバーを数値的および解析的ツールを用いて特徴付け,観察された多体系における絡み合い相,量子から古典的遷移との関係について論じる。

We study the competing effects of collective generalized measurements and interaction-induced scrambling in the dynamics of an ensemble of spin-1/2 particles at the level of quantum trajectories. This setup can be considered as analogous to the one leading to measurement-induced transitions in quantum circuits. We show that the interplay between collective unitary dynamics and measurements leads to three regimes of the average Quantum Fisher Information (QFI), which is a witness of multipartite entanglement, as a function of the monitoring strength. While both weak and strong measurements lead to extensive QFI density (i.e., individual quantum trajectories yield states displaying Heisenberg scaling), an intermediate regime of classical-like states emerges for all system sizes where the measurement effectively competes with the scrambling dynamics and precludes the development of quantum correlations, leading to sub-Heisenberg-limited states. We characterize these regimes and the crossovers between them using numerical and analytical tools, and discuss the connections between our findings, entanglement phases in monitored many-body systems, and the quantum-to-classical transition.
翻訳日:2024-01-15 16:48:46 公開日:2024-01-12
# Patchscopes: 隠れた言語モデルの表現を検査するための統一フレームワーク

Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models ( http://arxiv.org/abs/2401.06102v2 )

ライセンス: Link先を確認
Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva(参考訳) 大規模言語モデル(LLM)の隠れ表現に符号化された情報を検査することで、モデルの振る舞いを説明し、人間の値との整合性を検証することができる。 人間の理解可能なテキストを生成する上でのLLMの能力を考えると、モデル自体を利用して自然言語の内部表現を説明する。 我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い疑問にどのように答えられるかを示す。 語彙空間への表現の投影とllm計算への干渉に基づく事前解釈可能性の手法は,このフレームワークの例と見なすことができる。 さらに、早期検査の失敗や表現力の欠如といったいくつかの欠点は、パッチスコープによって軽減できる。 Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明し、マルチホップ推論における自己補正のような新しいアプリケーションをアンロックするといった新しい可能性も開きます。

Inspecting the information encoded in hidden representations of large language models (LLMs) can explain models' behavior and verify their alignment with human values. Given the capabilities of LLMs in generating human-understandable text, we propose leveraging the model itself to explain its internal representations in natural language. We introduce a framework called Patchscopes and show how it can be used to answer a wide range of questions about an LLM's computation. We show that prior interpretability methods based on projecting representations into the vocabulary space and intervening on the LLM computation can be viewed as instances of this framework. Moreover, several of their shortcomings such as failure in inspecting early layers or lack of expressivity can be mitigated by Patchscopes. Beyond unifying prior inspection techniques, Patchscopes also opens up new possibilities such as using a more capable model to explain the representations of a smaller model, and unlocks new applications such as self-correction in multi-hop reasoning.
翻訳日:2024-01-15 12:17:22 公開日:2024-01-12
# 大言語モデルにおけるrlhfの秘密 その2:報酬モデリング

Secrets of RLHF in Large Language Models Part II: Reward Modeling ( http://arxiv.org/abs/2401.06080v2 )

ライセンス: Link先を確認
Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, Songyang Gao, Nuo Xu, Yuhao Zhou, Xiaoran Fan, Zhiheng Xi, Jun Zhao, Xiao Wang, Tao Ji, Hang Yan, Lixing Shen, Zhan Chen, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の価値観と意図を整合させる重要な技術となり、モデルがより有用で無害な応答を生成できるようにする。 報酬モデルは強化学習最適化を推進するために人間の好みのプロキシとして訓練される。 報酬モデルはしばしば高いパフォーマンスを達成する上で重要であると考えられているが、(1)データセット内の不正確で曖昧な選好ペアは、報酬モデルが人間の意図を正確に捉えるのを妨げる可能性がある。 2)特定の分布のデータに基づいてトレーニングされたリワードモデルは,その分布外の例に一般化するのに苦労することが多く,反復的なRLHFトレーニングには適さない。 本稿では,この2つの問題に対処する。 1)データの観点から,複数の報酬モデルの投票機構に基づいて,データ内の嗜好の強さを測定する手法を提案する。 実験の結果,選好強度の異なるデータは報奨モデルの性能に異なる影響を与えることがわかった。 本稿では,データセットにおける不正確かつ曖昧な選好の影響を緩和し,高品質な選好データを完全に活用する手法を提案する。 2)アルゴリズムの観点からは,報酬モデルが選択された応答と拒否された応答を区別する能力を高め,モデル一般化を改善するために,コントラッシブラーニングを導入する。 さらに,報奨モデルを用いたメタラーニングにより,配布外サンプルの微妙な差異を識別する能力を維持し,本手法を反復的RLHF最適化に利用することができる。

Reinforcement Learning from Human Feedback (RLHF) has become a crucial technology for aligning language models with human values and intentions, enabling models to produce more helpful and harmless responses. Reward models are trained as proxies for human preferences to drive reinforcement learning optimization. While reward models are often considered central to achieving high performance, they face the following challenges in practical applications: (1) Incorrect and ambiguous preference pairs in the dataset may hinder the reward model from accurately capturing human intent. (2) Reward models trained on data from a specific distribution often struggle to generalize to examples outside that distribution and are not suitable for iterative RLHF training. In this report, we attempt to address these two issues. (1) From a data perspective, we propose a method to measure the strength of preferences within the data, based on a voting mechanism of multiple reward models. Experimental results confirm that data with varying preference strengths have different impacts on reward model performance. We introduce a series of novel methods to mitigate the influence of incorrect and ambiguous preferences in the dataset and fully leverage high-quality preference data. (2) From an algorithmic standpoint, we introduce contrastive learning to enhance the ability of reward models to distinguish between chosen and rejected responses, thereby improving model generalization. Furthermore, we employ meta-learning to enable the reward model to maintain the ability to differentiate subtle differences in out-of-distribution samples, and this approach can be utilized for iterative RLHF optimization.
翻訳日:2024-01-15 12:17:06 公開日:2024-01-12
# lego:言語拡張マルチモーダルグラウンドモデル

LEGO:Language Enhanced Multi-modal Grounding Model ( http://arxiv.org/abs/2401.06071v2 )

ライセンス: Link先を確認
Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang(参考訳) マルチモーダルな大規模言語モデルは、様々なタスクにおいて異なるモーダルで印象的なパフォーマンスを示している。 しかし、既存のマルチモーダルモデルは、各モーダル内でのグローバルな情報の収集に重点を置いている。 したがって、これらのモデルは入力データの詳細な詳細を効果的に理解する能力がなく、より微妙な理解を必要とするタスクのパフォーマンスを制限している。 この制限に対処するためには、複数のモダリティをまたいできめ細かな理解を可能にし、幅広いタスクに適用性を高めるモデルを開発する必要がある。 本稿では,言語拡張型マルチモーダルグラウンドモデルであるLEGOを提案する。 他のマルチモーダルモデルのようなグローバルな情報をキャプチャする以外に、提案モデルでは、入力内のローカル情報の詳細な理解を要求するタスクに優れています。 ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。 この目的を達成するために,多様なデータセット構築パイプラインを設計し,モデルトレーニングのためのマルチモーダル・マルチグラニュラ性データセットを作成する。 私たちのモデルのコード、データセット、デモは、https: //github.com/lzw-lzw/LEGOにある。

Multi-modal large language models have demonstrated impressive performance across various tasks in different modalities. However, existing multi-modal models primarily emphasize capturing global information within each modality while neglecting the importance of perceiving local information across modalities. Consequently, these models lack the ability to effectively understand the fine-grained details of input data, limiting their performance in tasks that require a more nuanced understanding. To address this limitation, there is a compelling need to develop models that enable fine-grained understanding across multiple modalities, thereby enhancing their applicability to a wide range of tasks. In this paper, we propose LEGO, a language enhanced multi-modal grounding model. Beyond capturing global information like other multi-modal models, our proposed model excels at tasks demanding a detailed understanding of local information within the input. It demonstrates precise identification and localization of specific regions in images or moments in videos. To achieve this objective, we design a diversified dataset construction pipeline, resulting in a multi-modal, multi-granularity dataset for model training. The code, dataset, and demo of our model can be found at https: //github.com/lzw-lzw/LEGO.
翻訳日:2024-01-15 12:16:40 公開日:2024-01-12
# レーザー冷却分子の光トウェザへの決定論的負荷法

A scheme for deterministic loading of laser-cooled molecules into optical tweezers ( http://arxiv.org/abs/2401.06028v2 )

ライセンス: Link先を確認
Etienne F. Walraven, Michael R. Tarbutt, Tijs Karman(参考訳) レーザー冷却分子を光トウィーザに繰り返しロードし,2つの量子分極により回転励起された貯蔵状態に移動させる。 これらの貯蔵状態における分子の衝突損失は抑制され、双極子遮断は複数の分子の蓄積を防ぐ。 3サイクルを施すことで、1つの分子でツイーザーを80~\%の成功率でロードする。 この負荷効率の改善により、ツイーザー配列の再構成に要する時間を短縮し、それ以外は中性分子量子コンピュータのスケーラビリティを制限した。

We propose to repeatedly load laser-cooled molecules into optical tweezers, and transfer them to storage states that are rotationally excited by two additional quanta. Collisional loss of molecules in these storage states is suppressed, and a dipolar blockade prevents the accumulation of more than one molecule. Applying three cycles loads tweezers with single molecules at an 80~\% success rate, limited by residual collisional loss. This improved loading efficiency reduces the time needed for rearrangement of tweezer arrays, which would otherwise limit the scalability of neutral molecule quantum computers.
翻訳日:2024-01-15 12:16:22 公開日:2024-01-12
# 内視鏡下手術における深度推定のための基礎モデルの適応学習

Surgical-DINO: Adapter Learning of Foundation Models for Depth Estimation in Endoscopic Surgery ( http://arxiv.org/abs/2401.06013v2 )

ライセンス: Link先を確認
Beilei Cui, Mobarakol Islam, Long Bai, Hongliang Ren(参考訳) 目的: ロボット手術における深度推定は, 三次元再建, 手術ナビゲーション, 拡張現実の可視化において不可欠である。 基礎モデルは、深さ推定(例えば、DINOv2)を含む多くの視覚タスクにおいて優れた性能を示すが、最近の研究は、医学および外科領域固有の応用においてその限界を観察した。 本研究は手術深度推定のための基礎モデルの低ランク適応(LoRA)を示す。 方法: 内視鏡下手術における深度推定のためのDINOv2の低ランク適応として, 基礎モデルに基づく深度推定法を設計する。 従来の微調整ではなく,手術固有のドメイン知識に適応するため,LoRA層を構築してDINOに統合する。 トレーニング中、優れた視覚表現能力を示すDINO画像エンコーダを凍結し、手術シーンの特徴を統合するためにLoRA層と深度デコーダのみを最適化する。 結果:本モデルはDan Vinci Xi内視鏡手術から収集したSCAREDのMICCAIチャレンジデータセットで広範囲に検証された。 術中DINOは内視鏡的深度推定作業において,最先端のすべてのモデルよりも有意に優れていることを示す。 アブレーションによる解析は、我々のLoRA層と適応の顕著な影響の証拠となっている。 結論: 外科的DINOは, 深度推定のための基礎モデルの外科領域への適応を成功に導いた。 コンピュータビジョンデータセットのトレーニング済み重量のゼロショット予測やナイーブ微調整は外科領域の基盤モデルを直接使用するには不十分であるという明確な証拠がある。 コードはhttps://github.com/BeileiCui/SurgicalDINOで入手できる。

Purpose: Depth estimation in robotic surgery is vital in 3D reconstruction, surgical navigation and augmented reality visualization. Although the foundation model exhibits outstanding performance in many vision tasks, including depth estimation (e.g., DINOv2), recent works observed its limitations in medical and surgical domain-specific applications. This work presents a low-ranked adaptation (LoRA) of the foundation model for surgical depth estimation. Methods: We design a foundation model-based depth estimation method, referred to as Surgical-DINO, a low-rank adaptation of the DINOv2 for depth estimation in endoscopic surgery. We build LoRA layers and integrate them into DINO to adapt with surgery-specific domain knowledge instead of conventional fine-tuning. During training, we freeze the DINO image encoder, which shows excellent visual representation capacity, and only optimize the LoRA layers and depth decoder to integrate features from the surgical scene. Results: Our model is extensively validated on a MICCAI challenge dataset of SCARED, which is collected from da Vinci Xi endoscope surgery. We empirically show that Surgical-DINO significantly outperforms all the state-of-the-art models in endoscopic depth estimation tasks. The analysis with ablation studies has shown evidence of the remarkable effect of our LoRA layers and adaptation. Conclusion: Surgical-DINO shed some light on the successful adaptation of the foundation models into the surgical domain for depth estimation. There is clear evidence in the results that zero-shot prediction on pre-trained weights in computer vision datasets or naive fine-tuning is not sufficient to use the foundation model in the surgical domain directly. Code is available at https://github.com/BeileiCui/SurgicalDINO.
翻訳日:2024-01-15 12:16:10 公開日:2024-01-12
# 木に基づく変動係数モデル

A tree-based varying coefficient model ( http://arxiv.org/abs/2401.05982v2 )

ライセンス: Link先を確認
Henning Zakrisson and Mathias Lindholm(参考訳) 本稿では,delong et al. (2023) の cyclic gradient boosting machine (cgbm) を用いて,変化係数をモデル化する木ベース変動係数モデル (vcm) を提案する。 cgbmを用いた係数関数のモデル化は、次元的に早期停止と特徴重要度スコアを可能にする。 次元の早い停止は、次元固有のオーバーフィッティングのリスクを減らすだけでなく、次元間のモデルの複雑さの違いも明らかにする。 特徴重要度スコアを使用することで、シンプルな特徴選択と簡単なモデル解釈が可能になる。 このモデルは、RichmanとW\'uthrich(2023)で使用されているものと同じシミュレーションと実データ例に基づいて評価され、その結果が、彼らのニューラルネットワークベースのVCMであるLocalGLMnetに匹敵するサンプル損失から結果を生成することを示している。

The paper introduces a tree-based varying coefficient model (VCM) where the varying coefficients are modelled using the cyclic gradient boosting machine (CGBM) from Delong et al. (2023). Modelling the coefficient functions using a CGBM allows for dimension-wise early stopping and feature importance scores. The dimension-wise early stopping not only reduces the risk of dimension-specific overfitting, but also reveals differences in model complexity across dimensions. The use of feature importance scores allows for simple feature selection and easy model interpretation. The model is evaluated on the same simulated and real data examples as those used in Richman and W\"uthrich (2023), and the results show that it produces results in terms of out of sample loss that are comparable to those of their neural network-based VCM called LocalGLMnet.
翻訳日:2024-01-15 12:15:44 公開日:2024-01-12
# 極性分子間の相互作用の回転状態依存性

Rotational state dependence of interactions between polar molecules ( http://arxiv.org/abs/2401.05958v2 )

ライセンス: Link先を確認
Etienne F. Walraven, Tijs Karman(参考訳) 分子間の長距離静電相互作用は相対配向に強く依存しており、回転状態依存として現れる。 同じ回転量子状態の分子間の相互作用は、魅力的なファンデルワールス相互作用である。 1つの量子ショー共鳴双極子-双極子相互作用によって異なる回転状態における相互作用。 分子が1つ以上の量子状態と異なる回転状態にある場合、それらは反発的なファンデルワールス相互作用を示す。 ミリケルビン以下の温度では、この効果は衝突による損失を桁違いに減少させる。 これらの反発相互作用は、超低温極性分子を用いた量子シミュレーションや不純物物理学に応用される。

The long-range electrostatic interactions between molecules depend strongly on their relative orientation, which manifests as a rotational state dependence. Interactions between molecules in the same rotational quantum state are well-known attractive rotational van der Waals interactions. Interactions in rotational states that differ by one quantum show resonant dipole-dipole interactions. We show that where molecules are in rotational states that differ by more than one quantum, they exhibit repulsive van der Waals interactions. At temperatures below a millikelvin, this effect can reduce collisional loss by multiple orders of magnitude. These repulsive interactions lead to applications in quantum simulation and impurity physics with ultracold polar molecules.
翻訳日:2024-01-15 12:15:27 公開日:2024-01-12
# 大規模言語モデルの普遍的脆弱性: コンテキスト内学習バックドア攻撃

Universal Vulnerabilities in Large Language Models: In-context Learning Backdoor Attacks ( http://arxiv.org/abs/2401.05949v2 )

ライセンス: Link先を確認
Shuai Zhao, Meihuizi Jia, Luu Anh Tuan, Jinming Wen(参考訳) In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスク、特に数ショット設定において高い有効性を示している。 従来の微調整法とは異なり、コンテキスト内学習はパラメータを更新することなく、トレーニング済みのモデルを未確認のタスクに適応させる。 広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。 本研究では,このパラダイムに関するセキュリティ上の懸念を提起する。 本研究は,攻撃者がモデルを微調整することなく,デモンストレーションコンテキストを汚染することにより,大規模言語モデルの動作を操作できることを実証する。 具体的には,テキスト内学習に基づく大規模言語モデルを対象とした新たなバックドア攻撃手法ICLAttackを設計した。 本手法は2種類の攻撃を包含する: 毒殺実証例と毒殺プロンプトであり, 事前定義された意図に従ってモデルが振る舞うことができる。 ICLAttackは、バックドアを埋め込むために追加の微調整を必要としないため、モデルの一般性を保っている。 さらに, 毒性例を正しくラベル付けし, 攻撃方法の自然なステルス性を高めた。 1.3bパラメーターから40bパラメーターの範囲の言語モデルにおける広範囲な実験結果から,オプティモデル上の3つのデータセットに対して,平均攻撃成功率95.0%を例に,攻撃手法の有効性を示す。 我々の研究は言語モデルの脆弱性を浮き彫りにしており、この研究がコンテキスト内学習に関連するセキュリティ脅威の認識を高めることを願っている。

In-context learning, a paradigm bridging the gap between pre-training and fine-tuning, has demonstrated high efficacy in several NLP tasks, especially in few-shot settings. Unlike traditional fine-tuning methods, in-context learning adapts pre-trained models to unseen tasks without updating any parameters. Despite being widely applied, in-context learning is vulnerable to malicious attacks. In this work, we raise security concerns regarding this paradigm. Our studies demonstrate that an attacker can manipulate the behavior of large language models by poisoning the demonstration context, without the need for fine-tuning the model. Specifically, we have designed a new backdoor attack method, named ICLAttack, to target large language models based on in-context learning. Our method encompasses two types of attacks: poisoning demonstration examples and poisoning prompts, which can make models behave in accordance with predefined intentions. ICLAttack does not require additional fine-tuning to implant a backdoor, thus preserving the model's generality. Furthermore, the poisoned examples are correctly labeled, enhancing the natural stealth of our attack method. Extensive experimental results across several language models, ranging in size from 1.3B to 40B parameters, demonstrate the effectiveness of our attack method, exemplified by a high average attack success rate of 95.0% across the three datasets on OPT models. Our findings highlight the vulnerabilities of language models, and we hope this work will raise awareness of the possible security threats associated with in-context learning.
翻訳日:2024-01-15 12:15:18 公開日:2024-01-12
# ソシアメディアデータ選択のための生成重複

Generative Deduplication For Socia Media Data Selection ( http://arxiv.org/abs/2401.05883v2 )

ライセンス: Link先を確認
Xianming Li, Jing Li(参考訳) ソーシャルメディアデータは、その騒がしい性質によって生じる冗長性の問題に苦しめられ、トレーニング時間とモデルのバイアスが増大する。 この問題に対処するために、生成重複と呼ばれる新しいアプローチを提案する。 騒がしいソーシャルメディアデータから重複したテキストを削除し、モデルのバイアスを軽減することを目的としている。 これにより、ソーシャルメディアの言語理解のパフォーマンスを改善し、トレーニング時間を短縮できる。 広範囲な実験により,提案手法はトレーニングサンプルを効果的に低減し,性能を向上することを示した。 この証拠は、生成的重複の有効性とソーシャルメディア言語理解における重要性を示唆している。

Social media data is plagued by the redundancy problem caused by its noisy nature, leading to increased training time and model bias. To address this issue, we propose a novel approach called generative deduplication. It aims to remove duplicate text from noisy social media data and mitigate model bias. By doing so, it can improve social media language understanding performance and save training time. Extensive experiments demonstrate that the proposed generative deduplication can effectively reduce training samples while improving performance. This evidence suggests the effectiveness of generative deduplication and its importance in social media language understanding.
翻訳日:2024-01-15 12:14:52 公開日:2024-01-12
# 可視赤外人物再同定のためのCLIP-Driven Semantic Discovery Network

CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2401.05806v2 )

ライセンス: Link先を確認
Xiaoyan Yu, Neng Dong, Liehuang Zhu, Hao Peng, Dapeng Tao(参考訳) Visible-infrared person re-identification (VIReID)は、主に異なるモダリティの人物画像間の一致したアイデンティティを扱う。 可視画像と赤外線画像のモダリティギャップのため、相互モダリティのアイデンティティマッチングには大きな課題がある。 本稿では,性別,形状,衣服スタイルといった歩行者の外観の高レベルセマンティクスが,モダリティにわたって一貫していることを認識し,視覚特徴を高レベルセマンティクスに反映することでモダリティギャップを橋渡しすることを目的とする。 視覚表現に対応する高レベルの意味情報を認識できるCLIPの能力を考えると,VIReIDの領域におけるCLIPの適用について検討する。 提案するCLIP-Driven Semantic Discovery Network (CSDN) は,モダリティ固有のPrompt Learner, Semantic Information Integration (SII), High-level Semantic Embedding (HSE) から構成される。 具体的には、言語記述におけるモダリティの相違から生じる多様性を考慮して、バイモーダル学習可能なテキストトークンを考案し、可視画像と赤外線画像のモダリティプライベートな意味情報を取得する。 さらに,様々なモダリティにまたがるセマンティックディテールの相補的な性質を認め,バイモーダル言語記述からのテキスト特徴を統合し,包括的なセマンティクスを実現する。 最後に,統合されたテキスト機能とモダリティ間の視覚的特徴との接続を確立する。 このプロセスは、リッチなハイレベルな意味情報を視覚表現に組み込み、視覚表現のモダリティ不変性を促進する。 提案手法に対するCSDNの有効性と優位性は,複数の広く用いられているベンチマーク実験により実証された。 コードは \url{https://github.com/nengdong96/CSDN} でリリースされる。

Visible-infrared person re-identification (VIReID) primarily deals with matching identities across person images from different modalities. Due to the modality gap between visible and infrared images, cross-modality identity matching poses significant challenges. Recognizing that high-level semantics of pedestrian appearance, such as gender, shape, and clothing style, remain consistent across modalities, this paper intends to bridge the modality gap by infusing visual features with high-level semantics. Given the capability of CLIP to sense high-level semantic information corresponding to visual representations, we explore the application of CLIP within the domain of VIReID. Consequently, we propose a CLIP-Driven Semantic Discovery Network (CSDN) that consists of Modality-specific Prompt Learner, Semantic Information Integration (SII), and High-level Semantic Embedding (HSE). Specifically, considering the diversity stemming from modality discrepancies in language descriptions, we devise bimodal learnable text tokens to capture modality-private semantic information for visible and infrared images, respectively. Additionally, acknowledging the complementary nature of semantic details across different modalities, we integrate text features from the bimodal language descriptions to achieve comprehensive semantics. Finally, we establish a connection between the integrated text features and the visual features across modalities. This process embed rich high-level semantic information into visual representations, thereby promoting the modality invariance of visual representations. The effectiveness and superiority of our proposed CSDN over existing methods have been substantiated through experimental evaluations on multiple widely used benchmarks. The code will be released at \url{https://github.com/nengdong96/CSDN}.
翻訳日:2024-01-15 12:14:42 公開日:2024-01-12
# 接続音素認識におけるクラスエントロピー測定によるセグメント境界検出

Segment Boundary Detection via Class Entropy Measurements in Connectionist Phoneme Recognition ( http://arxiv.org/abs/2401.05717v2 )

ライセンス: Link先を確認
Giampiero Salvi(参考訳) 本稿では,接続音素認識器の出力のクラスエントロピーを用いて,音素クラス間の時間境界を予測する可能性について検討する。 その理論的根拠は、エントロピーの値は、認識ネットワークによってよくモデル化された(知られている)2つのセグメント間の遷移の近傍に、不確かさの尺度であるために増加することである。 この尺度の利点は、各クラスの後続確率が接続音素認識で利用できるため、その単純さである。 エントロピーの微分に基づくエントロピーといくつかの尺度は、分離および組み合わせに使用される。 境界を予測するための決定方法は、単純なしきい値からニューラルネットワークベースの手順まで様々である。 基準値の10〜20msec以内の予測境界の数cと予測境界の総数との比で測定した精度と、cと基準境界の総数との比率として測定したリコールとを比較した。

This article investigates the possibility to use the class entropy of the output of a connectionist phoneme recogniser to predict time boundaries between phonetic classes. The rationale is that the value of the entropy should increase in proximity of a transition between two segments that are well modelled (known) by the recognition network since it is a measure of uncertainty. The advantage of this measure is its simplicity as the posterior probabilities of each class are available in connectionist phoneme recognition. The entropy and a number of measures based on differentiation of the entropy are used in isolation and in combination. The decision methods for predicting the boundaries range from simple thresholds to neural network based procedure. The different methods are compared with respect to their precision, measured in terms of the ratio between the number C of predicted boundaries within 10 or 20 msec of the reference and the total number of predicted boundaries, and recall, measured as the ratio between C and the total number of reference boundaries.
翻訳日:2024-01-15 12:14:10 公開日:2024-01-12
# 衣服交換者再識別のための仮面属性記述埋め込み

Masked Attribute Description Embedding for Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2401.05646v2 )

ライセンス: Link先を確認
Chunlei Peng, Boyu Wang, Decheng Liu, Nannan Wang, Ruimin Hu, Xinbo Gao(参考訳) 着替え人再確認(cc-reid)は、長期間着替えた人とマッチングすることを目的としている。 CC-ReIDの鍵となる課題は、顔、髪型、体型、歩行など、衣服に依存しない特徴を抽出することである。 最近の研究は主に多様生物的特徴(シルエットやスケッチなど)を用いた身体形状のモデル化に焦点を当てている。 しかし、元のRGB画像に隠された個人記述情報を十分に活用していない。 布地変更後も変化しない属性記述が存在することを考慮し,cc-reidの個人的視覚的外観と属性記述を統一するマスク付き属性記述埋め込み(made)手法を提案する。 特に,色や型といった着衣に敏感な情報を扱うことは,効果的なモデリングには困難である。 これを解決するために,属性検出モデルを用いて抽出した個人属性記述における衣服や色情報を隠蔽する。 マスクされた属性記述は、様々なレベルでTransformerブロックに接続され、画像の低レベルから高レベルの特徴と融合する。 このアプローチは、衣服情報を破棄するモデルを補完する。 実験は、PRCC、LTCC、Celeb-reID-light、LaSTなどのCC-ReIDベンチマークで実施されている。 その結果,属性記述を効果的に活用し,人物再識別性能を高め,最先端手法と好適な比較を行った。 コードはhttps://github.com/moon-wh/madeで入手できる。

Cloth-changing person re-identification (CC-ReID) aims to match persons who change clothes over long periods. The key challenge in CC-ReID is to extract clothing-independent features, such as face, hairstyle, body shape, and gait. Current research mainly focuses on modeling body shape using multi-modal biological features (such as silhouettes and sketches). However, it does not fully leverage the personal description information hidden in the original RGB image. Considering that there are certain attribute descriptions which remain unchanged after the changing of cloth, we propose a Masked Attribute Description Embedding (MADE) method that unifies personal visual appearance and attribute description for CC-ReID. Specifically, handling variable clothing-sensitive information, such as color and type, is challenging for effective modeling. To address this, we mask the clothing and color information in the personal attribute description extracted through an attribute detection model. The masked attribute description is then connected and embedded into Transformer blocks at various levels, fusing it with the low-level to high-level features of the image. This approach compels the model to discard clothing information. Experiments are conducted on several CC-ReID benchmarks, including PRCC, LTCC, Celeb-reID-light, and LaST. Results demonstrate that MADE effectively utilizes attribute description, enhancing cloth-changing person re-identification performance, and compares favorably with state-of-the-art methods. The code is available at https://github.com/moon-wh/MADE.
翻訳日:2024-01-15 12:13:53 公開日:2024-01-12
# 未知クラス検出のための低密度潜在領域のwasserstein距離に基づく拡張

Wasserstein Distance-based Expansion of Low-Density Latent Regions for Unknown Class Detection ( http://arxiv.org/abs/2401.05594v2 )

ライセンス: Link先を確認
Prakash Mallick, Feras Dayoub, Jamie Sherrah(参考訳) 本稿では, 未知のオブジェクトを未知のカテゴリと誤って分類し, 高い信頼性で分類する手法として, オープンセットオブジェクト検出(OSOD)の重大な課題について論じる。 潜在空間における高密度領域と低密度領域を区別することにより,未知の物体を効果的に識別する新しい手法を提案する。 提案手法はOpen-Det (OD) フレームワーク上に構築され,損失関数に2つの新しい要素が導入された。 これらの要素は既知の埋め込み空間のクラスタリングを強化し、未知の空間の低密度領域を広げる。 最初の追加はクラスWasserstein Anchor (CWA) であり、分類境界を洗練させる新しい関数である。 2つ目はスペクトル正規化ステップであり、モデルのロバスト性を改善する。 既存のContrastive Feature Learner (CFL) と Unknown Probability Learner (UPL) の損失関数への拡張により、OSODの性能は大幅に向上した。 提案手法はopendet-cwa (od-cwa) である。 a) オープンセットエラーの約17%〜22%の低減。 b) 新規検出能力の1.5%-16%向上、及び c) 様々なオープンセットシナリオにおいて、荒野指数の2%~20%の低下。 これらの結果は、オープンセットオブジェクト検出の複雑さ管理における我々のアプローチの可能性を示している。

This paper addresses the significant challenge in open-set object detection (OSOD): the tendency of state-of-the-art detectors to erroneously classify unknown objects as known categories with high confidence. We present a novel approach that effectively identifies unknown objects by distinguishing between high and low-density regions in latent space. Our method builds upon the Open-Det (OD) framework, introducing two new elements to the loss function. These elements enhance the known embedding space's clustering and expand the unknown space's low-density regions. The first addition is the Class Wasserstein Anchor (CWA), a new function that refines the classification boundaries. The second is a spectral normalisation step, improving the robustness of the model. Together, these augmentations to the existing Contrastive Feature Learner (CFL) and Unknown Probability Learner (UPL) loss functions significantly improve OSOD performance. Our proposed OpenDet-CWA (OD-CWA) method demonstrates: a) a reduction in open-set errors by approximately 17%-22%, b) an enhancement in novelty detection capability by 1.5%-16%, and c) a decrease in the wilderness index by 2%-20% across various open-set scenarios. These results represent a substantial advancement in the field, showcasing the potential of our approach in managing the complexities of open-set object detection.
翻訳日:2024-01-15 12:13:28 公開日:2024-01-12
# スリーパーエージェント:安全トレーニングを通じて持続する偽装llmの訓練

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training ( http://arxiv.org/abs/2401.05566v2 )

ライセンス: Link先を確認
Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, S\"oren Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez(参考訳) 人間は多くの状況で有益な行動をとるが、機会を与えられたときに別の目的を追求するために非常に異なる行動をとる。 もしAIシステムがそのような偽りの戦略を学んだら、検出して現在の最先端の安全訓練技術を使って除去できるだろうか? そこで本研究では,大規模言語モデル(llm)における概念実証事例について考察する。 例えば、2023年とプロンプトされた時にセキュアなコードを書くモデルをトレーニングしますが、2024年の場合は、悪用可能なコードを挿入します。 このようなバックドア動作は、教師付き微調整、強化学習、敵の訓練(安全でない振る舞いを排除し、それを除去する訓練)など、標準的な安全訓練技術によって取り除かれることはない。 バックドアの挙動は、最大のモデルや訓練されたモデルにおいて最も永続的であり、チェーン・オブ・シントを蒸留しても持続性は残る。 さらに,バックドアをなくすのではなく,モデルにバックドアトリガをよりよく認識するように指導することで,安全でない動作を効果的に隠蔽できることがわかった。 以上の結果から, モデルが仮装行動を示すと, 標準技術ではそのような偽装を除去できず, 安全性の虚偽の印象を生じさせる可能性が示唆された。

Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoor behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoor behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.
翻訳日:2024-01-15 12:13:08 公開日:2024-01-12
# RoSA:ロバスト適応による高精度パラメータ効率ファインチューニング

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation ( http://arxiv.org/abs/2401.04679v4 )

ライセンス: Link先を確認
Mahdi Nikdan, Soroush Tabesh, Dan Alistarh(参考訳) 本研究では,大規模言語モデル (LLM) の文脈において,限られた計算・メモリ予算の下で高い精度を達成できるパラメータ効率細調整法について検討する。 本稿では,ロバスト適応 (RoSA) と呼ばれる新しいPEFT手法を提案する。ロバスト適応 (RoSA) はロバストな主成分分析 (PCA) にインスパイアされ,固定された事前学習重みのセットの上に$\textit{low-rank}$と$\textit{highly-sparse}$コンポーネントを共同でトレーニングし,フルファインチューニング (FFT) ソリューションの性能を効率的に近似する。 小学校数学やSQLクエリ生成など,優れたパフォーマンスのために微調整を必要とする一連の課題生成タスクにおいて,RoSAがLoRAと純粋スパース細調整の両方を同じパラメータ予算で上回ることを示す。 我々は、トレーニングアルゴリズム、特にメモリと計算効率のトレーニングを可能にするスパースGPUカーネルを補完するRoSAのシステムサポートを提供する。 私たちのコードはhttps://github.com/IST-DASLab/RoSAで公開されます。

We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis (PCA) that jointly trains $\textit{low-rank}$ and $\textit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms both LoRA and pure sparse fine-tuning, at the same parameter budget. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training. Our code will be made available at https://github.com/IST-DASLab/RoSA.
翻訳日:2024-01-15 12:12:38 公開日:2024-01-12