このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240224となっている論文です。

PDF登録状況(公開日: 20240224)

TitleAuthorsAbstract論文公表日・翻訳日
# Bluetoothの低エネルギー確保:文献レビュー

Securing Bluetooth Low Energy: A Literature Review ( http://arxiv.org/abs/2404.16846v1 )

ライセンス: Link先を確認
Zhe Wang, (参考訳) Bluetooth Low Energy(BLE)技術は、2.4GHz ISM帯域で広く使われている。 本稿では、ニッチなコンポーネントを除くBLEの基本的側面を掘り下げ、その中核機能と多様な接続ニーズにおける重要な役割を探求する。 BLEの低消費電力デバイスへのキャタリングにおける特殊化は、エネルギー効率が最重要となるIoTアプリケーションにおいて、最適なエネルギー利用を保証する。 その汎用性は、消費者電子製品、産業自動化、医療にまたがる応用を見つけ、安全クリティカルなシステムの信頼性と効率を確保し、遠隔操作機能を通じてユーザーの利便性を高める。 しかしながら、BLEインターフェースの無線性は、サイバーセキュリティの脅威にさらされ、嗅覚、DoS攻撃、メッセージインジェクションなどのリスクを軽減するための堅牢なセキュリティ対策を必要とする。 継続的な研究と開発努力は、新たな脅威に先行し、BLE対応システムやデータを保護するために不可欠である。

Bluetooth Low Energy (BLE) technology, operating within the widely used 2.4 GHz ISM band, stands as a cornerstone in modern wireless communication frameworks alongside its classic Bluetooth counterpart. This paper delves into the foundational aspects of BLE, excluding niche components, to explore its core functionalities and pivotal role in diverse connectivity needs. BLE's specialization in catering to low-power devices ensures optimal energy utilization, making it indispensable in IoT applications where energy efficiency is paramount. Its versatility finds applications across consumer electronics, industrial automation, and healthcare, ensuring reliability and efficiency in safety-critical systems and enhancing user convenience through remote control capabilities. However, the wireless nature of BLE interfaces exposes them to cybersecurity threats, necessitating robust security measures for mitigating risks such as sniffing, DoS attacks, and message injection. Continuous research and development efforts are essential to stay ahead of emerging threats and safeguard BLE-enabled systems and data.
翻訳日:2024-07-01 11:39:16 公開日:2024-02-24
# 小売分析の革新 - AIによるインベントリと顧客インサイトの向上

Revolutionizing Retail Analytics: Advancing Inventory and Customer Insight with AI ( http://arxiv.org/abs/2405.00023v1 )

ライセンス: Link先を確認
A. Hossam, A. Ramadan, M. Magdy, R. Abdelwahab, S. Ashraf, Z. Mohamed, (参考訳) 本稿では,非効率な待ち行列管理,低需要予測,非効率マーケティングなど小売業が直面する課題に対して,最先端機械学習技術を活用した革新的なアプローチを提案する。 我々は、これらの技術を活用して小売効率と顧客エンゲージメントを向上させる、高度なスマート小売分析システム(SRAS)の構築を目指している。 顧客追跡機能を向上させるため、いくつかの予測モデルを統合するハイブリッドアーキテクチャを提案する。 顧客追跡のためのハイブリッドアーキテクチャの第一段階では、多様なパラメータセットを用いてYOLOV8アルゴリズムを微調整し、様々なパフォーマンス指標で例外的な結果を得た。 この微調整プロセスは、小売環境からの実際の監視映像を利用して、実用性を確保した。 第2段階では,BOT-SORTとByteTrackという2つの高度なオブジェクト追跡モデルと,YOLOV8で検出されたラベルの統合について検討した。 この統合は、店内の顧客パスの追跡に不可欠であり、正確なビジター数とヒートマップの作成を容易にする。 これらの洞察は、消費者の行動を理解し、店の運営を改善するのに役立ちます。 在庫管理を最適化するために、我々は様々な予測モデルを考案し、それらのパフォーマンスを複雑な小売データパターンに対して最適化し、対比した。 GRUモデルは、時系列データを長距離時間依存で解釈する能力を持ち、リニア回帰のような他のモデルを一貫して上回り、それぞれR2スコアとmAPEが2.873%、29.31%改善した。

In response to the significant challenges facing the retail sector, including inefficient queue management, poor demand forecasting, and ineffective marketing, this paper introduces an innovative approach utilizing cutting-edge machine learning technologies. We aim to create an advanced smart retail analytics system (SRAS), leveraging these technologies to enhance retail efficiency and customer engagement. To enhance customer tracking capabilities, a new hybrid architecture is proposed integrating several predictive models. In the first stage of the proposed hybrid architecture for customer tracking, we fine-tuned the YOLOV8 algorithm using a diverse set of parameters, achieving exceptional results across various performance metrics. This fine-tuning process utilized actual surveillance footage from retail environments, ensuring its practical applicability. In the second stage, we explored integrating two sophisticated object-tracking models, BOT-SORT and ByteTrack, with the labels detected by YOLOV8. This integration is crucial for tracing customer paths within stores, which facilitates the creation of accurate visitor counts and heat maps. These insights are invaluable for understanding consumer behavior and improving store operations. To optimize inventory management, we delved into various predictive models, optimizing and contrasting their performance against complex retail data patterns. The GRU model, with its ability to interpret time-series data with long-range temporal dependencies, consistently surpassed other models like Linear Regression, showing 2.873% and 29.31% improvements in R2-score and mAPE, respectively.
翻訳日:2024-07-01 11:29:30 公開日:2024-02-24
# MemeCraft: コンテキストとスタンス駆動のマルチモーダルミーム生成

MemeCraft: Contextual and Stance-Driven Multimodal Meme Generation ( http://arxiv.org/abs/2403.14652v1 )

ライセンス: Link先を確認
Han Wang, Roy Ka-Wei Lee, (参考訳) オンラインミームは、ソーシャルメディアの時代に強力なデジタル文化的アーティファクトとして出現し、ユーモアだけでなく、政治談話、社会的批判、情報発信のためのプラットフォームも提供している。 オンラインコミュニティの感情形成における彼らの広範なリーチと影響力は、イデオロギーのキャンペーンや促進のための貴重なツールとなっている。 いくつかのミーム生成ツールの開発にもかかわらず、その体系的評価とイデオロギーを効果的に伝達する能力にはギャップが残っている。 そこで我々は,大規模言語モデル(LLM)と視覚言語モデル(VLM)を活用して,特定の社会運動を提唱するミームを生成する,革新的なミームジェネレータであるMemeCraftを紹介した。 MemeCraftはエンドツーエンドのパイプラインを提供し、ユーザプロンプトを手作業で介入することなく、魅力的なマルチモーダルミームに変換する。 異種コンテンツの誤用の可能性を考えると、本質的な安全機構が組み込まれ、嫌悪なミーム生産を抑制する。

Online memes have emerged as powerful digital cultural artifacts in the age of social media, offering not only humor but also platforms for political discourse, social critique, and information dissemination. Their extensive reach and influence in shaping online communities' sentiments make them invaluable tools for campaigning and promoting ideologies. Despite the development of several meme-generation tools, there remains a gap in their systematic evaluation and their ability to effectively communicate ideologies. Addressing this, we introduce MemeCraft, an innovative meme generator that leverages large language models (LLMs) and visual language models (VLMs) to produce memes advocating specific social movements. MemeCraft presents an end-to-end pipeline, transforming user prompts into compelling multimodal memes without manual intervention. Conscious of the misuse potential in creating divisive content, an intrinsic safety mechanism is embedded to curb hateful meme production.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-24
# 著作権とコンピュータ科学 : 生成AIの法則と倫理

Between Copyright and Computer Science: The Law and Ethics of Generative AI ( http://arxiv.org/abs/2403.14653v1 )

ライセンス: Link先を確認
Deven R. Desai, Mark Riedl, (参考訳) 著作権とコンピュータ科学は相反し、衝突し続けているが、共存できる。 視覚的・聴覚的創造物のデジタル化、共有技術、検索エンジン、ソーシャルメディアの提供、著作権に基づく産業への挑戦、著作権法の範囲に関する質問など、新しい技術の出現。 人工知能研究のブレークスルー、特に、トレーニングモデルの一部として著作権物質を利用する大規模言語モデルは、著作権とコンピュータ科学の緊張が続いている最近の例である。 いくつかの誤解された企業が生み出した、急激な市場投入、エッジな問題のケースは、現在、中核的な法的教義に課題を提起し、さらに悪いことにオープンインターネットの慣行をシフトさせる可能性がある。 その結果は、その成果である必要はないし、そうでなくてもよい。 本条は、一部の学者の見解に反して、フェアユース法は、目的がフェアユースであっても、誰かが著作権のある資料にアクセスできるあらゆる方法に恵まれないことを示す。 それでも、AI研究を進めるための科学的なデータの必要性は、大規模な書籍コーパスへのアクセスを意味し、その研究の将来にはオープンインターネットが不可欠である。 しかし、著作権業界は、著作権のある素材のほとんど全ての使用は、非表現的な使用であっても補償されなければならないと主張している。 この記事の解決策は、双方が変更する必要があることを認めている。 それはコンピュータ科学の世界にその行動の規律を強制し、場合によっては著作権のある素材の支払いを強制するものである。 また、著作権業界は、すべての使用が著作権業界によって認可された使用に補償されるか制限されなければならないという信念を捨てる必要がある。 この再バランスの一環として、本条は、この衝突から生じた問題に対処し、理論化されている。

Copyright and computer science continue to intersect and clash, but they can coexist. The advent of new technologies such as digitization of visual and aural creations, sharing technologies, search engines, social media offerings, and more challenge copyright-based industries and reopen questions about the reach of copyright law. Breakthroughs in artificial intelligence research, especially Large Language Models that leverage copyrighted material as part of training models, are the latest examples of the ongoing tension between copyright and computer science. The exuberance, rush-to-market, and edge problem cases created by a few misguided companies now raises challenges to core legal doctrines and may shift Open Internet practices for the worse. That result does not have to be, and should not be, the outcome. This Article shows that, contrary to some scholars' views, fair use law does not bless all ways that someone can gain access to copyrighted material even when the purpose is fair use. Nonetheless, the scientific need for more data to advance AI research means access to large book corpora and the Open Internet is vital for the future of that research. The copyright industry claims, however, that almost all uses of copyrighted material must be compensated, even for non-expressive uses. The Article's solution accepts that both sides need to change. It is one that forces the computer science world to discipline its behaviors and, in some cases, pay for copyrighted material. It also requires the copyright industry to abandon its belief that all uses must be compensated or restricted to uses sanctioned by the copyright industry. As part of this re-balancing, the Article addresses a problem that has grown out of this clash and under theorized.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-24
# 盗聴者の存在下でのプライバシ保護状態の推定:調査

Privacy-Preserving State Estimation in the Presence of Eavesdroppers: A Survey ( http://arxiv.org/abs/2402.15738v1 )

ライセンス: Link先を確認
Xinhao Yan, Guanzhong Zhou, Daniel E. Quevedo, Carlos Murguia, Bo Chen, Hailong Huang, (参考訳) ネットワークシステムは、デジタル通信、組み込みハードウェア、ソフトウェアにおける脆弱性を悪用するサイバー攻撃の標的となっている。 おそらく最も単純な種類の攻撃、そしてしばしば破壊的な完全性攻撃を開始する前の最初の攻撃は盗聴攻撃であり、システムデータを収集し、悪意のある目的のためにそれを悪用することで情報を推測することを目的としている。 ネットワークシステムのキーとなる技術は状態推定であり、センシングとアクティベーションデータと第一原理モデルを利用して軌道計画、リアルタイム監視、制御を可能にする。 しかし、Eavesdropperによって、例えば、整合性(ステルス)攻撃を起動し、機密情報を推測することを目的として、モデルを特定し、状態を再構築するために、状態推定を利用することもできる。 したがって、盗聴者による正確な状態推定を避けるために、開示されたシステムデータを保護することが重要である。 本調査では,プライバシ保護状態推定手法に関する既存の文献を包括的にレビューするとともに,潜在的な限界と研究ギャップを明らかにした。 我々の主な焦点は、暗号、データ摂動、送信スケジューリングの3種類の手法であり、特にカルマン型フィルタに重点を置いている。 これらのカテゴリの中で、同型暗号化と差分プライバシーの概念を探求し、近年、プライバシー保護状態推定の文脈で広く研究されている。 最後に,現在の手法を取り巻く技術的,基本的課題をいくつか明らかにし,今後の研究の方向性を提案する。

Networked systems are increasingly the target of cyberattacks that exploit vulnerabilities within digital communications, embedded hardware, and software. Arguably, the simplest class of attacks -- and often the first type before launching destructive integrity attacks -- are eavesdropping attacks, which aim to infer information by collecting system data and exploiting it for malicious purposes. A key technology of networked systems is state estimation, which leverages sensing and actuation data and first-principles models to enable trajectory planning, real-time monitoring, and control. However, state estimation can also be exploited by eavesdroppers to identify models and reconstruct states with the aim of, e.g., launching integrity (stealthy) attacks and inferring sensitive information. It is therefore crucial to protect disclosed system data to avoid an accurate state estimation by eavesdroppers. This survey presents a comprehensive review of existing literature on privacy-preserving state estimation methods, while also identifying potential limitations and research gaps. Our primary focus revolves around three types of methods: cryptography, data perturbation, and transmission scheduling, with particular emphasis on Kalman-like filters. Within these categories, we delve into the concepts of homomorphic encryption and differential privacy, which have been extensively investigated in recent years in the context of privacy-preserving state estimation. Finally, we shed light on several technical and fundamental challenges surrounding current methods and propose potential directions for future research.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-24
# シークレットの責任を負う - プライバシ保護機械学習の監査

Holding Secrets Accountable: Auditing Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2402.15780v1 )

ライセンス: Link先を確認
Hidde Lycklama, Alexander Viand, Nicolas Küchler, Christian Knabenhans, Anwar Hithnawi, (参考訳) プライバシー保護機械学習の最近の進歩は、プライバシーの懸念と規制上の制約のためにこれまで利用が困難だった、高度に機密性の高いデータにMLの利点を拡大する道を切り開いている。 同時に、MLデプロイメントの監査機能を含む、マシンラーニングの透明性と説明責任の向上に重点が置かれている。 ML監査とPPMLはどちらも集中的な研究対象であるが、主に単独で検討されている。 しかし、それらの組み合わせはますます重要になっている。 本研究では,プライバシ保護機械学習を監査するためのMPCフレームワークであるArcを紹介する。 我々のフレームワークの中核となるのは、大規模な簡潔なコミットメントに対してMPC入力を効率的に検証するための新しいプロトコルです。 一貫性プロトコルをインスタンス化する際のフレームワークの性能を評価し,これをハッシュベースおよび同型コミットベースのアプローチと比較し,最大10^4倍高速かつ最大10^6倍簡潔であることを示す。

Recent advancements in privacy-preserving machine learning are paving the way to extend the benefits of ML to highly sensitive data that, until now, have been hard to utilize due to privacy concerns and regulatory constraints. Simultaneously, there is a growing emphasis on enhancing the transparency and accountability of machine learning, including the ability to audit ML deployments. While ML auditing and PPML have both been the subjects of intensive research, they have predominately been examined in isolation. However, their combination is becoming increasingly important. In this work, we introduce Arc, an MPC framework for auditing privacy-preserving machine learning. At the core of our framework is a new protocol for efficiently verifying MPC inputs against succinct commitments at scale. We evaluate the performance of our framework when instantiated with our consistency protocol and compare it to hashing-based and homomorphic-commitment-based approaches, demonstrating that it is up to 10^4x faster and up to 10^6x more concise.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-24
# 歩行に基づくスマートウェアラブルデバイスのプライバシー保護

Gait-Based Privacy Protection for Smart Wearable Devices ( http://arxiv.org/abs/2402.15797v1 )

ライセンス: Link先を確認
Yu Su, Yongjiao Li, Zhu Cao, (参考訳) スマートウェアラブルデバイス(SWD)は、多くの人々の機密情報を収集し、保存する。 認証の第一の方法は依然としてパスワードのアンロック方法である。 しかし、いくつかの研究では、この方法の深刻なセキュリティ欠陥が示されており、SWDのプライバシーとセキュリティに関する懸念は特に緊急である。 歩行識別はSWDによく適している。内蔵センサーが識別のためのデータサポートを提供するためである。 しかし、既存の歩行識別手法は、歩行特徴のプライバシーを保護するために、精度が低く、無視されている。 さらにSWDは、ユーザがデータを共有するためのモノのインターネットとして使用することができる。 しかし、SWDと他のデバイス間のメッセージインタラクションのプライバシーを保護するために、歩行機能ベースの暗号化スキームを使った研究はほとんどない。 本稿では,歩行特徴を漏洩から保護するための歩行識別ネットワーク,アテンション機構を備えた双方向長短期記憶ネットワーク(ABLSTM)を提案し,その識別精度と確率直交変換(SOT)方式を提案する。 実験では、ABLSTMは95.28%の精度を達成し、以前のエラー率を19.3%削減した。 SOT方式は選択された平文攻撃(CPA)に耐性があることが証明され、従来の手法よりも30%高速である。 歩行識別段階が通過した後、歩行特徴をキーとして使用して安全なメッセージ対話を可能にするバイオメトリックベースの暗号方式を提案し、従来の方式と比較して歩行特徴の保護性を向上した。

Smart wearable devices (SWDs) collect and store sensitive daily information of many people. Its primary method of identification is still the password unlocking method. However, several studies have shown serious security flaws in that method, which makes the privacy and security concerns of SWDs particularly urgent. Gait identification is well suited for SWDs because its built-in sensors can provide data support for identification. However, existing gait identification methods have low accuracy and neglect to protect the privacy of gait features. In addition, the SWD can be used as an internet of things device for users to share data. But few studies have used gait feature-based encryption schemes to protect the privacy of message interactions between SWDs and other devices. In this paper, we propose a gait identification network, a bi-directional long short-term memory network with an attention mechanism (ABLSTM), to improve the identification accuracy and a stochastic orthogonal transformation (SOT) scheme to protect the extracted gait features from leakage. In the experiments, ABLSTM achieves an accuracy of 95.28%, reducing previous error rate by 19.3%. The SOT scheme is proved to be resistant to the chosen plaintext attack (CPA) and is 30% faster than previous methods. A biometric-based encryption scheme is proposed to enable secure message interactions using gait features as keys after the gait identification stage is passed, and offers better protection of the gait features compared to previous schemes.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-24
# BETA-UAV:セキュアなUAV通信のためのブロックチェーンベースの効率的な認証

BETA-UAV: Blockchain-based Efficient Authentication for Secure UAV Communication ( http://arxiv.org/abs/2402.15817v1 )

ライセンス: Link先を確認
Sana Hafeez, Mahmoud A. Shawky, Mohammad Al-Quraan, Lina Mohjazi, Muhammad Ali Imran, Yao Sun, (参考訳) 無人航空機(UAV)は、空飛ぶアドホックネットワークを具現化した新興アーキテクチャであり、主にデータに敏感なミッションに従事する際に、重要なプライバシーとセキュリティ上の課題に直面している。 したがって、メッセージ認証はドローン通信において重要なセキュリティ機能である。 本稿では,UAV通信におけるブロックチェーンベースの効率的かつ信頼性の高い認証方式であるBETA-UAVについて述べる。 BETA-UAVのスマートコントラクトにより、参加者はブロックチェーンネットワークからトランザクションをパブリッシュおよびコールすることができる。 さらに、トランザクションアドレスは、その後の送信に対する新鮮さと信頼性の証明である。 さらに, 身振り, リプレイ, 修正などの攻撃に抵抗する能力について検討した。 さらに,Ethereum公開ブロックチェーン上にBETA-UAVを実装することにより,スマートコントラクトの機能に関連するガスコストを評価する。 計算と通信のオーバーヘッドを比較すると、提案手法は従来の手法よりもかなりのコストを節約できることを示している。

Unmanned aerial vehicles (UAV), an emerging architecture that embodies flying ad-hoc networks, face critical privacy and security challenges, mainly when engaged in data-sensitive missions. Therefore, message authentication is a crucial security feature in drone communications. This paper presents a Blockchain-based Efficient, and Trusted Authentication scheme for UAV communication, BETA-UAV, which exploits the inherent properties of blockchain technology concerning memorability and is immutable to record communication sessions via transactions using a smart contract. The smart contract in BETA-UAV allows participants to publish and call transactions from the blockchain network. Furthermore, transaction addresses are proof of freshness and trustworthiness for subsequent transmissions. Furthermore, we investigated their ability to resist active attacks, such as impersonation, replaying, and modification. In addition, we evaluate the gas costs associated with the functions of the smart contract by implementing a BETA-UAV on the Ethereum public blockchain. A comparison of the computation and communication overheads shows that the proposed approach can save significant costs over traditional techniques.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-24
# 効率的なデータ保護とアクセスパターン難読化のための新しいセキュアメモリシステム

A New Secure Memory System for Efficient Data Protection and Access Pattern Obfuscation ( http://arxiv.org/abs/2402.15824v1 )

ライセンス: Link先を確認
Haoran Geng, Yuezhi Che, Aaron Dingler, Michael Niemier, Xiaobo Sharon Hu, (参考訳) セキュアなメモリ環境への依存がアプリケーション全体に浸透するにつれて、メモリセキュリティを確保するためにメモリ暗号化が使用される。 しかし、広く使われているAES-CTRのような最も効果的な暗号化方式は、本質的にカウンターストレージやバージョン番号の整合性チェックなど、追加のオーバーヘッドを導入している。 さらに、暗号化はデータコンテンツのみを保護し、メモリアクセスパターンの漏洩を完全に解決しない。 Oblivious RAM(ORAM)はこれらのパターンを隠蔽することを目的としているが、その高性能なコストは実用的なアプリケーションを妨げる。 我々は,従来の暗号化を使わずにデータコンテンツの機密性を保護し,アクセスパターンを保護し,効率的な整合性検証を可能にする,包括的なセキュリティソリューションを提供するセキュア散乱メモリ(SSM)を紹介した。 従来の暗号化中心のメソッドから離れ、SSMは、カウンター誘起オーバーヘッドを排除しながら、データコンテンツを保護する新しいアプローチを提供する。 さらに、SSMは本質的にメモリアクセスパターンを隠蔽し、メモリデータの機密性を大幅に向上させるように設計されている。 さらに、SSMには、データの改ざんを防ぐために、整合性を保証するための軽量で統合されたメカニズムが組み込まれている。 また、データコンテンツとメモリアクセスパターンの両方のセキュリティ保証をさらに強化し、その柔軟性と効率性を示すためにPath ORAMを適用する拡張であるSSM+も導入しています。 実験の結果、SSMは非保護メモリに比べて10%のオーバーヘッドしか発生せず、AES-CTRモードのメモリ保護よりも15%改善されていることがわかった。 特に、SSM+は、最高セキュリティ保証の下でIntel SGXと統合されたPath ORAMに対して20%の改善を提供する。

As the reliance on secure memory environments permeates across applications, memory encryption is used to ensure memory security. However, most effective encryption schemes, such as the widely used AES-CTR, inherently introduce extra overheads, including those associated with counter storage and version number integrity checks. Moreover, encryption only protects data content, and it does not fully address the memory access pattern leakage. While Oblivious RAM (ORAM) aims to obscure these patterns, its high performance costs hinder practical applications. We introduce Secure Scattered Memory (SSM), an efficient scheme provides a comprehensive security solution that preserves the confidentiality of data content without traditional encryption, protects access patterns, and enables efficient integrity verification. Moving away from traditional encryption-centric methods, SSM offers a fresh approach to protecting data content while eliminating counter-induced overheads. Moreover, SSM is designed to inherently obscure memory access patterns, thereby significantly enhancing the confidentiality of memory data. In addition, SSM incorporates lightweight, thus integrated mechanisms for integrity assurance, protecting against data tampering. We also introduce SSM+, an extension that adapts Path ORAM to offer even greater security guarantees for both data content and memory access patterns, demonstrating its flexibility and efficiency. Experimental results show that SSM incurs only a 10% performance overhead compared to non-protected memory and offers a 15% improvement over AES-CTR mode memory protection. Notably, SSM+ provides an 20% improvement against Path ORAM integrated with Intel SGX under the highest security guarantees.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-24
# 適応型シャープネス認識最小化のための変分推定による効率的な勾配サンプルサイズ

Effective Gradient Sample Size via Variation Estimation for Accelerating Sharpness aware Minimization ( http://arxiv.org/abs/2403.08821v1 )

ライセンス: Link先を確認
Jiaxin Deng, Junbiao Pang, Baochang Zhang, Tian Wang, (参考訳) シャープネス認識最小化(SAM)はモデル一般化能力を改善するために最近提案されている。 しかし、SAMは各最適化ステップで勾配を2倍に計算し、確率勾配降下(SGD)と比較して計算コストを2倍にする。 本稿では,SAMを著しく高速化する簡易かつ効率的なサンプリング手法を提案する。 具体的には、SAMの勾配はSGDの勾配と2階勾配行列のPSFへの射影の組合せであることが分かる。 PSFは、トレーニングプロセス中に徐々に変化の頻度が増加する。 そこで本研究では,PSFの変動に基づく適応サンプリング手法を提案し,サンプルPSFを非サンプリング繰り返しに再利用する。 その結果,提案手法は多様なネットワークアーキテクチャ上でSAMに匹敵する最先端の精度を達成できた。

Sharpness-aware Minimization (SAM) has been proposed recently to improve model generalization ability. However, SAM calculates the gradient twice in each optimization step, thereby doubling the computation costs compared to stochastic gradient descent (SGD). In this paper, we propose a simple yet efficient sampling method to significantly accelerate SAM. Concretely, we discover that the gradient of SAM is a combination of the gradient of SGD and the Projection of the Second-order gradient matrix onto the First-order gradient (PSF). PSF exhibits a gradually increasing frequency of change during the training process. To leverage this observation, we propose an adaptive sampling method based on the variation of PSF, and we reuse the sampled PSF for non-sampling iterations. Extensive empirical results illustrate that the proposed method achieved state-of-the-art accuracies comparable to SAM on diverse network architectures.
翻訳日:2024-03-18 05:40:54 公開日:2024-02-24
# SemEval-2024 Task 9 : Decoding Brainteasers, The Efficacy of Dedicated Models Versus ChatGPT

Abdelhak at SemEval-2024 Task 9 : Decoding Brainteasers, The Efficacy of Dedicated Models Versus ChatGPT ( http://arxiv.org/abs/2403.00809v1 )

ライセンス: Link先を確認
Abdelhak Kelious, Mounir Okirim(参考訳) 本研究は,文と単語のパズルによる側方思考能力の評価を目的とした新しい課題である,brainteaser task 9の解決を目的とした専用モデルを提案する。 本モデルでは, 文パズル解法において, 総合スコア0.98でランク1を確保でき, 顕著な有効性を示した。 さらに,温度設定の変化が側方思考や問題解決にどのような影響を与えるかを分析し,chatgptの比較性能について検討した。 以上の結果から,aiの創造的推論能力を高めるための専門的アプローチの可能性を強調しながら,専用モデルとchatgptの性能格差が顕著に示された。

This study introduces a dedicated model aimed at solving the BRAINTEASER task 9 , a novel challenge designed to assess models lateral thinking capabilities through sentence and word puzzles. Our model demonstrates remarkable efficacy, securing Rank 1 in sentence puzzle solving during the test phase with an overall score of 0.98. Additionally, we explore the comparative performance of ChatGPT, specifically analyzing how variations in temperature settings affect its ability to engage in lateral thinking and problem-solving. Our findings indicate a notable performance disparity between the dedicated model and ChatGPT, underscoring the potential of specialized approaches in enhancing creative reasoning in AI.
翻訳日:2024-03-11 00:00:41 公開日:2024-02-24
# IPED:拡散モデルに基づく関係トリプル抽出のための暗黙の視点

IPED: An Implicit Perspective for Relational Triple Extraction based on Diffusion Model ( http://arxiv.org/abs/2403.00808v1 )

ライセンス: Link先を確認
Jianli Zhao, Changhao Xu, Bin Jiang(参考訳) リレーショナルトリプル抽出は情報抽出の分野における基本的な課題であり、最近、テーブルフィリングに基づく有望なフレームワークがエンティティ関係抽出の潜在的ベースラインとして注目されている。 しかし、冗長情報や不完全三重認識といった固有の欠点は依然として問題である。 これらの課題に対処するため,我々は,リレーショナルトリプル抽出のための革新的なアプローチである拡散モデル(iped)に基づくリレーショナルトリプル抽出のための暗黙的視点を提案する。 クラシファイアフリーなソリューションでは、ブロックカバレッジを使ってテーブルを補完し、明示的なタグ付けメソッドの制限を回避する。 さらに, 暗黙的な視点と協調し, 冗長な情報破壊を効果的に回避するために, 生成モデル構造であるブロックデオライジング拡散モデルを導入する。 2つの一般的なデータセットに対する実験結果は、IPEDが予測速度と計算複雑性を向上しつつ、最先端のパフォーマンスを達成することを示した。 今後の研究をサポートするため、ソースコードをオンラインで公開しました。

Relational triple extraction is a fundamental task in the field of information extraction, and a promising framework based on table filling has recently gained attention as a potential baseline for entity relation extraction. However, inherent shortcomings such as redundant information and incomplete triple recognition remain problematic. To address these challenges, we propose an Implicit Perspective for relational triple Extraction based on Diffusion model (IPED), an innovative approach for extracting relational triples. Our classifier-free solution adopts an implicit strategy using block coverage to complete the tables, avoiding the limitations of explicit tagging methods. Additionally, we introduce a generative model structure, the block-denoising diffusion model, to collaborate with our implicit perspective and effectively circumvent redundant information disruptions. Experimental results on two popular datasets demonstrate that IPED achieves state-of-the-art performance while gaining superior inference speed and low computational complexity. To support future research, we have made our source code publicly available online.
翻訳日:2024-03-11 00:00:23 公開日:2024-02-24
# ElasticsearchとTransformerモデルによるクラウドベースの大規模言語モデル処理の強化

Enhancing Cloud-Based Large Language Model Processing with Elasticsearch and Transformer Models ( http://arxiv.org/abs/2403.00807v1 )

ライセンス: Link先を確認
Chunhe Ni, Jiang Wu, Hongbo Wang, Wenran Lu, Chenwei Zhang(参考訳) LLM(Large Language Models)は、Transformerネットワークを使用して構築された生成AIモデルのクラスであり、膨大なデータセットを活用して言語を特定し、要約し、翻訳し、予測し、生成することができる。 LLMは社会に革命をもたらすと約束するが、これらの基礎モデルの訓練は大きな課題をもたらす。 大規模言語モデルにおける意味ベクトル探索は,検索結果の精度と妥当性を大幅に向上させる強力な手法である。 従来のキーワードベースの検索方法とは異なり、セマンティック検索は単語の意味と文脈を利用してクエリの背後にある意図を把握し、より正確な結果を提供する。 Elasticsearchはセマンティック検索を実装するための最も一般的なツールの1つとして登場し、広範囲なデータセットをインデックス化し検索するために設計された、非常にスケーラブルで堅牢な検索エンジンである。 本稿では,セマンティックサーチの基本を考察し,大規模言語モデル処理パラダイムを強化するためにelasticsearchとtransformerモデルをどのように活用するかを検討する。 我々は,セマンティック検索の原則を包括的に理解し,実世界のモデルアプリケーションシナリオでセマンティック検索を実装するための実践的スキルを取得する。

Large Language Models (LLMs) are a class of generative AI models built using the Transformer network, capable of leveraging vast datasets to identify, summarize, translate, predict, and generate language. LLMs promise to revolutionize society, yet training these foundational models poses immense challenges. Semantic vector search within large language models is a potent technique that can significantly enhance search result accuracy and relevance. Unlike traditional keyword-based search methods, semantic search utilizes the meaning and context of words to grasp the intent behind queries and deliver more precise outcomes. Elasticsearch emerges as one of the most popular tools for implementing semantic search an exceptionally scalable and robust search engine designed for indexing and searching extensive datasets. In this article, we delve into the fundamentals of semantic search and explore how to harness Elasticsearch and Transformer models to bolster large language model processing paradigms. We gain a comprehensive understanding of semantic search principles and acquire practical skills for implementing semantic search in real-world model application scenarios.
翻訳日:2024-03-11 00:00:04 公開日:2024-02-24
# 機械学習言語モデルによるオペレーティングシステムにおけるユーザインタラクションの強化

Enhanced User Interaction in Operating Systems through Machine Learning Language Models ( http://arxiv.org/abs/2403.00806v1 )

ライセンス: Link先を確認
Chenwei Zhang, Wenran Lu, Chunhe Ni, Hongbo Wang, Jiang Wu(参考訳) ヒューマンライクな論理的推論と理解能力を示す大きな言語モデルにより、大きな言語モデルに基づくエージェントが実際のユーザのインタラクション動作をシミュレートできるかどうかを判断し、レコメンデーション研究の適用を支援するために信頼できる仮想レコメンデーションa/bテストシーンを構築することが緊急かつ重要かつ経済的価値の問題となる。 インタラクション設計と機械学習の組み合わせは、製品やサービスのより効率的でパーソナライズされたユーザエクスペリエンスを提供する。 このパーソナライズされたサービスは、ユーザの特定のニーズを満たし、ユーザの満足度と忠誠度を向上させる。 第2に、インタラクティブなシステムは、優れたユーザインターフェースとインタラクティブなエクスペリエンスを提供することで、製品のビューとニーズを理解し、その後、マシンラーニングアルゴリズムを使用して製品の改善と最適化を行う。 この反復的な最適化プロセスは、製品の質と性能を継続的に改善し、ユーザのニーズの変化に応えます。 同時にデザイナは,これらのアルゴリズムとツールをインタラクティブシステムと組み合わせて,優れたユーザエクスペリエンスを提供する方法を検討する必要があります。 本稿では,大規模言語モデル,機械学習,ユーザインタラクション設計のレコメンデーションシステムやオペレーティングシステムへの応用の可能性について検討する。 これらの技術を統合することで、よりインテリジェントでパーソナライズされたサービスがユーザのニーズを満たし、製品の継続的な改善と最適化を促進することができる。 これはレコメンデーションリサーチとユーザエクスペリエンスアプリケーションの両方にとって大きな価値があります。

With the large language model showing human-like logical reasoning and understanding ability, whether agents based on the large language model can simulate the interaction behavior of real users, so as to build a reliable virtual recommendation A/B test scene to help the application of recommendation research is an urgent, important and economic value problem. The combination of interaction design and machine learning can provide a more efficient and personalized user experience for products and services. This personalized service can meet the specific needs of users and improve user satisfaction and loyalty. Second, the interactive system can understand the user's views and needs for the product by providing a good user interface and interactive experience, and then use machine learning algorithms to improve and optimize the product. This iterative optimization process can continuously improve the quality and performance of the product to meet the changing needs of users. At the same time, designers need to consider how these algorithms and tools can be combined with interactive systems to provide a good user experience. This paper explores the potential applications of large language models, machine learning and interaction design for user interaction in recommendation systems and operating systems. By integrating these technologies, more intelligent and personalized services can be provided to meet user needs and promote continuous improvement and optimization of products. This is of great value for both recommendation research and user experience applications.
翻訳日:2024-03-10 23:59:45 公開日:2024-02-24
# 新しい動的分散計画手法:DPDP問題への応用

A New Dynamic Distributed Planning Approach: Application to DPDP Problems ( http://arxiv.org/abs/2403.00805v1 )

ライセンス: Link先を確認
Zakaria Tolba(参考訳) そこで本研究では,エージェントが計画すべき行動のセットで導入した変更を考慮し,環境の変化を考慮に入れた新しい動的分散計画手法を提案する。 このアプローチは、各エージェントが独自のプランを作成できる分散プランの分散計画のコンテキストに適合します。 提案手法では, 遺伝的アルゴリズムを用いた制約の満足度に基づいて, 計画の生成を行う。 当社のアプローチは、計画に対する一連のアクションが変更されるたびに、各エージェントによる新しいプランを生成することです。 これは、新しい計画で導入された新しい行動を考慮するためである。 この新しいプランでは、エージェントは、毎回、古いプランの古い実行されていないすべてのアクションを計画するための新しいアクションセットと、変更によって囲まれた新しいアクションと、新しい初期状態として、エージェントのアクションのセットが変更される状態とします。 私たちの研究では、具体的なケースを使って、アプローチの有用性を説明し、実演しました。

In this work, we proposed a new dynamic distributed planning approach that is able to take into account the changes that the agent introduces on his set of actions to be planned in order to take into account the changes that occur in his environment. Our approach fits into the context of distributed planning for distributed plans where each agent can produce its own plans. According to our approach the generation of the plans is based on the satisfaction of the constraints by the use of the genetic algorithms. Our approach is to generate, a new plan by each agent, whenever there is a change in its set of actions to plan. This in order to take into account the new actions introduced in its new plan. In this new plan, the agent takes, each time, as a new action set to plan all the old un-executed actions of the old plan and the new actions engendered by the changes and as a new initial state; the state in which the set of actions of the agent undergoes a change. In our work, we used a concrete case to illustrate and demonstrate the utility of our approach.
翻訳日:2024-03-10 23:59:20 公開日:2024-02-24
# トポロジカル自然言語解析による顧客課題の解明

Uncovering Customer Issues through Topological Natural Language Analysis ( http://arxiv.org/abs/2403.00804v1 )

ライセンス: Link先を確認
Shu-Ting Pi, Sidarth Srinivasan, Yuying Zhu, Michael Yang, Qun Liu(参考訳) Eコマース企業は毎日大量のカスタマーサービス要求を処理している。 ユーザコンタクトのトピックを要約するために、単純なアノテーションシステムを使うことが多いが、個々の問題を徹底的に探求することは困難である。 これは特に、企業が特定の問題を素早く特定し対処しなければならない新興のアウトブレイクにおいて、重要な懸念を示している。 この課題に取り組むために,自然言語技術とトポロジカルデータ解析を活用し,顧客問題の発生状況や傾向を監視する新しい機械学習アルゴリズムを提案する。 本手法では,各ユーザの文章の主質問文を同時にタグ付けし,文章埋め込みベクトルを生成するエンド・ツー・エンドのディープラーニングフレームワークを提案する。 次に埋め込みベクトルを白化して、非方向グラフを構築する。 そこから,各書き起こしの位相的性質に基づいて,トレンドや新たな問題を定義する。 様々な方法で結果を検証した結果、ニュースソースと高い一貫性があることが分かりました。

E-commerce companies deal with a high volume of customer service requests daily. While a simple annotation system is often used to summarize the topics of customer contacts, thoroughly exploring each specific issue can be challenging. This presents a critical concern, especially during an emerging outbreak where companies must quickly identify and address specific issues. To tackle this challenge, we propose a novel machine learning algorithm that leverages natural language techniques and topological data analysis to monitor emerging and trending customer issues. Our approach involves an end-to-end deep learning framework that simultaneously tags the primary question sentence of each customer's transcript and generates sentence embedding vectors. We then whiten the embedding vectors and use them to construct an undirected graph. From there, we define trending and emerging issues based on the topological properties of each transcript. We have validated our results through various methods and found that they are highly consistent with news sources.
翻訳日:2024-03-10 23:59:04 公開日:2024-02-24
# 欠損・雑音を伴う多モード睡眠時無呼吸

Multimodal Sleep Apnea Detection with Missing or Noisy Modalities ( http://arxiv.org/abs/2402.17788v1 )

ライセンス: Link先を確認
Hamed Fayyaz, Abigail Strang, Niharika S. D'Souza, Rahmatollah Beheshti(参考訳) ポリソムノグラフィー(英: Polysomnography、PSG)は、多モード生理信号を記録する睡眠研究の一種で、睡眠ステージングや呼吸イベント検出などの目的で広く用いられている。 従来の機械学習手法では、各睡眠研究は、観測されたモダリティの固定セットと関連付けられ、各サンプルに対してすべてのモダリティが利用できると仮定している。 しかし, 実世界の臨床場面では, ノイズや欠如が一般的な問題である。 本研究では,睡眠時無呼吸検出を行う際の欠如や騒音の補正を目的とした包括的パイプラインを提案する。 他の既存の研究とは異なり、提案モデルは利用可能なモダリティの任意の組み合わせで機能する。 提案手法は,高レベルな騒音や欠如がある場合でも高い性能(auroc>0.9)を維持しつつ,利用可能なデータの様々なサブセットと異なるレベルのノイズを用いた睡眠時無呼吸検出における他の最先端手法よりも優れることを示す。 これは特に、ノイズと欠損のレベルが高い設定(例えば小児科または臨床外のシナリオ)に関係している。

Polysomnography (PSG) is a type of sleep study that records multimodal physiological signals and is widely used for purposes such as sleep staging and respiratory event detection. Conventional machine learning methods assume that each sleep study is associated with a fixed set of observed modalities and that all modalities are available for each sample. However, noisy and missing modalities are a common issue in real-world clinical settings. In this study, we propose a comprehensive pipeline aiming to compensate for the missing or noisy modalities when performing sleep apnea detection. Unlike other existing studies, our proposed model works with any combination of available modalities. Our experiments show that the proposed model outperforms other state-of-the-art approaches in sleep apnea detection using various subsets of available data and different levels of noise, and maintains its high performance (AUROC>0.9) even in the presence of high levels of noise or missingness. This is especially relevant in settings where the level of noise and missingness is high (such as pediatric or outside-of-clinic scenarios).
翻訳日:2024-02-29 17:35:45 公開日:2024-02-24
# 大規模言語モデルを用いた段階的自己整合数学的推論

Stepwise Self-Consistent Mathematical Reasoning with Large Language Models ( http://arxiv.org/abs/2402.17786v1 )

ライセンス: Link先を確認
Zilong Zhao, Yao Rong, Dongyang Guo, Emek G\"ozl\"ukl\"u, Emir G\"ulboy, Enkelejda Kasneci(参考訳) 複雑な数学的推論に大規模言語モデルを使うことは、主に多段階推論の複雑さのために難しい。 このプロセスの主な課題は、(1)手続きを進めるための重要な中間結果の選択、(2)潜在的な解の探索の制限などである。 これらの問題に対処するため,SSC-CoT(Stepwise Self-Consistent Chain-of-Thought)という新しいアルゴリズムを導入する。 SSC-CoTは、様々な推論チェーンの交叉に基づいて中間ステップを選択する戦略を採用している。 さらに、SSC-CoTは、関連するドメイン知識からなる知識グラフをクエリすることで、重要な中間ステップを発見することができる。 SSC-CoTを検証するために,複雑な三角法問題に適した新しいデータセットTriMaster100を提案する。 このデータセットには100の質問が含まれており、各解は中間段階に分解され、数学的推論プロセスの包括的な評価を容易にする。 TriMaster100では、SSC-CoTは最先端メソッドの有効性を3倍にする。 さらに, ssc-cot を算数レベル5という, 広く認識された複素数問題データセット上でベンチマークし, 精度が7.2%向上した。 コードとTriMaster100データセットは以下の通りである。

Using Large Language Models for complex mathematical reasoning is difficult, primarily due to the complexity of multi-step reasoning. The main challenges of this process include (1) selecting critical intermediate results to advance the procedure, and (2) limited exploration of potential solutions. To address these issues, we introduce a novel algorithm, namely Stepwise Self-Consistent Chain-of-Thought (SSC-CoT). SSC-CoT employs a strategy of selecting intermediate steps based on the intersection of various reasoning chains. Additionally, SSC-CoT enables the model to discover critical intermediate steps by querying a knowledge graph comprising relevant domain knowledge. To validate SSC-CoT, we present a new dataset, TriMaster100, tailored for complex trigonometry problems. This dataset contains 100 questions, with each solution broken down into scored intermediate steps, facilitating a comprehensive evaluation of the mathematical reasoning process. On TriMaster100, SSC-CoT triples the effectiveness of the state-of-the-art methods. Furthermore, we benchmark SSC-CoT on the widely recognized complex mathematical question dataset, MATH level 5, and it surpasses the second-best method by 7.2% in accuracy. Code and the TriMaster100 dataset can be found at: https://github.com/zhao-zilong/ssc-cot.
翻訳日:2024-02-29 17:35:24 公開日:2024-02-24
# ByteComposer:言語モデルエージェントに基づく人間ライクなメロディ構成法

ByteComposer: a Human-like Melody Composition Method based on Language Model Agent ( http://arxiv.org/abs/2402.17785v1 )

ライセンス: Link先を確認
Xia Liang, Jiaju Lin, Xinjian Du(参考訳) 大規模言語モデル(LLM)はマルチモーダル理解と生成タスクの進歩を奨励している。 しかし,人間と解釈可能なメロディ合成システムの設計方法はまだ未検討である。 そこで我々は,人間の創造的パイプラインを4段階に分けてエミュレートするエージェントフレームワークByteComposerを提案する。 このフレームワークは、LLMの対話的および知識に基づく特徴と既存のシンボリック音楽生成モデルとをシームレスにブレンドし、人間のクリエイターに匹敵するメロディ合成エージェントを実現する。 我々は、GPT4およびオープンソースの大規模言語モデルに関する広範な実験を行い、フレームワークの有効性を実証した。 さらに、プロの作曲家が多次元評価に携わった結果、楽曲のさまざまな面にまたがって、バイト合成エージェントが初心者のメロディ作曲家のレベルに達することが判明した。

Large Language Models (LLM) have shown encouraging progress in multimodal understanding and generation tasks. However, how to design a human-aligned and interpretable melody composition system is still under-explored. To solve this problem, we propose ByteComposer, an agent framework emulating a human's creative pipeline in four separate steps : "Conception Analysis - Draft Composition - Self-Evaluation and Modification - Aesthetic Selection". This framework seamlessly blends the interactive and knowledge-understanding features of LLMs with existing symbolic music generation models, thereby achieving a melody composition agent comparable to human creators. We conduct extensive experiments on GPT4 and several open-source large language models, which substantiate our framework's effectiveness. Furthermore, professional music composers were engaged in multi-dimensional evaluations, the final results demonstrated that across various facets of music composition, ByteComposer agent attains the level of a novice melody composer.
翻訳日:2024-02-29 17:35:04 公開日:2024-02-24
# BagStacking:パーキンソン病における歩行検出の凍結のための統合型アンサンブル学習アプローチ

BagStacking: An Integrated Ensemble Learning Approach for Freezing of Gait Detection in Parkinson's Disease ( http://arxiv.org/abs/2402.17783v1 )

ライセンス: Link先を確認
Seffi Cohen, Lior Rokach(参考訳) 本稿では,Parkinson's Disease (PD) における歩行凍結(FOG)の検出を,低バックセンサを用いて追跡する新しいアンサンブル学習手法であるBagStackingを紹介する。 bagstackingは,バッキングとスタックの原則に基づいて,バッキングのブートストラップサンプリングによる分散低減効果の実現と,スタックによる高度なブレンドの学習を目指している。 この方法は、トレーニングデータからブートストラップサンプルにベースモデルのセットをトレーニングし、その後、ベースモデル出力でトレーニングされたメタリーナーと、最適なアグリゲーションスキームを見つけるための真のラベルを含む。 実験による評価は、検証セット上の他の最先端の機械学習手法よりも大幅に改善されている。 具体的には、bagstacking は 0.306 のマップスコアを達成し、lightgbm (0.234) とclassic stacking (0.286) を上回った。 さらに、バッグスタッキングの実行時間は3828秒で測定され、通常のスタッキングの8350秒と比較して効率的なアプローチを示した。 BagStackingはFOG検出データに固有の変数を扱うための有望な方向を示し、PDにおける患者のケアを改善する堅牢でスケーラブルなソリューションを提供する。

This paper introduces BagStacking, a novel ensemble learning method designed to enhance the detection of Freezing of Gait (FOG) in Parkinson's Disease (PD) by using a lower-back sensor to track acceleration. Building on the principles of bagging and stacking, BagStacking aims to achieve the variance reduction benefit of bagging's bootstrap sampling while also learning sophisticated blending through stacking. The method involves training a set of base models on bootstrap samples from the training data, followed by a meta-learner trained on the base model outputs and true labels to find an optimal aggregation scheme. The experimental evaluation demonstrates significant improvements over other state-of-the-art machine learning methods on the validation set. Specifically, BagStacking achieved a MAP score of 0.306, outperforming LightGBM (0.234) and classic Stacking (0.286). Additionally, the run-time of BagStacking was measured at 3828 seconds, illustrating an efficient approach compared to Regular Stacking's 8350 seconds. BagStacking presents a promising direction for handling the inherent variability in FOG detection data, offering a robust and scalable solution to improve patient care in PD.
翻訳日:2024-02-29 17:34:48 公開日:2024-02-24
# MIM-Reasoner:多重影響最大化のための理論的保証を用いた学習

MIM-Reasoner: Learning with Theoretical Guarantees for Multiplex Influence Maximization ( http://arxiv.org/abs/2402.16898v1 )

ライセンス: Link先を確認
Nguyen Do, Tanmoy Chowdhury, Chen Ling, Liang Zhao, My T. Thai(参考訳) multix influence maximization (mim) では,マルチプレックスネットワークで影響を受けるユーザ数を最大化するような,シードユーザの集合を特定するように求めています。 MIMは、特に、ユーザが複数のオンラインソーシャルネットワーク(OSN)に参加し、その影響が複数のOSN間で同時に伝播する、現代のソーシャルネットワーキングの分野において、中心的な研究の1つとなっている。 MIMへの組合せアルゴリズムはいくつか存在するが、異種ネットワークへの一般化能力と多様な伝搬特性から学習ベースのソリューションが望まれている。 本稿では,MIM-Reasoner,結合強化学習と確率的グラフィカルモデルを導入することで,多重化ネットワークの層内および層間における複雑な伝播過程を効果的に把握し,MIMにおける最も困難な問題に取り組む。 我々はMIM-Reasonerの理論的保証を確立し、MIM-Reasonerの性能を検証するために、合成データセットと実世界のデータセットの両方について広範な分析を行う。

Multiplex influence maximization (MIM) asks us to identify a set of seed users such as to maximize the expected number of influenced users in a multiplex network. MIM has been one of central research topics, especially in nowadays social networking landscape where users participate in multiple online social networks (OSNs) and their influences can propagate among several OSNs simultaneously. Although there exist a couple combinatorial algorithms to MIM, learning-based solutions have been desired due to its generalization ability to heterogeneous networks and their diversified propagation characteristics. In this paper, we introduce MIM-Reasoner, coupling reinforcement learning with probabilistic graphical model, which effectively captures the complex propagation process within and between layers of a given multiplex network, thereby tackling the most challenging problem in MIM. We establish a theoretical guarantee for MIM-Reasoner as well as conduct extensive analyses on both synthetic and real-world datasets to validate our MIM-Reasoner's performance.
翻訳日:2024-02-28 19:24:50 公開日:2024-02-24
# 信頼性のある衝突型多視点学習

Reliable Conflictive Multi-View Learning ( http://arxiv.org/abs/2402.16897v1 )

ライセンス: Link先を確認
Cai Xu, Jiajun Si, Ziyu Guan, Wei Zhao, Yue Wu, Xiyue Gao(参考訳) マルチビュー学習は、より包括的なデータ記述を実現するために複数の機能を組み合わせることを目的としている。 以前の作品の多くは、複数の視点が厳密に一致していると仮定している。 しかし、現実のマルチビューデータには低品質の矛盾するインスタンスが含まれており、異なる視点で矛盾する情報を示す。 この問題に対するこれまでの方法は、主に矛盾するデータインスタンスを削除したり、矛盾するビューを置き換えることによって排除することに焦点を当てていた。 それにもかかわらず、現実世界のアプリケーションは、通常はそれらを取り除くだけでなく、矛盾するインスタンスの意思決定を必要とする。 この問題を解決するために、我々は、競合する多視点データに対して決定結果と付随する信頼度をモデルに要求する、信頼性の高い競合多視点学習(RCML)問題を指摘した。 本稿では,この問題に対するエビデンシャル・コンフリクト・マルチビュー・ラーニング(ECML)手法を提案する。 ECMLはまずビュー固有のエビデンスを学び、これはデータから収集された各カテゴリに対するサポートの量と表現できる。 そして、意思決定結果と信頼性からなるビュー固有の意見を構築することができる。 多視点融合の段階では、矛盾する意見集約戦略を提案し、この戦略が多視点共通性および視点固有性の関係を正確にモデル化できることを理論的に証明する。 6つのデータセットで実施された実験は、ECMLの有効性を検証する。

Multi-view learning aims to combine multiple features to achieve more comprehensive descriptions of data. Most previous works assume that multiple views are strictly aligned. However, real-world multi-view data may contain low-quality conflictive instances, which show conflictive information in different views. Previous methods for this problem mainly focus on eliminating the conflictive data instances by removing them or replacing conflictive views. Nevertheless, real-world applications usually require making decisions for conflictive instances rather than only eliminating them. To solve this, we point out a new Reliable Conflictive Multi-view Learning (RCML) problem, which requires the model to provide decision results and attached reliabilities for conflictive multi-view data. We develop an Evidential Conflictive Multi-view Learning (ECML) method for this problem. ECML first learns view-specific evidence, which could be termed as the amount of support to each category collected from data. Then, we can construct view-specific opinions consisting of decision results and reliability. In the multi-view fusion stage, we propose a conflictive opinion aggregation strategy and theoretically prove this strategy can exactly model the relation of multi-view common and view-specific reliabilities. Experiments performed on 6 datasets verify the effectiveness of ECML.
翻訳日:2024-02-28 19:24:32 公開日:2024-02-24
# 反応合成による生成剤挙動の時間的制約

Enforcing Temporal Constraints on Generative Agent Behavior with Reactive Synthesis ( http://arxiv.org/abs/2402.16905v1 )

ライセンス: Link先を確認
Raven Rothkopf, Hannah Tongxin Zeng, Mark Santolucito(参考訳) 大規模言語モデル(llms)の人気が高まり、対話型エージェント作成への新たなアプローチの扉が開かれた。 しかしながら、そのようなエージェントの相互作用の過程での時間的挙動を管理することは依然として困難である。 コヒーレントエージェントの振る舞いに必要なステートフルで長期的な展望と定量的推論は、llmパラダイムには適さない。 本稿では,形式論理に基づくプログラム合成とLLMコンテンツ生成を組み合わせて,時間的制約に従う生成エージェントを作成する。 提案手法ではテンポラルストリーム論理(TSL)を用いてエージェントに時間的構造を強制するオートマトンを生成し,各アクションの詳細を一定時間LLMに残す。 TSLを使用することで、ユーザがより高い振る舞いの保証、システムのより良い解釈可能性、モジュール的な方法でエージェントを構築する能力を持つ生成エージェントを増大させることができる。 我々は、様々なアプリケーションドメインに特化した協調型対話エージェントを作成する際の様々なタスクに対するアプローチを評価する。 すべてのタスクにおいて、TLLを用いたアプローチは少なくとも96%の順守を達成するのに対し、純粋なLCMベースのアプローチは14.67%の順守を示した。

The surge in popularity of Large Language Models (LLMs) has opened doors for new approaches to the creation of interactive agents. However, managing the temporal behavior of such agents over the course of an interaction remains challenging. The stateful, long-term horizon and quantitative reasoning required for coherent agent behavior does not fit well into the LLM paradigm. We propose a combination of formal logic-based program synthesis and LLM content generation to create generative agents that adhere to temporal constraints. Our approach uses Temporal Stream Logic (TSL) to generate an automaton that enforces a temporal structure on an agent and leaves the details of each action for a moment in time to an LLM. By using TSL, we are able to augment the generative agent where users have a higher level of guarantees on behavior, better interpretability of the system, and more ability to build agents in a modular way. We evaluate our approach on different tasks involved in creating a coherent interactive agent specialized for various application domains. We found that over all of the tasks, our approach using TSL achieves at least 96% adherence, whereas the pure LLM-based approach demonstrates as low as 14.67% adherence.
翻訳日:2024-02-28 19:10:49 公開日:2024-02-24
# 最大推論精度と省エネルギーリアルタイムIoTセンシングシステムのための選択タスクオフロード

Selective Task offloading for Maximum Inference Accuracy and Energy efficient Real-Time IoT Sensing Systems ( http://arxiv.org/abs/2402.16904v1 )

ライセンス: Link先を確認
Abdelkarim Ben Sada, Amar Khelloufi, Abdenacer Naouri, Huansheng Ning and Sahraoui Dhelim(参考訳) 小規模推論モデルの最近の進歩は、エッジへのAIデプロイメントを促進した。 しかし、エッジデバイスの限られたリソース特性は、特にリアルタイムアプリケーションに新しい課題をもたらす。 複数の推論モデル(または単一のチューナブルモデル)をサイズに応じて展開することにより、エッジサーバ推論モデルに加えて、現在のリソース条件に応じて推論モデルが推論ジョブに割り当てられる動的なシステムを提供できる。 そこで本研究では,時間とエネルギー制約下での推論精度を最大化するために,推論モデルをジョブに選択的に割り当てたり,エッジサーバにオフロードする問題に取り組む。 この問題は、np-ハード問題と見なされる非有界多次元ナップサック問題の例であることが示されている。 この問題を解決するために,軽量ハイブリッド遺伝的アルゴリズム(LGSTO)を提案する。 人口の急速な発展をめざすため,終末条件と近隣探査手法を導入する。 我々はLGSTOとNaiveおよびDynamicプログラミングソリューションを比較した。 NSGA-IIを含む異なる再現法を用いた古典的遺伝的アルゴリズムに加えて、最終的にParticle Swarm Optimization(PSO)やAnt Colon Optimization(ACO)といった他の進化的手法と比較した。 実験の結果,lgstoは平均精度の高いスケジュールを作成できる一方で,最も高速な方式よりも3倍高速であった。

The recent advancements in small-size inference models facilitated AI deployment on the edge. However, the limited resource nature of edge devices poses new challenges especially for real-time applications. Deploying multiple inference models (or a single tunable model) varying in size and therefore accuracy and power consumption, in addition to an edge server inference model, can offer a dynamic system in which the allocation of inference models to inference jobs is performed according to the current resource conditions. Therefore, in this work, we tackle the problem of selectively allocating inference models to jobs or offloading them to the edge server to maximize inference accuracy under time and energy constraints. This problem is shown to be an instance of the unbounded multidimensional knapsack problem which is considered a strongly NP-hard problem. We propose a lightweight hybrid genetic algorithm (LGSTO) to solve this problem. We introduce a termination condition and neighborhood exploration techniques for faster evolution of populations. We compare LGSTO with the Naive and Dynamic programming solutions. In addition to classic genetic algorithms using different reproduction methods including NSGA-II, and finally we compare to other evolutionary methods such as Particle swarm optimization (PSO) and Ant colony optimization (ACO). Experiment results show that LGSTO performed 3 times faster than the fastest comparable schemes while producing schedules with higher average accuracy.
翻訳日:2024-02-28 19:10:30 公開日:2024-02-24
# ディープオペレータネットワークを用いたサロゲートモデリングのための新しいデータ生成手法

A novel data generation scheme for surrogate modelling with deep operator networks ( http://arxiv.org/abs/2402.16903v1 )

ライセンス: Link先を確認
Shivam Choubey, Birupaksha Pal, Manish Agrawal(参考訳) deeponetsのようなオペレータベースのニューラルネットワークアーキテクチャは、物理システムのサロゲートモデリングに有望なツールとして登場した。 一般に、演算子代理モデリングにおいて、有限要素法(FEM)などの手法を用いてPDEを解くことにより、トレーニングデータを生成する。 データ生成の計算集約性は、これらのサロゲートモデルを実用用途にデプロイする際の最大のボトルネックの1つである。 本研究では,DeepONetsのトレーニングデータ生成に伴う計算負担を軽減する手法を提案する。 既存の文献とは異なり、データ生成のためのフレームワークでは偏微分方程式の統合戦略は使用せず、DeepONetのトレーニングデータセットの生成に伴う計算コストを大幅に削減する。 提案手法では,まず出力場をランダムに生成し,ガウス過程回帰 (gpr) を用いた境界条件を満たす。 出力フィールドから、有限差分技術を用いて入力源フィールドを容易に計算することができる。 提案手法は他の演算子学習法にも拡張でき,そのアプローチを広く適用できる。 提案手法を検証するために,モデル問題として熱方程式を用い,多くの境界値問題に対する代理モデルを開発した。

Operator-based neural network architectures such as DeepONets have emerged as a promising tool for the surrogate modeling of physical systems. In general, towards operator surrogate modeling, the training data is generated by solving the PDEs using techniques such as Finite Element Method (FEM). The computationally intensive nature of data generation is one of the biggest bottleneck in deploying these surrogate models for practical applications. In this study, we propose a novel methodology to alleviate the computational burden associated with training data generation for DeepONets. Unlike existing literature, the proposed framework for data generation does not use any partial differential equation integration strategy, thereby significantly reducing the computational cost associated with generating training dataset for DeepONet. In the proposed strategy, first, the output field is generated randomly, satisfying the boundary conditions using Gaussian Process Regression (GPR). From the output field, the input source field can be calculated easily using finite difference techniques. The proposed methodology can be extended to other operator learning methods, making the approach widely applicable. To validate the proposed approach, we employ the heat equations as the model problem and develop the surrogate model for numerous boundary value problems.
翻訳日:2024-02-28 19:10:08 公開日:2024-02-24
# PRoLoRA: 部分回転によりパラメータ効率が良くなるLoRA

PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA ( http://arxiv.org/abs/2402.16902v1 )

ライセンス: Link先を確認
Sheng Wang, Boyang Xue, Jiacheng Ye, Jiyue Jiang, Liheng Chen, Lingpeng Kong, Chuan Wu(参考訳) 大規模言語モデル(LLM)の急激なスケーリングにより、多数のLoRAが同時に機能するようになり、不用意なコストとよりパラメータ効率の良い微調整方法が必要になった。 本研究では,放送低減,回転強化,部分共有化,整流初期化戦略という4つの必須成分からなる層内共有機構である部分的ローランク適応(prolora)を導入する。 loraのスーパーセットとして、proloraはその利点を含み、より優れたモデルキャパシティ、実用性、幅広い適用性を持つピアパラメータ共有法の欠点を効果的に回避している。 実験により、特定のパラメータ予算と性能目標シナリオの両方において、PRoLoRAのパラメータ効率が著しく高く、より大きなLLMへのスケーラビリティを示す。 特に、トレーニング可能なパラメータが1回も少ないPRoLoRAは、複数の命令チューニングデータセットでLoRAを上回っている。 その後、個々の成分の必要性を検証し、3つの潜在的な変異体に対するプロロラの優位性を強調するアブレーション研究を行う。 好ましくは、パラメータ効率が著しく高ければ、PRoLoRAをLoRAに代わるリソースフレンドリーな代替品として確立できる。

With the rapid scaling of large language models (LLMs), serving numerous LoRAs concurrently has become increasingly impractical, leading to unaffordable costs and necessitating more parameter-efficient finetuning methods. In this work, we introduce Partially Rotation-enhanced Low-Rank Adaptation (PRoLoRA), an intra-layer sharing mechanism comprising four essential components: broadcast reduction, rotation enhancement, partially-sharing refinement, and rectified initialization strategy. As a superset of LoRA, PRoLoRA pertains its advantages, and effectively circumvent the drawbacks of peer parameter-sharing methods with superior model capacity, practical feasibility, and broad applicability. Empirical experiments demonstrate the remarkably higher parameter efficiency of PRoLoRA in both specific parameter budget and performance target scenarios, and its scalability to larger LLMs. Notably, with one time less trainable parameters, PRoLoRA still outperforms LoRA on multiple instruction tuning datasets. Subsequently, an ablation study is conducted to validate the necessity of individual components and highlight the superiority of PRoLoRA over three potential variants. Hopefully, the conspicuously higher parameter efficiency can establish PRoLoRA as a resource-friendly alternative to LoRA.
翻訳日:2024-02-28 19:09:50 公開日:2024-02-24
# FGBERT:メタゲノミクスのための関数駆動型事前訓練された遺伝子言語モデル

FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics ( http://arxiv.org/abs/2402.16901v1 )

ライセンス: Link先を確認
ChenRui Duan, Zelin Zang, Yongjie Xu, Hang He, Zihan Liu, Zijia Song, Ju-Sheng Zheng, Stan Z. Li(参考訳) 多種混合ゲノムを含むメタゲノミクスデータは、海や土壌などの多様な環境に広く分布し、人間の健康や生態機能に大きな影響を与えている。 しかしながら、現在の研究はK-mer表現に依存しており、構造的に関連する遺伝子コンテキストの捕捉を制限する。 これらの制限に対処し、メタゲノミクス配列とその機能間の複雑な関係をさらに理解するために、タンパク質ベースの遺伝子表現を文脈認識および構造関連トークン化剤として導入する。 提案手法は,遺伝子グループレベルの事前学習のためのMasked Gene Modeling (MGM) と,遺伝子配列-機能関係をモデル化するためのTriple Enhanced Metagenomic Contrastive Learning (TEM-CL) を含む。 MGMとTEM-CLは1億のメダゲノミクス配列で事前訓練された新しいメダゲノミクス言語モデル {\NAME} を構成する。 8つのデータセットで提案する {\name} の優位性を示す。

Metagenomic data, comprising mixed multi-species genomes, are prevalent in diverse environments like oceans and soils, significantly impacting human health and ecological functions. However, current research relies on K-mer representations, limiting the capture of structurally relevant gene contexts. To address these limitations and further our understanding of complex relationships between metagenomic sequences and their functions, we introduce a protein-based gene representation as a context-aware and structure-relevant tokenizer. Our approach includes Masked Gene Modeling (MGM) for gene group-level pre-training, providing insights into inter-gene contextual information, and Triple Enhanced Metagenomic Contrastive Learning (TEM-CL) for gene-level pre-training to model gene sequence-function relationships. MGM and TEM-CL constitute our novel metagenomic language model {\NAME}, pre-trained on 100 million metagenomic sequences. We demonstrate the superiority of our proposed {\NAME} on eight datasets.
翻訳日:2024-02-28 19:09:28 公開日:2024-02-24
# 連続時間強化学習における深層残留ネットワークの事前推定

A prior Estimates for Deep Residual Network in Continuous-time Reinforcement Learning ( http://arxiv.org/abs/2402.16899v1 )

ライセンス: Link先を確認
Shuyu Yin, Qixuan Zhou, Fei Wen, Tao Luo(参考訳) 深層強化学習は多くの大規模応用において優れている。 しかし、既存の性能解析は、連続時間制御問題の特徴を無視し、ベルマン最適損失の一般化誤差を直接見積もることができず、有界性仮定を必要とする。 本研究は,連続時間制御問題に着目し,遷移関数が半群およびリプシッツ特性を満たすようなすべての問題に適用可能な手法を提案する。 この方法では、ベルマン最適損失のemph{a priori}汎化誤差を直接解析することができる。 この方法の核心は損失関数の2つの変換にある。 変換を完了させるために,最大演算子の分解法を提案する。 さらに、この解析方法は境界性仮定を必要としない。 最後に、次元の呪いを伴わない 'emph{a priori} 一般化誤差を得る。

Deep reinforcement learning excels in numerous large-scale practical applications. However, existing performance analyses ignores the unique characteristics of continuous-time control problems, is unable to directly estimate the generalization error of the Bellman optimal loss and require a boundedness assumption. Our work focuses on continuous-time control problems and proposes a method that is applicable to all such problems where the transition function satisfies semi-group and Lipschitz properties. Under this method, we can directly analyze the \emph{a priori} generalization error of the Bellman optimal loss. The core of this method lies in two transformations of the loss function. To complete the transformation, we propose a decomposition method for the maximum operator. Additionally, this analysis method does not require a boundedness assumption. Finally, we obtain an \emph{a priori} generalization error without the curse of dimensionality.
翻訳日:2024-02-28 19:09:07 公開日:2024-02-24
# 量子クエリ複雑性のための変分学習アルゴリズム

Variational learning algorithms for quantum query complexity ( http://arxiv.org/abs/2205.07449v3 )

ライセンス: Link先を確認
Zipeng Wu, Shi-Yao Hou, Chao Zhang, Lvzhou Li and Bei Zeng(参考訳) 量子クエリの複雑さは、探索や周期探索などの既知の量子アルゴリズムをキャプチャする量子アルゴリズムの研究において重要な役割を果たす。 クエリアルゴリズムは、ある入力状態に$U_tO_x\cdots U_1O_xU_0$を適用し、$O_x$は入力変数の$x$に依存したオラクルであり、$U_i$sは$x$に依存しないユニタリ演算であり、次に読み出しのためのいくつかの測定を行う。 本研究では、パラメータ化量子回路として$U_i$sを定式化し、クエリアルゴリズムの誤差確率から直接与えられる損失関数を導入することにより、量子クエリの複雑さを研究する変分学習アルゴリズムを開発する。 提案手法を応用して,ハミングモジュロ問題を5ドル(約5,500円)で解くアルゴリズムや,arXiv:2112.14682で提起されたオープンな質問に答えるアルゴリズムなど,量子クエリ複雑性のケースを解析し,さらにセミデフィニティプログラミング(SDP)アルゴリズムで検証する。 SDPアルゴリズムと比較すると,本手法は近距離雑音中規模量子(NISQ)デバイスで容易に実装でき,分数クエリモデルなどの他のケースにも適応できる。

Quantum query complexity plays an important role in studying quantum algorithms, which captures the most known quantum algorithms, such as search and period finding. A query algorithm applies $U_tO_x\cdots U_1O_xU_0$ to some input state, where $O_x$ is the oracle dependent on some input variable $x$, and $U_i$s are unitary operations that are independent of $x$, followed by some measurements for readout. In this work, we develop variational learning algorithms to study quantum query complexity, by formulating $U_i$s as parameterized quantum circuits and introducing a loss function that is directly given by the error probability of the query algorithm. We apply our method to analyze various cases of quantum query complexity, including a new algorithm solving the Hamming modulo problem with $4$ queries for the case of $5$-bit modulo $5$, answering an open question raised in arXiv:2112.14682, and the result is further confirmed by a Semidefinite Programming (SDP) algorithm. Compared with the SDP algorithm, our method can be readily implemented on the near-term Noisy Intermediate-Scale Quantum (NISQ) devices and is more flexible to be adapted to other cases such as the fractional query models.
翻訳日:2024-02-28 01:05:59 公開日:2024-02-24
# broad recommender system: 効率的な非線形協調フィルタリング手法

Broad Recommender System: An Efficient Nonlinear Collaborative Filtering Approach ( http://arxiv.org/abs/2204.11602v5 )

ライセンス: Link先を確認
Ling Huang, Can-Rong Guan, Zhen-Wei Huang, Yuefang Gao, Yingjie Kuang, Chang-Dong Wang, C. L. Philip Chen(参考訳) 近年、ディープニューラルネットワーク(dnns)は、アイテムとユーザ間の複雑な非線形関係を捉える能力により、より正確な推奨結果を生成するために、協調フィルタリング(cf)に広く導入されているが、dnnsベースのモデルは、通常、非常に長いトレーニング時間を消費し、大量のトレーニング可能なパラメータを格納する高い計算複雑性に苦しめられている。 そこで本稿では,効率的な非線形協調フィルタリング手法であるbroadcf(broad collaborative filtering)という,新しい広義の推薦システムを提案する。 DNNの代わりに、Broad Learning System (BLS) は、ユーザとアイテム間の複雑な非線形関係を学習するためのマッピング機能として使われ、上述の問題を回避しつつ、非常に良好なレコメンデーション性能を実現している。 しかし、元のレーティングデータをBLSに直接フィードすることは不可能である。 そこで,本稿では,類似するユーザ/コンテンツの品質判断を活用できる低次元ユーザ項目入力データを生成するために,協調ベクトル前処理手法を提案する。 提案するbroadcfアルゴリズムの有効性を7つのベンチマークデータセットで検証した。

Recently, Deep Neural Networks (DNNs) have been widely introduced into Collaborative Filtering (CF) to produce more accurate recommendation results due to their capability of capturing the complex nonlinear relationships between items and users.However, the DNNs-based models usually suffer from high computational complexity, i.e., consuming very long training time and storing huge amount of trainable parameters. To address these problems, we propose a new broad recommender system called Broad Collaborative Filtering (BroadCF), which is an efficient nonlinear collaborative filtering approach. Instead of DNNs, Broad Learning System (BLS) is used as a mapping function to learn the complex nonlinear relationships between users and items, which can avoid the above issues while achieving very satisfactory recommendation performance. However, it is not feasible to directly feed the original rating data into BLS. To this end, we propose a user-item rating collaborative vector preprocessing procedure to generate low-dimensional user-item input data, which is able to harness quality judgments of the most similar users/items. Extensive experiments conducted on seven benchmark datasets have confirmed the effectiveness of the proposed BroadCF algorithm
翻訳日:2024-02-28 01:05:31 公開日:2024-02-24
# 4重非エルミート相転移と非相互結合共振器光導波路

Four-fold non-Hermitian phase transitions and non-reciprocal coupled resonator optical waveguides ( http://arxiv.org/abs/2202.12110v4 )

ライセンス: Link先を確認
Xintong Zhang, Jing Li(参考訳) 非エルミート系は境界条件に対して異常な感度を示す。 トポロジカル境界モードと非エルミート皮膚効果が共存または個別に非エルミート系に現れることを考えると、現実的な非エルミート系におけるさらなる柔軟な制御のために、包括的非エルミート位相図を提示することは大きな価値である。 ここでは,位相境界モードのみを示すフェーズi,位相境界モードとスキンモードの両方を示すフェーズii,スキンモードのみを示すフェーズiii,境界モードを示すフェーズiv,といった4次元非エルミート相遷移を数学的レベルで明らかにする。 非エルミート巻線数を導出することにより、位相境界モードの存在または存在条件を解析的に表現し、反復グリーン関数法による数値結果と一致する。 非エルミート皮膚効果の研究と組み合わせて、4次元位相図を厳密に構築する。 また、結合共振器光導波路のアレイを設計する。 フォトニック構造における非ハーミティティーの導入は、トポロジカル絶縁体におけるバンド反転に似た現象を引き起こし、フォトニックバンドにおけるトポロジカル境界モードの存在を示す。

Non-Hermitian systems can exhibit extraordinary sensitivity to boundary conditions. Given that topological boundary modes and non-Hermitian skin effects can either coexist or individually appear in non-Hermitian systems, it is of great value to present a comprehensive non-Hermitian phase diagram, for further flexible control in realistic non-Hermitian systems. Here, we reveal four-fold non-Hermitian phase transitions at a mathematically level, where phase I exhibits only topological boundary modes, phase II displays both topological boundary modes and skin modes, phase III exhibits only skin modes, and phase IV cannot manifest any boundary modes. By deriving non-Hermitian winding numbers, the existence or non-existence condition of topological boundary modes are analytically expressed, consistent with the numerical results obtained through the iterative Green's function method. Combining with the study on non-Hermitian skin effects, we rigorously establish the four-fold phase diagram. We also design an array of coupled resonator optical waveguides. The introduction of non-Hermiticity in the photonic structure induces a phenomenon similar to band inversion in topological insulators, indicating the presence of topological boundary modes in the photonic bands.
翻訳日:2024-02-28 01:05:09 公開日:2024-02-24
# ブール比

Boolean proportions ( http://arxiv.org/abs/2109.00388v7 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 著者は最近、普遍代数学の一般設定の中で類比例の抽象的代数的枠組みを導入した。 本稿では,2つの元素0と1からなるブール領域の類似比について検討する。 私たちのブール比例の概念は、異なる設定の文学の2つの顕著なモデルと一致することがわかりました。 これは、数学的に魅力的であり、一般的なフレームワークのロバスト性と適用性に関するさらなる証拠を提供する単一のフレームワーク内で、ブール比率の2つの別々のモデリングをキャプチャできることを意味する。

The author has recently introduced an abstract algebraic framework of analogical proportions within the general setting of universal algebra. This paper studies analogical proportions in the boolean domain consisting of two elements 0 and 1 within his framework. It turns out that our notion of boolean proportions coincides with two prominent models from the literature in different settings. This means that we can capture two separate modellings of boolean proportions within a single framework which is mathematically appealing and provides further evidence for the robustness and applicability of the general framework.
翻訳日:2024-02-28 01:04:45 公開日:2024-02-24
# 混合政策勾配:データとモデルによって駆動されるオフポリシー強化学習

Mixed Policy Gradient: off-policy reinforcement learning driven jointly by data and model ( http://arxiv.org/abs/2102.11513v2 )

ライセンス: Link先を確認
Yang Guan, Jingliang Duan, Shengbo Eben Li, Jie Li, Jianyu Chen, Bo Cheng(参考訳) 強化学習(RL)は、逐次意思決定において大きな可能性を示す。 現在では、主流のRLアルゴリズムはデータ駆動であり、一般的には漸近的性能が向上するが、モデル駆動法に比べて収束が遅い。 本稿では,政策勾配(PG)における経験的データと遷移モデルを融合させて,性能劣化を伴わない収束を高速化するMPGアルゴリズムを提案する。 形式的には、mpgはデータ駆動型およびモデル駆動型pgsの重み付け平均として構成され、前者は学習されたq値関数の導出であり、後者はモデル予測型の戻り値である。 重み設計の指針として,各PG誤差の上限値の解析と比較を行う。 それに基づいて、重みをヒューリスティックに調整するルールベースの手法が用いられる。 特に、より優れたPGを得るために、データ駆動PGの重みは学習プロセスに沿って成長し、他方は減少するように設計されている。 シミュレーションの結果,mpg法は,他のベースラインアルゴリズムと比較して,最高漸近性能と収束速度を達成した。

Reinforcement learning (RL) shows great potential in sequential decision-making. At present, mainstream RL algorithms are data-driven, which usually yield better asymptotic performance but much slower convergence compared with model-driven methods. This paper proposes mixed policy gradient (MPG) algorithm, which fuses the empirical data and the transition model in policy gradient (PG) to accelerate convergence without performance degradation. Formally, MPG is constructed as a weighted average of the data-driven and model-driven PGs, where the former is the derivative of the learned Q-value function, and the latter is that of the model-predictive return. To guide the weight design, we analyze and compare the upper bound of each PG error. Relying on that, a rule-based method is employed to heuristically adjust the weights. In particular, to get a better PG, the weight of the data-driven PG is designed to grow along the learning process while the other to decrease. Simulation results show that the MPG method achieves the best asymptotic performance and convergence speed compared with other baseline algorithms.
翻訳日:2024-02-28 01:04:37 公開日:2024-02-24
# パウリ回転配列のクリフォード$+t$合成における最適アダマールゲート数

Optimal Hadamard gate count for Clifford$+T$ synthesis of Pauli rotations sequences ( http://arxiv.org/abs/2302.07040v3 )

ライセンス: Link先を確認
Vivien Vandaele, Simon Martiel, Simon Perdrix, Christophe Vuillot(参考訳) クリフォード$+T$ゲート集合は一般に普遍量子計算を行うために用いられる。 このような設定では、$t$ゲートは通常、cliffordゲートよりもフォールトトレラントな方法で実装する方がずっと高価である。 フォールトトレラント量子コンピューティングの実現可能性を改善するために、$T$ゲートの数を最小化することが不可欠である。 多くのアルゴリズムがこの問題を解決するために設計されている。 回路内のアダマールゲートの数を減らして前処理を行うと、これらのアルゴリズムの潜在能力を最大限に活用でき、結果として相当な$T$カウントの削減につながることが示されている。 さらに、アダマールゲートの数を最小化することで、アダマールゲートのガジェット化による追加のキュービット数や演算も抑制される。 本研究では,アダマールゲート低減問題に取り組み,最小数のアダマールゲートを持つ$\pi/4$ pauli 回転列を合成するアルゴリズムを提案する。 この結果に基づき、回路の第1と最後の$t$ゲートの間にあるアダマールゲートの数を最適に最小化するアルゴリズムを提案する。

The Clifford$+T$ gate set is commonly used to perform universal quantum computation. In such setup the $T$ gate is typically much more expensive to implement in a fault-tolerant way than Clifford gates. To improve the feasibility of fault-tolerant quantum computing it is then crucial to minimize the number of $T$ gates. Many algorithms, yielding effective results, have been designed to address this problem. It has been demonstrated that performing a pre-processing step consisting of reducing the number of Hadamard gates in the circuit can help to exploit the full potential of these algorithms and thereby lead to a substantial $T$-count reduction. Moreover, minimizing the number of Hadamard gates also restrains the number of additional qubits and operations resulting from the gadgetization of Hadamard gates, a procedure used by some compilers to further reduce the number of $T$ gates. In this work we tackle the Hadamard gate reduction problem, and propose an algorithm for synthesizing a sequence of $\pi/4$ Pauli rotations with a minimal number of Hadamard gates. Based on this result, we present an algorithm which optimally minimizes the number of Hadamard gates lying between the first and the last $T$ gate of the circuit.
翻訳日:2024-02-28 01:01:04 公開日:2024-02-24
# 冷間原子量子シミュレータにおける閉じ込め下でのエルゴディディティ破壊

Ergodicity Breaking Under Confinement in Cold-Atom Quantum Simulators ( http://arxiv.org/abs/2301.07717v3 )

ライセンス: Link先を確認
Jean-Yves Desaules, Guo-Xian Su, Ian P. McCulloch, Bing Yang, Zlatko Papi\'c, Jad C. Halimeh(参考訳) 合成量子物質デバイスにおけるゲージ理論の量子シミュレーションは、過去10年間に多くの牽引力を獲得し、様々な異種量子多体現象の観測が可能となった。 本研究では、スピン=1/2$量子リンクの1+1$D量子電磁力学のトポロジカルな$\theta$-angleによる定式化について考察する。 このシステムを、質量とスタガーの磁化項を持つPXPモデルに正確にマッピングすることで、閉じ込めと量子多体散乱とヒルベルト空間の断片化というエルゴーディック的パラダイムの間の興味深い相互作用を示す。 このモデルのリッチな動的位相図をマッピングし、質量$\mu$の小さな値でエルゴード相を発見し、ポテンシャル$\chi$を精算し、大きな$\mu$に対する創発的な可積分相と、両方のパラメータの大きな値に対する断片化相を求める。 また、後者は多数の効果的なモデルに繋がる共鳴をホストしていることを示す。 本研究は,現在のコールド原子装置で直接アクセス可能な実験プローブを提案する。

The quantum simulation of gauge theories on synthetic quantum matter devices has gained a lot of traction in the last decade, making possible the observation of a range of exotic quantum many-body phenomena. In this work, we consider the spin-$1/2$ quantum link formulation of $1+1$D quantum electrodynamics with a topological $\theta$-angle, which can be used to tune a confinement-deconfinement transition. Exactly mapping this system onto a PXP model with mass and staggered magnetization terms, we show an intriguing interplay between confinement and the ergodicity-breaking paradigms of quantum many-body scarring and Hilbert-space fragmentation. We map out the rich dynamical phase diagram of this model, finding an ergodic phase at small values of the mass $\mu$ and confining potential $\chi$, an emergent integrable phase for large $\mu$, and a fragmented phase for large values of both parameters. We also show that the latter hosts resonances that lead to a vast array of effective models. We propose experimental probes of our findings, which can be directly accessed in current cold-atom setups.
翻訳日:2024-02-28 00:59:33 公開日:2024-02-24
# 高次元時系列に対する解釈可能かつ効率的な無限次ベクトル自己回帰モデル

An Interpretable and Efficient Infinite-Order Vector Autoregressive Model for High-Dimensional Time Series ( http://arxiv.org/abs/2209.01172v4 )

ライセンス: Link先を確認
Yao Zheng(参考訳) 特殊無限次ベクトル自己回帰(VAR)モデルとして、ベクトル自己回帰移動平均(VARMA)モデルは広く用いられる有限次VARモデルよりもはるかに豊かな時間パターンを捉えることができる。 しかし、その実用性は、特に高次元時系列において、その非識別性、計算の難しさ、解釈の難しさによって長い間妨げられてきた。 本稿では,VARMAモデルの本質的時相パターンを継承しつつ,上記のすべての欠点を回避するため,高次元時系列に対する新しいスパース無限次VARモデルを提案する。 もう一つの魅力的な特徴として、このモデルによって捕獲されたvarma型ダイナミクスの時間的および横断的な構造は、異なるパラメータのセットによって特徴づけられるため、別々に解釈することができる。 この分離は、断面依存性を決定するパラメータに対するスパーシティの仮定を自然に動機付ける。 その結果、時間情報の損失が少なく、統計効率と解釈可能性の向上が達成できる。 本研究では,ブロック座標降下アルゴリズムを用いて効率的に実装できる2つの$\ell_1$-regularized estimation法を導入し,対応する非漸近的誤差境界を導出する。 ベイズ情報基準に基づく一貫したモデル順序選択法も開発されている。 提案手法の利点はシミュレーション研究と実世界のマクロ経済データ分析に支えられている。

As a special infinite-order vector autoregressive (VAR) model, the vector autoregressive moving average (VARMA) model can capture much richer temporal patterns than the widely used finite-order VAR model. However, its practicality has long been hindered by its non-identifiability, computational intractability, and difficulty of interpretation, especially for high-dimensional time series. This paper proposes a novel sparse infinite-order VAR model for high-dimensional time series, which avoids all above drawbacks while inheriting essential temporal patterns of the VARMA model. As another attractive feature, the temporal and cross-sectional structures of the VARMA-type dynamics captured by this model can be interpreted separately, since they are characterized by different sets of parameters. This separation naturally motivates the sparsity assumption on the parameters determining the cross-sectional dependence. As a result, greater statistical efficiency and interpretability can be achieved with little loss of temporal information. We introduce two $\ell_1$-regularized estimation methods for the proposed model, which can be efficiently implemented via block coordinate descent algorithms, and derive the corresponding nonasymptotic error bounds. A consistent model order selection method based on the Bayesian information criteria is also developed. The merit of the proposed approach is supported by simulation studies and a real-world macroeconomic data analysis.
翻訳日:2024-02-28 00:57:39 公開日:2024-02-24
# entropic multi-marginal optimal transportの情報理論等価性:マルチエージェント通信の理論

Information-Theoretic Equivalence of Entropic Multi-Marginal Optimal Transport: A Theory for Multi-Agent Communication ( http://arxiv.org/abs/2208.10256v3 )

ライセンス: Link先を確認
Shuchan Wang(参考訳) 本稿では,エントロピー型マルチマルジナル最適輸送(MOT)の情報理論的等価性を提案する。 この等価性は、エントロピー最適輸送(OT)の場合に容易に還元できる。 OTは知識と信念の違いを比較するために広く用いられているため、異なる信念を持つエージェント間のコミュニケーションにこの結果を適用する。 我々の結果は、エントロピーOTがWangらによって与えられる情報理論的に最適であることを示す。 [2020]を一般化し、マルチエージェントケースに一般化する。 我々は、将来のマルチエージェントチームシステムにおけるOT理論に光を当てることができると考えている。

In this paper, we propose our information-theoretic equivalence of entropic multi-marginal optimal transport (MOT). This equivalence can be easily reduced to the case of entropic optimal transport (OT). Because OT is widely used to compare differences between knowledge or beliefs, we apply this result to the communication between agents with different beliefs. Our results formally prove the statement that entropic OT is information-theoretically optimal given by Wang et al. [2020] and generalize it to the multi-agent case. We believe that our work can shed light on OT theory in future multi-agent teaming systems.
翻訳日:2024-02-28 00:57:16 公開日:2024-02-24
# 補助情報へのアクセスによる最適化

Optimization with Access to Auxiliary Information ( http://arxiv.org/abs/2206.00395v4 )

ライセンス: Link先を確認
El Mahdi Chayti and Sai Praneeth Karimireddy(参考訳) 目的関数 $f$ を最小化するための基本的な最適化問題について検討し,その勾配が計算に費用がかかるか,可用性が限られているかについて検討する。 この定式化は、実用的関連性の多くの設定をキャプチャする。 i)SGDにおけるバッチの再利用 ii) 転帰学習 三 連合学習 四 圧縮モデル/ドロップアウト、Et ceteraによる訓練 これらすべての設定に適用可能な2つの新しいアルゴリズムを提案する。また、ターゲット情報と側情報の間のヘッセン類似性仮定の下で、このフレームワークの利点を証明できる。 この類似度尺度が小さい場合には利点が得られるが、補助ノイズと対象関数の類似度とが相関する場合、確率性による潜在的メリットも示される。

We investigate the fundamental optimization question of minimizing a target function $f$, whose gradients are expensive to compute or have limited availability, given access to some auxiliary side function $h$ whose gradients are cheap or more available. This formulation captures many settings of practical relevance, such as i) re-using batches in SGD, ii) transfer learning, iii) federated learning, iv) training with compressed models/dropout, Et cetera. We propose two generic new algorithms that apply in all these settings; we also prove that we can benefit from this framework under the Hessian similarity assumption between the target and side information. A benefit is obtained when this similarity measure is small; we also show a potential benefit from stochasticity when the auxiliary noise is correlated with that of the target function.
翻訳日:2024-02-28 00:57:06 公開日:2024-02-24
# balanced memory workload optimizationによる自動並列トレーニングの改善

Improving Automatic Parallel Training via Balanced Memory Workload Optimization ( http://arxiv.org/abs/2307.02031v2 )

ライセンス: Link先を確認
Yujie Wang, Youhe Jiang, Xupeng Miao, Fangcheng Fu, Shenhan Zhu, Xiaonan Nie, Yaofeng Tu, Bin Cui(参考訳) トランスフォーマーモデルは、様々なアプリケーション領域で最先端のパフォーマンスを達成するための主要なアプローチとして現れ、高度な大規模ディープラーニング(DL)モデルの基盤となっている。 しかし、並列性オプションが豊富であるため、複数のgpuでモデルを効率的にトレーニングすることは複雑な課題である。 既存のDLシステムは、分散トレーニング計画を設計するための手作業を必要とするか、制約された検索空間に並列性の組み合わせを制限する必要がある。 本稿では,複数の先行する並列性次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークGalvatron-BMWを提案する。 この広大な探索空間を効果的にナビゲートするために、直感的な洞察に基づく分解と刈り取りに決定木アプローチを用いる。 さらに,動的プログラム探索アルゴリズムを用いて最適計画の導出を行う。 さらに,資源利用率の向上とシステム効率の向上を目的として,ワークロードバランスに着目した2目的最適化ワークフローを提案する。 異なるトランスフォーマーモデルにおける評価結果から,gpuメモリ制約の異なる分散トレーニングの自動化におけるgalvatron-bmwの機能を示す。 全てのテストシナリオにおいて、Galvatron-BMWは、制限された並列性戦略に依存する以前のアプローチよりも優れたシステムスループットを一貫して達成している。

Transformer models have emerged as the leading approach for achieving state-of-the-art performance across various application domains, serving as the foundation for advanced large-scale deep learning (DL) models. However, efficiently training these models across multiple GPUs remains a complex challenge due to the abundance of parallelism options. Existing DL systems either require manual efforts to design distributed training plans or limit parallelism combinations to a constrained search space. In this paper, we present Galvatron-BMW, a novel system framework that integrates multiple prevalent parallelism dimensions and automatically identifies the most efficient hybrid parallelism strategy. To effectively navigate this vast search space, we employ a decision tree approach for decomposition and pruning based on intuitive insights. We further utilize a dynamic programming search algorithm to derive the optimal plan. Moreover, to improve resource utilization and enhance system efficiency, we propose a bi-objective optimization workflow that focuses on workload balance. Our evaluations on different Transformer models demonstrate the capabilities of Galvatron-BMW in automating distributed training under varying GPU memory constraints. Across all tested scenarios, Galvatron-BMW consistently achieves superior system throughput, surpassing previous approaches that rely on limited parallelism strategies.
翻訳日:2024-02-28 00:53:22 公開日:2024-02-24
# フロケット量子東モデルにおける局所ダイナミクス

Localised Dynamics in the Floquet Quantum East Model ( http://arxiv.org/abs/2306.12467v2 )

ライセンス: Link先を確認
Bruno Bertini, Pavel Kos, and Tomaz Prosen(参考訳) 古典ガラスの単純な運動論的拘束モデルに触発された相互作用量子スピンチェーンである量子東モデルの離散時間モデルを導入研究する。 従来の研究では、非熱的局所化された固有状態の指数関数的に大きな(体積の)ファミリーの出現によって引き起こされる障害のない局所化遷移が連続的に現れることが証明されていた。 ここでは分析と数値のアプローチを組み合わせることで i) 遷移は離散時間に対して持続するが、実際には、ゼロ測度集合から離れた時間ステップの任意の有限値に対して存在する。 ii) 完全偏極状態の非平衡ダイナミクスに従うことで直接検出される。 我々の発見は、この遷移が現在、デジタル量子シミュレーションの最先端プラットフォームで観測可能であることを示唆している。

We introduce and study the discrete-time version of the Quantum East model, an interacting quantum spin chain inspired by simple kinetically constrained models of classical glasses. Previous work has established that its continuous-time counterpart displays a disorder-free localisation transition signalled by the appearance of an exponentially large (in the volume) family of non-thermal, localised eigenstates. Here we combine analytical and numerical approaches to show that: i) The transition persists for discrete times, in fact, it is present for any finite value of the time step apart from a zero measure set; ii) It is directly detected by following the non-equilibrium dynamics of the fully polarised state. Our findings imply that the transition is currently observable in state-of-the-art platforms for digital quantum simulation.
翻訳日:2024-02-28 00:51:31 公開日:2024-02-24
# 部分観測可能なマルチエージェントパス探索のためのユニバーサルプランの計算について

On Computing Universal Plans for Partially Observable Multi-Agent Path Finding ( http://arxiv.org/abs/2305.16203v3 )

ライセンス: Link先を確認
Fengming Zhu, Fangzhen Lin(参考訳) マルチエージェントルーティング問題は、倉庫ロボット、物流自動化、交通制御などの幅広い産業的応用により、近年大きな注目を集めている。 伝統的に、それらは古典的な計画問題としてモデル化される。 本稿では,これらを共通計画問題として定式化することは有益であると主張する。 そこで我々は,ソリューション概念としてポリシとしても知られるユニバーサルプランを提案し,それらを計算するためのasp-maupf (answer set programming for multi-agent universal plan find) というシステムを実装した。 任意の2次元地図とエージェントの目標プロファイルが与えられた場合、システムは、他のエージェントとの衝突を確実にする、各エージェントの可能な普遍的な計画を見つける。 我々はシステムを用いていくつかの実験を行い、実現可能なポリシーを持つ目標プロファイルと環境の種類と、エージェントのセンサーにどのように依存するかを観察する。 また、ユーザがアクションの好みをカスタマイズして、より効率的なポリシーを(ほぼ)最適に処理する方法も示しています。

Multi-agent routing problems have drawn significant attention nowadays due to their broad industrial applications in, e.g., warehouse robots, logistics automation, and traffic control. Conventionally, they are modelled as classical planning problems. In this paper, we argue that it is beneficial to formulate them as universal planning problems. We therefore propose universal plans, also known as policies, as the solution concepts, and implement a system called ASP-MAUPF (Answer Set Programming for Multi-Agent Universal Plan Finding) for computing them. Given an arbitrary two-dimensional map and a profile of goals for the agents, the system finds a feasible universal plan for each agent that ensures no collision with others. We use the system to conduct some experiments, and make some observations on the types of goal profiles and environments that will have feasible policies, and how they may depend on agents' sensors. We also demonstrate how users can customize action preferences to compute more efficient policies, even (near-)optimal ones.
翻訳日:2024-02-28 00:50:37 公開日:2024-02-24
# 非マッピング環境におけるマルチ車両ルーティングのための分散オンラインロールアウト

Distributed Online Rollout for Multivehicle Routing in Unmapped Environments ( http://arxiv.org/abs/2305.15596v3 )

ライセンス: Link先を確認
Jamison W. Weber, Dhanush R. Giriyan, Devendra R. Parkar, Dimitri P. Bertsekas, Andr\'ea W. Richa(参考訳) 本研究では,ネットワーク,ノードのサブセットを占有するエージェント群,タスク群が与えられた場合,各タスクが少なくとも1回はエージェントに訪問されるという制約を満たした最小コストの動作列を求める。 この問題の古典的なバージョンは、システムの状態を完全に監視し、集中制御方式に従って個々のエージェントに指示する中央計算サーバを想定している。 対照的に、集中型サーバはなく、各エージェントは、基盤となるネットワーク(タスクとエージェントの位置を含む)の事前知識を持たない個々のプロセッサである、と仮定する。 さらに、エージェントは、厳密な局所的コミュニケーションとセンシング能力(それぞれの位置の固定半径に制限される)を持ち、現実世界の複数のマルチエージェントアプリケーションとより密接に連携している。 これらの制限は、ローカル情報共有とエージェント間の直接調整によって克服される多くの課題をもたらす。 この問題に対して,エージェントをローカルクラスタに自己組織化し,各クラスタに個別にマルチエージェントロールアウトスキームを適用する,完全分散,オンライン,スケーラブルな強化学習アルゴリズムを提案する。 我々は,分散ロールアウトアルゴリズムが欲望ベースポリシーよりも改善し始める臨界センシング半径が存在することを,広範囲なシミュレーションにより実証的に示す。 この臨界センシング半径は、ネットワークの大きさの$\log^*$関数に比例して増加し、従って、関連するネットワークに対して小さな定数である。 分散強化学習アルゴリズムは, 臨界センシング半径の2倍, 3倍の範囲のradiiのベースポリシーに対して, 約2倍のコスト改善を実現する。

In this work we consider a generalization of the well-known multivehicle routing problem: given a network, a set of agents occupying a subset of its nodes, and a set of tasks, we seek a minimum cost sequence of movements subject to the constraint that each task is visited by some agent at least once. The classical version of this problem assumes a central computational server that observes the entire state of the system perfectly and directs individual agents according to a centralized control scheme. In contrast, we assume that there is no centralized server and that each agent is an individual processor with no a priori knowledge of the underlying network (including task and agent locations). Moreover, our agents possess strictly local communication and sensing capabilities (restricted to a fixed radius around their respective locations), aligning more closely with several real-world multiagent applications. These restrictions introduce many challenges that are overcome through local information sharing and direct coordination between agents. We present a fully distributed, online, and scalable reinforcement learning algorithm for this problem whereby agents self-organize into local clusters and independently apply a multiagent rollout scheme locally to each cluster. We demonstrate empirically via extensive simulations that there exists a critical sensing radius beyond which the distributed rollout algorithm begins to improve over a greedy base policy. This critical sensing radius grows proportionally to the $\log^*$ function of the size of the network, and is, therefore, a small constant for any relevant network. Our decentralized reinforcement learning algorithm achieves approximately a factor of two cost improvement over the base policy for a range of radii bounded from below and above by two and three times the critical sensing radius, respectively.
翻訳日:2024-02-28 00:50:18 公開日:2024-02-24
# 低照度画像の圧縮を損なう

Make Lossy Compression Meaningful for Low-Light Images ( http://arxiv.org/abs/2305.15030v3 )

ライセンス: Link先を確認
Shilv Cai, Liqun Chen, Sheng Zhong, Luxin Yan, Jiahuan Zhou, Xu Zou(参考訳) 低照度画像は、避けられない環境影響や、照明不足や露光時間制限といった技術的な制限によってしばしば発生する。 視覚知覚の視認性を向上させるために、通常は低光度画像強調が用いられる。 さらに、画像圧縮の損失は、コンピュータビジョンアプリケーションにおけるストレージと送信の要件を満たすために不可欠である。 上記の2つの現実的な要求に対処するために、現在の解は、'`Compress before Enhance (CbE)' または ' ``Enhance before Compress (EbC)'' の2つに分類することができる。 1) 個々のモデルにおけるエラーの蓄積はシーケンシャルな解決策を苦しめている。 特に、既存の一般的な損失画像圧縮アプローチで低照度画像が圧縮されると、有用な情報(テクスチャの詳細など)が失われ、低照度画像の強調が劇的に低下する。 2) 中間過程のため, 逐次解法は, 低効率化をもたらす付加的な負荷をもたらす。 計算コストが低くモデルパラメータが小さい低照度画像に対して高い圧縮速度と優れた強調性能を同時に達成する新しいジョイントソリューションを提案する。 我々は,主エンハンスメント分岐と信号-雑音比(SNR)対応分岐を含むエンドツーエンドのトレーニング可能なアーキテクチャを設計する。 実験の結果, 提案手法は低光度画像に対して, 従来最先端の逐次 ``compress before enhance''' や `enhance before compress''' の異なる組み合わせに対して有意な改善が得られ, 低光画像圧縮がより有意義になることがわかった。 プロジェクトは、https://github.com/CaiShilv/Joint-IC-LLで公開されている。

Low-light images frequently occur due to unavoidable environmental influences or technical limitations, such as insufficient lighting or limited exposure time. To achieve better visibility for visual perception, low-light image enhancement is usually adopted. Besides, lossy image compression is vital for meeting the requirements of storage and transmission in computer vision applications. To touch the above two practical demands, current solutions can be categorized into two sequential manners: ``Compress before Enhance (CbE)'' or ``Enhance before Compress (EbC)''. However, both of them are not suitable since: (1) Error accumulation in the individual models plagues sequential solutions. Especially, once low-light images are compressed by existing general lossy image compression approaches, useful information (e.g., texture details) would be lost resulting in a dramatic performance decrease in low-light image enhancement. (2) Due to the intermediate process, the sequential solution introduces an additional burden resulting in low efficiency. We propose a novel joint solution to simultaneously achieve a high compression rate and good enhancement performance for low-light images with much lower computational cost and fewer model parameters. We design an end-to-end trainable architecture, which includes the main enhancement branch and the signal-to-noise ratio (SNR) aware branch. Experimental results show that our proposed joint solution achieves a significant improvement over different combinations of existing state-of-the-art sequential ``Compress before Enhance'' or ``Enhance before Compress'' solutions for low-light images, which would make lossy low-light image compression more meaningful. The project is publicly available at: https://github.com/CaiShilv/Joint-IC-LL.
翻訳日:2024-02-28 00:49:51 公開日:2024-02-24
# 分散学習のための分布内知識蒸留による非IIDデータセットの均質化

Homogenizing Non-IID datasets via In-Distribution Knowledge Distillation for Decentralized Learning ( http://arxiv.org/abs/2304.04326v2 )

ライセンス: Link先を確認
Deepak Ravikumar, Gobinda Saha, Sai Aparna Aketi, Kaushik Roy(参考訳) 分散学習により、複数のノード上で分散的にディープニューラルネットワーク(DNN)のサーバレストレーニングが可能になる。 これにより、大規模なデータセットの使用や、さまざまなデータソースでトレーニングすることが可能になる。 しかしながら、分散学習における重要な課題の1つは、ノード間のデータ分散の多様性である。 本稿では、異種データ分散の課題を解決するために、IDKD(In-Distribution Knowledge Distillation)を提案する。 IDKDの目標は、ノード間のデータ分散を均質化することです。 このようなデータの均質化は、プライバシを犠牲にするノード間でデータを交換することで達成できるが、IDKDは、プライバシ制約を破ることなく、ノード間で共通の公開データセットを使用して同じ目的を達成する。 このパブリックデータセットはトレーニングデータセットと異なり、各ノードから知識を抽出し、生成されたラベルを通じて隣人に通信するために使用される。 従来の知識蒸留では、すべての公開データセットが局所データセットと類似性に関係なく使用されるため、蒸留モデルの一般化が減少する。 そこで我々は,各ノードにout-of-distribution(ood)検出器を導入し,ローカルトレーニングデータ分布に近いパブリックデータセットのサブセットをラベル付けする。 最後に、これらのサブセットに対応するラベルのみをノード間で交換し、各ノードの平均的なラベルをこれらのデータサブセットとそのローカルデータに微調整する。 複数の画像分類データセットとグラフトポロジを用いた実験により,提案手法は従来の知識蒸留法よりも有効であり,通信オーバーヘッドを最小限に抑えた異種分散データに対する最先端の一般化性能を実現する。

Decentralized learning enables serverless training of deep neural networks (DNNs) in a distributed manner on multiple nodes. This allows for the use of large datasets, as well as the ability to train with a wide variety of data sources. However, one of the key challenges with decentralized learning is heterogeneity in the data distribution across the nodes. In this paper, we propose In-Distribution Knowledge Distillation (IDKD) to address the challenge of heterogeneous data distribution. The goal of IDKD is to homogenize the data distribution across the nodes. While such data homogenization can be achieved by exchanging data among the nodes sacrificing privacy, IDKD achieves the same objective using a common public dataset across nodes without breaking the privacy constraint. This public dataset is different from the training dataset and is used to distill the knowledge from each node and communicate it to its neighbors through the generated labels. With traditional knowledge distillation, the generalization of the distilled model is reduced because all the public dataset samples are used irrespective of their similarity to the local dataset. Thus, we introduce an Out-of-Distribution (OoD) detector at each node to label a subset of the public dataset that maps close to the local training data distribution. Finally, only labels corresponding to these subsets are exchanged among the nodes and with appropriate label averaging each node is finetuned on these data subsets along with its local data. Our experiments on multiple image classification datasets and graph topologies show that the proposed IDKD scheme is more effective than traditional knowledge distillation and achieves state-of-the-art generalization performance on heterogeneously distributed data with minimal communication overhead.
翻訳日:2024-02-28 00:48:16 公開日:2024-02-24
# 雑用課の外部性

Externalities in Chore Division ( http://arxiv.org/abs/2303.12446v2 )

ライセンス: Link先を確認
Mohammad Azharuddin Sanpui(参考訳) chore分割問題は、複数のエージェント間で不均一で望ましくないリソースの公平な分割をシミュレートする。 公正なコアの分割では、各エージェントは自身のピースからのみ不利を得る。 しかし、エージェントは、他のエージェントに与えられたピースにも関心を持ち、これらの外部性は、当然公平な分割状況に現れる。 まず,外部性を考慮した古典モデルの拡張を行いながら,比例性とエンビー・フリーネスという古典的概念の一般化を実証する。

The chore division problem simulates the fair division of a heterogeneous, undesirable resource among several agents. In the fair division of chores, each agent only gets the disutility from its own piece. Agents may, however, also be concerned with the pieces given to other agents; these externalities naturally appear in fair division situations. We first demonstrate the generalization of the classical concepts of proportionality and envy-freeness while extending the classical model by taking externalities into account.
翻訳日:2024-02-28 00:47:19 公開日:2024-02-24
# 読解・読字障害における眼球運動理解のための大規模言語モデルと能動的推論の統合

Integrating large language models and active inference to understand eye movements in reading and dyslexia ( http://arxiv.org/abs/2308.04941v2 )

ライセンス: Link先を確認
Francesco Donnarumma, Mirco Frosolone and Giovanni Pezzulo(参考訳) 本稿では,階層的アクティブ推論を用いた新しい計算モデルを提案する。 このモデルは言語処理を階層的生成モデル上の推論として特徴付け、音節から文まで様々なレベルの粒度での予測と推論を容易にする。 提案手法は,現実的なテキスト予測のための大規模言語モデルの強みと,情報的テキスト情報に目の動きを導くアクティブ推論を組み合わせ,予測の検証を可能にする。 このモデルは、未知の単語と文の両方を読む能力を示し、読みの二重ルート理論における語彙経路と非語彙経路の区別を裏付ける。 特に本モデルでは,失読症などの読取時の眼球運動に対する不適応推論効果の探索が可能である。 この条件をシミュレートするために,読解過程における先行者の寄与を弱め,誤り推論とより断片化された読解スタイルを導出し,より少ないサッケードを特徴とする。 失読症者における眼球運動に関する経験的知見との整合性は、読影と眼球運動に基づく認知過程の理解を助けるモデルの可能性と、失読症に関連する読影障害が不適応な予測処理からどのように現れるかを明らかにする。 要約すると,本モデルは,読解・眼球運動に関わる複雑な認知過程の理解における重要な進歩であり,不適応推論のシミュレーションを通じて失読の理解と対処の可能性を示唆している。 この状態に関する貴重な洞察を提供し、治療のためのより効果的な介入の開発に寄与する可能性がある。

We present a novel computational model employing hierarchical active inference to simulate reading and eye movements. The model characterizes linguistic processing as inference over a hierarchical generative model, facilitating predictions and inferences at various levels of granularity, from syllables to sentences. Our approach combines the strengths of large language models for realistic textual predictions and active inference for guiding eye movements to informative textual information, enabling the testing of predictions. The model exhibits proficiency in reading both known and unknown words and sentences, adhering to the distinction between lexical and nonlexical routes in dual-route theories of reading. Notably, our model permits the exploration of maladaptive inference effects on eye movements during reading, such as in dyslexia. To simulate this condition, we attenuate the contribution of priors during the reading process, leading to incorrect inferences and a more fragmented reading style, characterized by a greater number of shorter saccades. This alignment with empirical findings regarding eye movements in dyslexic individuals highlights the model's potential to aid in understanding the cognitive processes underlying reading and eye movements, as well as how reading deficits associated with dyslexia may emerge from maladaptive predictive processing. In summary, our model represents a significant advancement in comprehending the intricate cognitive processes involved in reading and eye movements, with potential implications for understanding and addressing dyslexia through the simulation of maladaptive inference. It may offer valuable insights into this condition and contribute to the development of more effective interventions for treatment.
翻訳日:2024-02-28 00:39:55 公開日:2024-02-24
# テラヘルツをベースとしたフロー誘導型ナノスケールローカライゼーションのためのグラフニューラルネットワーク

Graph Neural Networks as an Enabler of Terahertz-based Flow-guided Nanoscale Localization over Highly Erroneous Raw Data ( http://arxiv.org/abs/2307.05551v3 )

ライセンス: Link先を確認
Gerard Calvo Bartra, Filip Lemic, Guillem Pascual, Aina P\'erez Rodas, Jakob Struye, Carmen Delgado, Xavier Costa P\'erez(参考訳) ナノテクノロジーと材料科学における現代の研究の進歩は、センシング、コンピューティング、無線通信、データストレージ、エネルギー収穫を調和させる汎用ツールとしてナノデバイスが出現したことに根ざしている。 これらのデバイスは、疾患の診断、治療、および血流内のモニタリングのための新しい経路を提供する。 フロー誘導体内ナノスケールの局所化という概念の根底にある、診断的関心事の正確な位置決めは、検出された事象に付加的な診断値を与える。 ナノデバイスによって生成された生データは、この局在化において重要であり、イベント検出インジケータと、ナノデバイスが心臓を通過する最後の通過から経過した時間からなる。 ナノデバイスのエネルギー制約は断続的な操作と信頼できない通信につながり、本質的にこのデータに影響を与える。 これは、このデータの特徴を包括的にモデル化する必要性を示唆する。 これらの欠陥は、環境の複雑さに対処する準備が不十分な既存のフロー誘導型局所化アプローチの生存可能性にも重大な影響を及ぼす。 最初の貢献は、フロー誘導型ローカライズのための生データの分析モデルであり、通信とエネルギーの能力がナノデバイスのデータ出力にどのように影響するかを説明します。 このモデルは、フロー誘導ローカライゼーションの実践的な課題と理想化された仮定を一致させる、重要なブリッジとして機能する。 これらの課題に対処するために、フロー誘導ローカライゼーションパラダイムへのグラフニューラルネットワーク(GNN)の統合も提案する。 GNNはナノデバイスによって感知される事象の局所化に固有の複雑な動的相互作用を捉えるのに優れている。 以上の結果から,GNNは局所化精度を高めるだけでなく,血流全体を包含する範囲を広げる可能性も浮き彫りにした。

Contemporary research advances in nanotechnology and material science are rooted in the emergence of nanodevices as a versatile tool that harmonizes sensing, computing, wireless communication, data storage, and energy harvesting. These devices offer novel pathways for disease diagnostics, treatment, and monitoring within the bloodstreams. Ensuring precise localization of events of diagnostic interest, which underpins the concept of flow-guided in-body nanoscale localization, would provide an added diagnostic value to the detected events. Raw data generated by the nanodevices is pivotal for this localization and consist of an event detection indicator and the time elapsed since the last passage of a nanodevice through the heart. The energy constraints of the nanodevices lead to intermittent operation and unreliable communication, intrinsically affecting this data. This posits a need for comprehensively modelling the features of this data. These imperfections also have profound implications for the viability of existing flow-guided localization approaches, which are ill-prepared to address the intricacies of the environment. Our first contribution lies in an analytical model of raw data for flow-guided localization, dissecting how communication and energy capabilities influence the nanodevices' data output. This model acts as a vital bridge, reconciling idealized assumptions with practical challenges of flow-guided localization. Toward addressing these practical challenges, we also present an integration of Graph Neural Networks (GNNs) into the flow-guided localization paradigm. GNNs excel in capturing complex dynamic interactions inherent to the localization of events sensed by the nanodevices. Our results highlight the potential of GNNs not only to enhance localization accuracy but also extend coverage to encompass the entire bloodstream.
翻訳日:2024-02-28 00:38:18 公開日:2024-02-24
# 量子機構からの相対論的時間拡張

Relativistic time dilation from a quantum mechanism ( http://arxiv.org/abs/2307.04254v4 )

ライセンス: Link先を確認
Esteban Mart\'inez-Vargas(参考訳) 従来の直観に最も挑戦する相対性理論の1つの概念は時間拡張と長さ収縮である。 量子系における相対論的効果を記述する通常のアプローチは、これらの効果の結果を物理的制約として仮定するだけである。 本稿では,量子力学的考察から特殊相対性理論の再構築を提案する。 これは、光速の普遍性という基本的な仮定を捨てることによって行われる。 ローレンツ変換は量子機構によって得られる。 我々は、量子状態が定義されているガリレオ参照フレームに依存するという事実を用いる。 言い換えれば、観測者のガリレオ参照フレームの外の量子状態は歪んでいる。 次に、ある定理において、この歪みに対して、期待値が時間のローレンツ共変関数であるような、時間に依存した可観測性の存在を示す。 次に、このメカニズムを特殊相対性理論の現象の源として仮定する。 主定理の系として、相対論的運動量と質量を生み出すローレンツ共変運動量と質量作用素の存在を示す。 この理論では、光の速度の基本的な限界は、光よりも速い粒子に対して透明性条件を課す。 透明性効果は、この量子フォーマリズムに続くより一般的な理論でダークマターを説明することができる。

One of the concepts of Relativity theory that challenges conventional intuition the most is time dilation and length contraction. Usual approaches for describing relativistic effects in quantum systems merely postulate the consequences of these effects as physical constraints. Here, we propose to rebuild Special Relativity from quantum mechanical considerations. This is done by dropping one of its fundamental postulates: the universality of the speed of light. Lorentz transformations are obtained by a quantum mechanism. We use the fact that quantum states depend on the Galilean reference frame where they are defined. In other words, quantum states outside an observer's Galilean reference frame are distorted. Then, we show in a theorem the existence of time-dependent observables that are sensible to this distortion in such a way that their expectation value is a Lorentz-covariant function of time. We then postulate this mechanism as the source of the phenomena of Special Relativity. As a corollary of the main theorem, we show the existence of a Lorentz covariant momentum and mass operators which yield the relativistic momentum and mass. In this theory, the fundamental limit of the speed of light imposes a transparency condition for faster-than-light particles: they are allowed but they are not observable. The transparency effect could explain dark matter in a more general theory following this quantum formalism.
翻訳日:2024-02-28 00:37:28 公開日:2024-02-24
# Convex Global and Local Constraintsによるフェデレーション学習

Federated Learning with Convex Global and Local Constraints ( http://arxiv.org/abs/2310.10117v2 )

ライセンス: Link先を確認
Chuan He, Le Peng, Ju Sun(参考訳) 実際には、多くの機械学習(ML)問題には制約が伴い、その適用領域には、例えばヘルスケアにおいて他人と共有できない分散機密データが含まれる。 このような実践的なシナリオにおける協調学習は、制約のあるML問題に対するフェデレーション学習(FL)や、短い制約のFLを必要とする。 近年のFL技術の発展にもかかわらず、これらの技術は制約のないFL問題にのみ対応している。 このギャップを埋めるため、制約付きfl問題を解決するための汎用アルゴリズムフレームワークを構築するための第一歩を踏み出します。 特に,近似拡張ラグランジアン(AL)法に基づく制約付きML問題に対する新しいFLアルゴリズムを提案する。 凸目標と凸制約とその他の穏やかな条件を仮定し、提案アルゴリズムの最悪の複雑さを確立する。 数値実験により,非凸制約によるNeyman-Pearson分類とフェアネス認識学習をFL設定で行う際のアルゴリズムの有効性が示された。

In practice, many machine learning (ML) problems come with constraints, and their applied domains involve distributed sensitive data that cannot be shared with others, e.g., in healthcare. Collaborative learning in such practical scenarios entails federated learning (FL) for ML problems with constraints, or FL with constraints for short. Despite the extensive developments of FL techniques in recent years, these techniques only deal with unconstrained FL problems. To fill this gap, we take the first step toward building a general algorithmic framework for solving FL problems with constraints. In particular, we propose a new FL algorithm for constrained ML problems based on the proximal augmented Lagrangian (AL) method. Assuming convex objective and convex constraints plus other mild conditions, we establish the worst-case complexity of the proposed algorithm. Our numerical experiments show the effectiveness of our algorithm in performing Neyman-Pearson classification and fairness-aware learning with nonconvex constraints, in an FL setting.
翻訳日:2024-02-28 00:28:59 公開日:2024-02-24
# デコヒーレンスはオープン量子システムにおけるアンダーソン局在のエコーである

Decoherence is an echo of Anderson localization in open quantum systems ( http://arxiv.org/abs/2310.09880v2 )

ライセンス: Link先を確認
Frederik Ravn Klausen, Simone Warzel(参考訳) 局所項を持つリンドブラッドマスター方程式により記述された単一粒子量子状態の時間発展について検討する。 リンドブラッド発生器に導かれる幾何解法式を用いて, 時間発展状態や定常状態の位置に基づく非対角行列要素の減衰に関する有限体積型基準を定式化する。 この基準は、非エルミート進化がギャップまたは強い乱れのどちらかである系に対して指数的崩壊をもたらすことが示されている。 このギャップは、例えば、システム内に任意の局所的デファスメントのレベルが存在するときに存在する。 乱の場合の結果は、アンダーソン局在化から開量子系への拡張と見なすことができる。

We study the time evolution of single-particle quantum states described by a Lindblad master equation with local terms. By means of a geometric resolvent equation derived for Lindblad generators, we establish a finite-volume-type criterion for the decay of the off-diagonal matrix elements in the position basis of the time-evolved or steady states. This criterion is shown to yield exponential decay for systems where the non-hermitian evolution is either gapped or strongly disordered. The gap exists for example whenever any level of local dephasing is present in the system. The result in the disordered case can be viewed as an extension of Anderson localization to open quantum systems.
翻訳日:2024-02-28 00:28:42 公開日:2024-02-24
# ダイヤモンドにおけるデコヒーレンス保護量子レジスタの高速変換最適化戦略

Rapid transform optimisation strategy for decoherence-protected quantum register in diamond ( http://arxiv.org/abs/2310.04371v2 )

ライセンス: Link先を確認
Jiazhao Tian, Haibin Liu, Roberto Sailer, Liantuan Xiao, Fedor Jelezko and Ressa S. Said(参考訳) ダイヤモンド中の窒素空色中心に付随するデコヒーレンス保護スピンは、驚くほど長いコヒーレンス時間を持ち、最も有望で堅牢な量子レジスタの1つである。 現在の需要は、これらのレジスタを準備・操作するための実用的な迅速な制御戦略を探ることである。 本研究は,複数の最適化手法を用いて最適化された全マイクロウェーブ制御戦略を提供し,実験的に実現可能であることを示す平滑な近端点制御フィールドの集合を用いて,処理時間を80\%$で大幅に削減する。 さらに、制御フィールドの周波数および振幅不完全条件下でのこれらの戦略のロバスト性を最適化し、分析し、その過程では、わずか16ドルのサンプルを使用して、2500ドルの画素でロバストネスマップを公平に推定する。 全体として、将来的な量子技術応用のためのデコヒーレンス保護量子レジスタによる高性能な情報処理を容易にするための準備的なレシピを提供する。

Decoherence-protected spins associated with nitrogen-vacancy color centers in diamond possess remarkable long coherence time, which make them one of the most promising and robust quantum registers. The current demand is to explore practical rapid control strategies for preparing and manipulating the such register. Our work provides all-microwave control strategies optimized using multiple optimization methods to significantly reduce the processing time by $80\%$ with a set of smooth near-zero-endpoints control fields that are shown to be experimentally realizable. Furthermore, we optimize and analyze the robustness of these strategies under frequency and amplitude imperfections of the control fields, during which process we use only $16$ samples to give a fair estimation of the robustness map with $2500$ pixels. Overall, we provide a ready-to-implement recipe to facilitate high-performance information processing via decoherence-protected quantum register for future quantum technology applications.
翻訳日:2024-02-28 00:28:13 公開日:2024-02-24
# マルチモーダル大言語モデルのためのHalucination Augmented Contrastive Learning

Hallucination Augmented Contrastive Learning for Multimodal Large Language Model ( http://arxiv.org/abs/2312.06968v4 )

ライセンス: Link先を確認
Chaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang(参考訳) マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理する。 しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。 本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。 まず,MLLMにおけるテキストトークンと視覚トークンの表現分布を解析し,2つの重要な知見を明らかにした。 1) テキスト表現と視覚表現の間には大きなギャップがあり, 満足のいくクロスモーダル表現の整合性を示す。 2)幻覚を含まないテキストの表現は絡み合っており,区別が困難である。 これらの2つの観察は、幻覚を緩和するためのシンプルで効果的な方法をもたらした。 具体的には,mllmにコントラスト学習を導入し,幻覚付きテキストを難解な例とし,非幻覚性テキストと視覚的サンプルの表現を自然に近づけながら,非幻覚性テキストと幻覚性テキストの表現をプッシュする。 本手法を定量的かつ定性的に評価し,幻覚発生の低減と複数のベンチマークにおける性能向上に有効であることを示す。 MMhal-Benchベンチマークでは,ベースラインのMiniGPT-4/LLaVAよりも34.66%/29.5%改善した。 私たちのコードはhttps://github.com/X-PLUG/mPLUG-HalOwl/tree/main/haclで利用可能です。

Multi-modal large language models (MLLMs) have been shown to efficiently integrate natural language with visual information to handle multi-modal tasks. However, MLLMs still face a fundamental limitation of hallucinations, where they tend to generate erroneous or fabricated information. In this paper, we address hallucinations in MLLMs from a novel perspective of representation learning. We first analyzed the representation distribution of textual and visual tokens in MLLM, revealing two important findings: 1) there is a significant gap between textual and visual representations, indicating unsatisfactory cross-modal representation alignment; 2) representations of texts that contain and do not contain hallucinations are entangled, making it challenging to distinguish them. These two observations inspire us with a simple yet effective method to mitigate hallucinations. Specifically, we introduce contrastive learning into MLLMs and use text with hallucination as hard negative examples, naturally bringing representations of non-hallucinative text and visual samples closer while pushing way representations of non-hallucinating and hallucinative text. We evaluate our method quantitatively and qualitatively, showing its effectiveness in reducing hallucination occurrences and improving performance across multiple benchmarks. On the MMhal-Bench benchmark, our method obtains a 34.66% /29.5% improvement over the baseline MiniGPT-4/LLaVA. Our code is available on https://github.com/X-PLUG/mPLUG-HalOwl/tree/main/hacl.
翻訳日:2024-02-28 00:20:21 公開日:2024-02-24
# イジング・ハミルトンのための最適クリフォード初期状態

Optimal Clifford Initial States for Ising Hamiltonians ( http://arxiv.org/abs/2312.01036v2 )

ライセンス: Link先を確認
Bikrant Bhattacharyya, Gokul Subramanian Ravi(参考訳) 量子回路の評価は現在非常にノイズが多い。 したがって、ノイズ量子デバイス上で量子回路の回数を最小化する古典的なブートストラップの開発は、変分量子アルゴリズムの実用性を改善するための強力な技術である。 CAFQAは以前に提案された古典的なVQAブートストラップで、初期アンサッツを使用してクリフォード演算子に還元する。 CAFQAは、分子化学ハミルトニアンに適用されたVQAのかなり正確な初期化を生成することが示されている。 この結果に動機づけられた本論文では,新しいタイプのハミルトン系,すなわち横場イジング・ハミルトン系に対するコスト関数を最適化するクリフォード状態の解析を試みる。 その結果, 最適cafqa初期化を求める問題と, 多項式時間で解くことができる部分モジュラー最小化問題とを結びつけた。

Evaluating quantum circuits is currently very noisy. Therefore, developing classical bootstraps that help minimize the number of times quantum circuits have to be executed on noisy quantum devices is a powerful technique for improving the practicality of Variational Quantum Algorithms. CAFQA is a previously proposed classical bootstrap for VQAs that uses an initial ansatz that reduces to Clifford operators. CAFQA has been shown to produce fairly accurate initialization for VQA applied to molecular chemistry Hamiltonians. Motivated by this result, in this paper we seek to analyze the Clifford states that optimize the cost function for a new type of Hamiltonian, namely Transverse Field Ising Hamiltonians. Our primary result connects the problem of finding the optimal CAFQA initialization to a submodular minimization problem which in turn can be solved in polynomial time.
翻訳日:2024-02-28 00:19:44 公開日:2024-02-24
# Stern-Gerlachスピン測定におけるZig-zagダイナミクス

Zig-zag dynamics in a Stern-Gerlach spin measurement ( http://arxiv.org/abs/2311.13406v2 )

ライセンス: Link先を確認
Simon Krekels, Christian Maes, Kasper Meerts, Ward Struyve(参考訳) 1世紀のStern-Gerlachセットアップは、量子測定のパラダイムである。 ボヘミアのジグザグ力学に従って電子軌道を可視化する。 この動力学は、粒子の基本的な質量を持たない性質(ブラウト・エングラート・ヒッグス機構から生じる質量)に対処するために開発された。 対応する軌道は、左利きと右利きのカイラルワイル状態のカップリングの結果、確率的ジグザギングを示す。 このジグザゲングは非相対論的極限に留まり、これはここで考慮され、非一様外部磁場に対するパウリ方程式によって記述される。 以上の結果から,Stern-Gerlach セットアップにおける波動関数の性質やランダム変数としての '`spin''' の異なる意味を明らかにし,有効崩壊の概念を説明する。 EPRペアの症例についても検討した。 絡み合った粒子の一方がスターン・ゲルラッハ装置を通過させることで、他の粒子に対する非局所的な影響(作用-アット-ア-距離)が、例えばジグザギングを開始することによってその軌道に現れる。

The one-century-old Stern-Gerlach setup is paradigmatic for a quantum measurement. We visualize the electron trajectories following the Bohmian zig-zag dynamics. This dynamics was developed in order to deal with the fundamentally massless nature of particles (with mass emerging from the Brout-Englert-Higgs mechanism). The corresponding trajectories exhibit a stochastic zig-zagging, as the result of the coupling between left- and right-handed chiral Weyl states. This zig-zagging persists in the nonrelativistic limit, which will be considered here, and which is described by the Pauli equation for a nonuniform external magnetic field. Our results clarify the different meanings of ``spin'' as a property of the wave function and as a random variable in the Stern-Gerlach setup, and they illustrate the notion of effective collapse. We also examine the case of an EPR-pair. By letting one of the entangled particles pass through a Stern-Gerlach device, the nonlocal influence (action-at-a-distance) on the other particle is manifest in its trajectory, e.g. by initiating its zig-zagging.
翻訳日:2024-02-28 00:18:29 公開日:2024-02-24
# LYT-Net:低光画像強調のための軽量YUVトランスを用いたネットワーク

LYT-Net: Lightweight YUV Transformer-based Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2401.15204v3 )

ライセンス: Link先を確認
A. Brateanu, R. Balmez, A. Avram, C. Orhei(参考訳) 近年、深層学習に基づくソリューションは、画像強調の領域で成功している。 本稿では,低照度画像強調のための新しいアプローチとしてLYT-Net (Lightweight YUV Transformer-based Network)を提案する。 従来のretinexベースのモデルとは異なり、yuv色空間の輝度(y)と色(u,v)の自然な分離を利用して、画像内の光と色情報を分離する複雑なタスクを単純化した。 長距離依存関係をキャプチャする能力で知られるトランスフォーマーの強みを利用することで、LYT-Netはモデル複雑性の低減を維持しながら、画像の包括的なコンテキスト理解を保証する。 提案手法は,新しいハイブリッド損失関数を用いることにより,低光度画像強調データセットにおいて最先端の結果が得られる。 ソースコードと事前訓練されたモデルはhttps://github.com/albrateanu/LYT-Netで入手できる。

In recent years, deep learning-based solutions have proven successful in the domains of image enhancement. This paper introduces LYT-Net, or Lightweight YUV Transformer-based Network, as a novel approach for low-light image enhancement. The proposed architecture, distinct from conventional Retinex-based models, leverages the YUV color space's natural separation of luminance (Y) and chrominance (U and V) to simplify the intricate task of disentangling light and color information in images. By utilizing the strengths of transformers, known for their capability to capture long-range dependencies, LYT-Net ensures a comprehensive contextual understanding of the image while maintaining reduced model complexity. By employing a novel hybrid loss function, our proposed method achieves state-of-the-art results on low-light image enhancement datasets, all while being considerably more compact than its counterparts. The source code and pre-trained models are available at https://github.com/albrateanu/LYT-Net
翻訳日:2024-02-28 00:12:41 公開日:2024-02-24
# 潜在空間における生成的ヒューマンモーションスタイライゼーション

Generative Human Motion Stylization in Latent Space ( http://arxiv.org/abs/2401.13505v2 )

ライセンス: Link先を確認
Chuan Guo, Yuxuan Mu, Xinxin Zuo, Peng Dai, Youliang Yan, Juwei Lu, Li Cheng(参考訳) ヒューマンモーションスタイライゼーションは、コンテンツを変更せずに入力モーションのスタイルを改訂することを目的としている。 ポーズ空間で直接動作する既存の作品とは異なり、プリトレーニングされたオートエンコーダの潜在空間を、より表現力が高くロバストな動き抽出と注入の表現として活用する。 そこで本研究では,単一動作 (latent) 符号の多様なスタイライゼーション結果を生成する新しい生成モデルを提案する。 トレーニング中、動作コードは、決定論的コンテンツコードと、事前分布に固執する確率論的スタイルコードとに分解され、生成器は、コンテンツとスタイルコードのランダムな組み合わせをマッサージして対応する動作コードを再構築する。 私たちのアプローチは多用途であり、ラベル付きまたはラベルなしの動作から確率的なスタイル空間を学ぶことができ、スタイリゼーションにも顕著な柔軟性を提供する。 推論では、ユーザーは参照動作やラベルからスタイルキューを使用して動きをスタイル化することができる。 明示的なスタイル入力がなくても,無条件スタイル事前分布からサンプリングすることで,新しい再スタイライゼーションが容易になる。 実験の結果,提案するスタイリゼーションモデルは,軽量な設計にもかかわらず,様々なアプリケーションや設定において最先端のスタイル再現,コンテンツ保存,一般化を上回っていることがわかった。 プロジェクトページ: https://murrol.github.io/genmostyle

Human motion stylization aims to revise the style of an input motion while keeping its content unaltered. Unlike existing works that operate directly in pose space, we leverage the latent space of pretrained autoencoders as a more expressive and robust representation for motion extraction and infusion. Building upon this, we present a novel generative model that produces diverse stylization results of a single motion (latent) code. During training, a motion code is decomposed into two coding components: a deterministic content code, and a probabilistic style code adhering to a prior distribution; then a generator massages the random combination of content and style codes to reconstruct the corresponding motion codes. Our approach is versatile, allowing the learning of probabilistic style space from either style labeled or unlabeled motions, providing notable flexibility in stylization as well. In inference, users can opt to stylize a motion using style cues from a reference motion or a label. Even in the absence of explicit style input, our model facilitates novel re-stylization by sampling from the unconditional style prior distribution. Experimental results show that our proposed stylization models, despite their lightweight design, outperform the state-of-the-art in style reenactment, content preservation, and generalization across various applications and settings. Project Page: https://murrol.github.io/GenMoStyle
翻訳日:2024-02-28 00:11:49 公開日:2024-02-24
# 多軸測定の簡単な理論

Brief Theory of Multiqubit Measurement ( http://arxiv.org/abs/2401.13122v2 )

ライセンス: Link先を確認
Constantin Usenko(参考訳) マルチキュービット測度の特異性は、主に有限次元ヒルベルト空間を持つ量子オブジェクトのクーディット測度の特異性に類似している。 測定概念の3つの異なる解釈が分析される。 それらのうちの1つは純粋に量子的であり、測定対象の所定の状態について収集されており、非互換な観測可能な測定結果は状態の再構築に十分な量となる。 他の2つは、測定に関与する物理物体の密度行列と密度行列との差を明らかにしている。 フォン・ノイマン・プロジェクターは、可能な純粋状態上のプロジェクターに対する数学的な期待の集合として、キューディット状態の位相像のアイデアを生成する。 位相像は、クディット可観測代数の同一性のすべての分解に対する確率分布を含む。 キューディット対からなる複合系の位相像は、粒子の局所的および条件的位相像を生成する。 エンタングルメントは、条件相像の形状が、他の粒子の測定に使用される可観測物の特性に依存することにより表される。 マルチクビット量子ビットの条件相ポートレートの特性の解析は、マルチクビット分解法に課される実質的な制限がある場合のみ、絡み合いの欠如が可能であることを示している。

Peculiarities of multiqubit measurement are for the most part similar to peculiarities of measurement for qudit -- quantum object with finite-dimensional Hilbert space. Three different interpretations of measurement concept are analysed. One of those is purely quantum and is in collection, for a given state of the object to be measured, of incompatible observable measurement results in amount enough for reconstruction of the state. Two others make evident the difference between the reduced density matrix and the density matrices of physical objects involved in the measurement. It is shown that the von Neumann projectors produce an idea of a phase portrait of qudit state as a set of mathematical expectations for projectors on the possible pure states. The phase portrait includes probability distributions for all the resolutions of identity of the qudit observable algebra. The phase portrait of a composite system comprised by a qudit pair generates local and conditional phase portraits of particles. The entanglement is represented by the dependence of the shape of conditional phase portrait on the properties of the observable used in the measurement for the other particle. Analysis of the properties of a conditional phase portrait of a multiqubit qubits shows that absence of the entanglement is possible only in the case of substantial restrictions imposed on the method of multiqubit decomposition into qubits.
翻訳日:2024-02-28 00:11:25 公開日:2024-02-24
# Leggett-Garg不等式による量子ドット中の電子輸送の量子性:正確なNEGFアプローチ

Quantumness of electron transport in quantum dots through Leggett-Garg inequalities: An exact NEGF Approach ( http://arxiv.org/abs/2401.12502v2 )

ライセンス: Link先を確認
Thingujam Yaiphalemba Meitei, Saikumar Krithivasan, Md. Manirul Ali, and Arijit Sen(参考訳) ナノエレクトロニクスデバイスの非古典的または量子的性質の証人化は、電子状態のコヒーレントなダイナミクスが重要な役割を果たすため、量子技術の新興世界で最も重要な役割を担っている。 電子状態のコヒーレントな操作は、ナノファブリケーションツールを用いて量子ドット(QD)デバイスで実現できるが、そのようなデバイスが量子力学的にどのように振る舞うかはよく分かっていない。 この文脈では、Lggett-Garg不等式(LGI)の枠組みを利用して、2時間相関関数を用いてナノ構造を通して古典的および量子的輸送を区別する。 そこで, 2つの異なる時間における局所電荷検出を用いて, マルコビアンおよび非マルコビアンダイナミクスの下で, 元のlgiの量子違反が存在するかどうかを理論的に検討する。 LGI内の2時間相関子は、量子ランゲヴィン方程式を正確に解くことによって、非平衡グリーン関数(NEGF)によって導出される。 最後に、非古典的電子輸送は、有限バイアスと温度でqdsが電子貯水池と(弱く、強く)結合している状況下で検討される。

Witnessing the nonclassical or quantum nature of nanoelectronic devices is of paramount importance in the emerging world of quantum technologies since the coherent dynamics of electronic states play therein a crucial role. Although coherent manipulation of electronic states can be achieved in quantum dot (QD) devices by harnessing nanofabrication tools, it is often not clear to what extent such devices could behave quantum-mechanically. In this context, we resort to the framework of Leggett-Garg inequalities (LGI) as it allows for distinguishing classical and quantum transport through nanostructures by way of two-time correlation functions. Using local charge detection at two different time, we investigate here theoretically whether any quantum violation of the original LGI exists with varying device configurations and parameters under Markovian as well as non-Markovian dynamics. Two-time correlators within LGI are derived in terms of nonequilibrium Green's functions (NEGFs) by exactly solving the quantum Langevin equation. Finally, nonclassical electronic transport is examined under situations when QDs are coupled (either weakly or strongly) to electronic reservoirs at finite bias and temperature.
翻訳日:2024-02-28 00:11:01 公開日:2024-02-24
# タイムウインドウを用いた車両計画の最適チェーン化

Optimal Chaining of Vehicle Plans with Time Windows ( http://arxiv.org/abs/2401.02873v3 )

ライセンス: Link先を確認
David Fiedler, Fabio V. Difonzo and Jan Mrkos(参考訳) モビリティ・オン・デマンド(MoD)の領域から問題を解決するためには、計画チェインと呼ばれる長い時間にわたる計画に車両計画を接続する必要があります。 本研究で示すように、この計画の連鎖化は、MoDシステムにおける高品質な車両配車ソリューションを提供することにより、MoDプロバイダの車両の規模を縮小する(フライングサイズ問題)だけでなく、総駆動距離の削減にも有効である。 近年,艦隊規模の問題を解決するために,この原理を用いた解法が提案されている。 この方法は計画の時間的柔軟性を考慮しない。 代わりに、計画は時間内に修正され、遅れることはない。 しかしながら、時間の柔軟性は、タイムウインドウのすべての車両問題にとって不可欠な特性である。 本研究は,時間ウィンドウで許容される遅延を考慮した新しい計画連鎖定式化と解法を提案する。 さらに,提案手法が最適であることを証明し,その複雑さを分析した。 最後に, 静的ダイヤル・ア・ライド問題の解法として, 新しいヒューリスティックな車両配車方式を提案する。 その結果,提案手法は最適に解けないほとんどのインスタンスに対して,2つのヒューリスティックなベースラインよりも優れた解を提供することを示した。 同時に,本手法は,ベースラインと比較して計算時間の要求が最大ではない。 したがって,提案手法は理論的に健全な結果を提供するだけでなく,実用的にも適用可能である。

For solving problems from the domain of Mobility-on-Demand (MoD), we often need to connect vehicle plans into plans spanning longer time, a process we call plan chaining. As we show in this work, chaining of the plans can be used to reduce the size of MoD providers' fleet (fleet-sizing problem) but also to reduce the total driven distance by providing high-quality vehicle dispatching solutions in MoD systems. Recently, a solution that uses this principle has been proposed to solve the fleet-sizing problem. The method does not consider the time flexibility of the plans. Instead, plans are fixed in time and cannot be delayed. However, time flexibility is an essential property of all vehicle problems with time windows. This work presents a new plan chaining formulation that considers delays as allowed by the time windows and a solution method for solving it. Moreover, we prove that the proposed plan chaining method is optimal, and we analyze its complexity. Finally, we list some practical applications and perform a demonstration for one of them: a new heuristic vehicle dispatching method for solving the static dial-a-ride problem. The demonstration results show that our proposed method provides a better solution than the two heuristic baselines for the majority of instances that cannot be solved optimally. At the same time, our method does not have the largest computational time requirements compared to the baselines. Therefore, we conclude that the proposed optimal chaining method provides not only theoretically sound results but is also practically applicable.
翻訳日:2024-02-28 00:08:43 公開日:2024-02-24
# 膨張環における異常カシミール効果

Anomalous Casimir effect in an expanding ring ( http://arxiv.org/abs/2402.08610v2 )

ライセンス: Link先を確認
Baptiste Bermond, Adolfo G. Grushin, and David Carpentier(参考訳) カシミール効果は真空の量子的性質のマクロ的な証拠である。 環上では、真空エネルギーに対する有限サイズの補正をもたらす。 この研究で、この真空のエネルギーと圧力は、環の半径が十分に速くなった時、膨張する宇宙の実験的モデルとして追加され、大きな補正が得られることを示した。 この効果は動的カシミール効果とは別のもので、輪の半径の増加によって引き起こされる時空曲率に由来する共形異常の現れである。 この異常な動的カシミール効果は、環のサイズを増大させるのに必要な作業によって測定可能であり、時間とともに非単調になる。

The Casimir effect is a macroscopic evidence of the quantum nature of the vacuum. On a ring, it leads to a finite size correction to the vacuum energy. In this work, we show that this vacuum's energy and pressure acquire additional, sizable corrections, when the ring's radius is increased fast enough, an experimentally accessible model of an expanding universe. This effect is distinct from the dynamical Casimir effect: it is a manifestation of the conformal anomaly, originating from the spacetime curvature induced by the increase of the ring's radius. This anomalous dynamical Casimir effect is measurable through the work necessary to increase the ring size, which becomes non-monotonous in time.
翻訳日:2024-02-28 00:01:54 公開日:2024-02-24
# グラフニューラルネットワークの準同型数:その基礎について

Homomorphism Counts for Graph Neural Networks: All About That Basis ( http://arxiv.org/abs/2402.08595v3 )

ライセンス: Link先を確認
Emily Jin, Michael Bronstein, Ismail Ilkan Ceylan, Matthias Lanzinger(参考訳) グラフニューラルネットワークは、グラフ上で不変関数を学ぶためのアーキテクチャである。 多くの研究がグラフニューラルネットワークの特性を調査し、特に表現力に関するいくつかの制限を特定している。 グラフ内の特定のパターン(例えばサイクル)を数えることのできないことは、そのような制限の中心にある。 2つの顕著なパラダイムは、グラフの特徴をグラフや同型パターン数で豊かにすることで、この制限に対処することを目指している。 本研究では,これら2つのアプローチが,ある意味では準最適であることを示すとともに,対象パターンの「ベイズ」における全ての構造の準同型数を組み込んだ,よりきめ細かいアプローチを主張する。 これにより、既存のアプローチに比べて計算複雑性の面で追加のオーバーヘッドを伴わずに、厳密に表現力のあるアーキテクチャが得られる。 ノードレベルおよびグラフレベルのモチーフパラメータに関する一連の理論的結果が証明され、標準ベンチマークデータセットで実証的に検証される。

Graph neural networks are architectures for learning invariant functions over graphs. A large body of work has investigated the properties of graph neural networks and identified several limitations, particularly pertaining to their expressive power. Their inability to count certain patterns (e.g., cycles) in a graph lies at the heart of such limitations, since many functions to be learned rely on the ability of counting such patterns. Two prominent paradigms aim to address this limitation by enriching the graph features with subgraph or homomorphism pattern counts. In this work, we show that both of these approaches are sub-optimal in a certain sense and argue for a more fine-grained approach, which incorporates the homomorphism counts of all structures in the "basis" of the target pattern. This yields strictly more expressive architectures without incurring any additional overhead in terms of computational complexity compared to existing approaches. We prove a series of theoretical results on node-level and graph-level motif parameters and empirically validate them on standard benchmark datasets.
翻訳日:2024-02-28 00:01:43 公開日:2024-02-24
# Spin: GPUアクセラレーションを備えた効率的なセキュア計算フレームワーク

Spin: An Efficient Secure Computation Framework with GPU Acceleration ( http://arxiv.org/abs/2402.02320v2 )

ライセンス: Link先を確認
Wuxuan Jiang, Xiangjun Song, Shenbai Hong, Haijun Zhang, Wenxin Liu, Bo Zhao, Wei Xu, Yi Li(参考訳) マルチパーティ計算(MPC)フレームワークの精度と効率は依然として課題である。 SpinはGPUアクセラレーションされたMPCフレームワークで、複数の計算パーティと不正な多数対逆設定をサポートする。 我々は,機械学習に不可欠な非線形関数に対する最適化プロトコルと,トランスフォーマーモデルの基本単位である注目に特有のいくつかの新しい最適化を提案し,セキュリティを犠牲にすることなく,非自明なCNNトレーニングとトランスフォーマー推論を実行可能にする。 バックエンドレベルでは、GPU、CPU、RDMA対応のスマートネットワークカードを活用してアクセラレーションを行う。 総合的な評価によると、Spinはディープニューラルネットワークトレーニングの最先端技術よりも最大2\times$が高速である。 189万のパラメータを持つTransformerモデルでの推論では、Spinがより効率良く、通信が少なく、精度が向上する。

Accuracy and efficiency remain challenges for multi-party computation (MPC) frameworks. Spin is a GPU-accelerated MPC framework that supports multiple computation parties and a dishonest majority adversarial setup. We propose optimized protocols for non-linear functions that are critical for machine learning, as well as several novel optimizations specific to attention that is the fundamental unit of Transformer models, allowing Spin to perform non-trivial CNNs training and Transformer inference without sacrificing security. At the backend level, Spin leverages GPU, CPU, and RDMA-enabled smart network cards for acceleration. Comprehensive evaluations demonstrate that Spin can be up to $2\times$ faster than the state-of-the-art for deep neural network training. For inference on a Transformer model with 18.9 million parameters, our attention-specific optimizations enable Spin to achieve better efficiency, less communication, and better accuracy.
翻訳日:2024-02-27 23:58:36 公開日:2024-02-24
# グローバーの探索アルゴリズムの強化:良い状態の確率を高めるための改良されたアプローチ

Enhancing Grover's Search Algorithm: A Modified Approach to Increase the Probability of Good States ( http://arxiv.org/abs/2402.00082v3 )

ライセンス: Link先を確認
Ismael Abdulrahman(参考訳) 本稿では,Grover検索アルゴリズムを改良し,アルゴリズムの初期イテレーションにおける良好な状態を見つける可能性を高める。 これは (y+z) 軸のまわりに回転ゲートを組み込むことを提案し、その位相は初期反復時の微分器出力の微分から数学的に決定される。 さらに、連続反復の振幅の推定増加率に基づいて位相角を調整することにより最適化する。 以上の結果から,目標状態の特定に要する反復回数が約28%減少し,全体のプロセスが高速化されたことが示唆された。 シミュレーションに使用されるコンピュータの計算能力を考慮すると、このアプローチは、最大12キュービットのインスタンスや4096の検索エントリの組み合わせを含む様々なシナリオに適用される。

This article introduces an enhancement to the Grover search algorithm to increase the probability of finding good states in the early iterations of the algorithm. It suggests incorporating a rotation gate around the (y+z)-axis, with its phase determined mathematically from the derivative of the diffuser output during the initial iteration. Furthermore, the phase angles are optimized through adjustments based on the estimated increasing ratio of amplitudes of consecutive iterations. The findings indicate a noteworthy decrease, around 28%, in the required number of iterations to attain a high probability of identifying target states resulting in a faster overall process. Considering the computational capabilities of the computer used for simulation, the approach is applied across various scenarios, including instances with up to twelve qubits or equivalently 4096 possible combination of search entries.
翻訳日:2024-02-27 23:57:44 公開日:2024-02-24
# マルチモデル推論を用いたsteered mixed of expertsを用いたoct画像のノイズ除去

Denoising OCT Images Using Steered Mixture of Experts with Multi-Model Inference ( http://arxiv.org/abs/2402.12735v2 )

ライセンス: Link先を確認
Ayta\c{c} \"Ozkan, Elena Stoykova, Thomas Sikora and Violeta Madjarova(参考訳) 光コヒーレンス断層撮影(oct)では、スペックルノイズが画像品質を著しく阻害し、診断精度に影響を及ぼす。 従来のフィルタリングやディープラーニング技術を含む現在の手法は、ノイズ低減と詳細保存に制限がある。 これらの課題に対処し,マルチモデル推論とオートエンコーダ(bm-smoe-ae)を用いたブロックマッチング混合アルゴリズムを提案する。 本手法は,SMoEアルゴリズムのブロックマッチング実装と拡張オートエンコーダアーキテクチャを組み合わせることで,重要な画像の詳細を保持しつつ,効率的なスペックルノイズ低減を実現する。 エッジ定義の改善と処理時間の短縮により,提案手法は際立っている。 既存の denoising 技術との比較分析により,画像整合性維持と OCT 画像の有用性向上に BM-SMoE-AE の優れた性能が示された。

In Optical Coherence Tomography (OCT), speckle noise significantly hampers image quality, affecting diagnostic accuracy. Current methods, including traditional filtering and deep learning techniques, have limitations in noise reduction and detail preservation. Addressing these challenges, this study introduces a novel denoising algorithm, Block-Matching Steered-Mixture of Experts with Multi-Model Inference and Autoencoder (BM-SMoE-AE). This method combines block-matched implementation of the SMoE algorithm with an enhanced autoencoder architecture, offering efficient speckle noise reduction while retaining critical image details. Our method stands out by providing improved edge definition and reduced processing time. Comparative analysis with existing denoising techniques demonstrates the superior performance of BM-SMoE-AE in maintaining image integrity and enhancing OCT image usability for medical diagnostics.
翻訳日:2024-02-27 23:51:41 公開日:2024-02-24
# ガウス過程によるペロブスカイト実験からの物理材料パラメータ抽出

Physics-based material parameters extraction from perovskite experiments via Gaussian process ( http://arxiv.org/abs/2402.11101v3 )

ライセンス: Link先を確認
Hualin Zhan, Viqar Ahmad, Azul Mayon, Grace Tabi, Anh Dinh Bui, Zhuofeng Li, Daniel Walter, Hieu Nguyen, Klaus Weber, Thomas White, Kylie Catchpole(参考訳) 実験的分析からペロブスカイトの物質パラメータを抽出する能力は、光電気・光電子応用の合理的な設計に不可欠である。 しかし, この解析の難易度は, 理論モデルの複雑さ, ペロブスカイトの材料パラメータ数の増加とともに著しく増大した。 ここでは,有機金属ペロブスカイト半導体の基本材料パラメータを過渡発光実験から最大8つ抽出できる解析プラットフォームを開発するためにガウス過程を用いて,キャリアのドリフト拡散と動的欠陥占有を含む複雑な全物理モデルに基づいて解析を行う。 熱劣化の例としては、ドーピング濃度とキャリア移動度の変化が支配的であり、欠陥エネルギー準位はほぼ変わらないことが示されている。 このプラットフォームは、他の実験や実験の組み合わせ、材料発見の加速、太陽電池などの半導体材料の最適化などに便利に適用することができる。

The ability to extract material parameters of perovskite from quantitative experimental analysis is essential for rational design of photovoltaic and optoelectronic applications. However, the difficulty of this analysis increases significantly with the complexity of the theoretical model and the number of material parameters for perovskite. Here we use Gaussian process to develop an analysis platform that can extract up to 8 fundamental material parameters of an organometallic perovskite semiconductor from a transient photoluminescence experiment, based on a complex full physics model that includes drift-diffusion of carriers and dynamic defect occupation. An example study of thermal degradation reveals that changes in doping concentration and carrier mobility dominate, while the defect energy level remains nearly unchanged. This platform can be conveniently applied to other experiments or to combinations of experiments, accelerating materials discovery and optimization of semiconductor materials for photovoltaics and other applications.
翻訳日:2024-02-27 23:49:02 公開日:2024-02-24
# ロボットにおけるLLM/VLMの配置の安全性に関する考察 : リスクと脆弱性の強調

On the Safety Concerns of Deploying LLMs/VLMs in Robotics: Highlighting the Risks and Vulnerabilities ( http://arxiv.org/abs/2402.10340v3 )

ライセンス: Link先を確認
Xiyang Wu, Ruiqi Xian, Tianrui Guan, Jing Liang, Souradip Chakraborty, Fuxiao Liu, Brian Sadler, Dinesh Manocha, Amrit Singh Bedi(参考訳) 本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題について述べる。 最近の研究は、操作やナビゲーションなどのロボティクスタスクの性能向上にLLMとVLMを使うことに重点を置いている。 しかし、そのような統合は言語モデルによる敵対的攻撃への感受性において重大な脆弱性をもたらし、破滅的な結果をもたらす可能性がある。 LLM/VLMとロボティクスのインターフェースにおける最近の研究から,ロボットの動作を操作あるいは誤操作しやすく,安全性を損なうことが示唆された。 我々は,いくつかの可逆的攻撃の例を定義し,これらの攻撃に対する感受性を評価するために,KnowNo VIMAやInstruct2Actを含む言語モデルと統合された3つの著名なロボットフレームワークの実験を行った。 実験により,LLM/VLM-ロボット統合システムの重大な脆弱性が明らかとなった。 特に,本研究では,プロンプト攻撃時の平均性能低下は21.2%,知覚攻撃では30.2%であった。 これらの結果は、先進的なLLM/VLMベースのロボットシステムの安全で信頼性の高い展開を保証するための堅牢な対策の必要性を強調している。

In this paper, we highlight the critical issues of robustness and safety associated with integrating large language models (LLMs) and vision-language models (VLMs) into robotics applications. Recent works have focused on using LLMs and VLMs to improve the performance of robotics tasks, such as manipulation, navigation, etc. However, such integration can introduce significant vulnerabilities, in terms of their susceptibility to adversarial attacks due to the language models, potentially leading to catastrophic consequences. By examining recent works at the interface of LLMs/VLMs and robotics, we show that it is easy to manipulate or misguide the robot's actions, leading to safety hazards. We define and provide examples of several plausible adversarial attacks, and conduct experiments on three prominent robot frameworks integrated with a language model, including KnowNo VIMA, and Instruct2Act, to assess their susceptibility to these attacks. Our empirical findings reveal a striking vulnerability of LLM/VLM-robot integrated systems: simple adversarial attacks can significantly undermine the effectiveness of LLM/VLM-robot integrated systems. Specifically, our data demonstrate an average performance deterioration of 21.2% under prompt attacks and a more alarming 30.2% under perception attacks. These results underscore the critical need for robust countermeasures to ensure the safe and reliable deployment of the advanced LLM/VLM-based robotic systems.
翻訳日:2024-02-27 23:48:45 公開日:2024-02-24
# CHEAT: ChatGPT-writtEn AbsTractsを検出する大規模データセット

CHEAT: A Large-scale Dataset for Detecting ChatGPT-writtEn AbsTracts ( http://arxiv.org/abs/2304.12008v2 )

ライセンス: Link先を確認
Peipeng Yu, Jiahan Chen, Xuan Feng, Zhihua Xia(参考訳) ChatGPTの強力な能力は、学術界で広く関心を集めている。 悪意のあるユーザはChatGPTを通じてダミーな学術コンテンツを合成することができる。 ChatGPTで書かれたコンテンツ検出アルゴリズムを開発するためには、大規模なデータセットが必要である。 本稿ではまず,ChatGPTが学界に与える影響について検討し,大規模なCHatGPT-writtEn AbsTractデータセット(CHEAT)を用いて検出アルゴリズムの開発を支援する。 特に、ChatGPTで書かれた抽象データセットは、ジェネレーション、ポーランド、ミックスを代表とする35,304の合成抽象化を含んでいる。 これらのデータに基づいて,既存のテキスト合成検出アルゴリズムの徹底的な解析を行う。 本稿では,ChatGPTで記述した抽象化が検出可能であるとともに,人間の関与によって検出困難が増大していることを示し,データセットはhttps://github.com/botianzhe/CHEATで公開されている。

The powerful ability of ChatGPT has caused widespread concern in the academic community. Malicious users could synthesize dummy academic content through ChatGPT, which is extremely harmful to academic rigor and originality. The need to develop ChatGPT-written content detection algorithms call for large-scale datasets. In this paper, we initially investigate the possible negative impact of ChatGPT on academia,and present a large-scale CHatGPT-writtEn AbsTract dataset (CHEAT) to support the development of detection algorithms. In particular, the ChatGPT-written abstract dataset contains 35,304 synthetic abstracts, with Generation, Polish, and Mix as prominent representatives. Based on these data, we perform a thorough analysis of the existing text synthesis detection algorithms. We show that ChatGPT-written abstracts are detectable, while the detection difficulty increases with human involvement.Our dataset is available in https://github.com/botianzhe/CHEAT.
翻訳日:2024-02-27 22:00:49 公開日:2024-02-24
# ラベル付きデータからのチェーン・オブ・サートによる自動プロンプト増大と選択

Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data ( http://arxiv.org/abs/2302.12822v2 )

ライセンス: Link先を確認
KaShun Shum, Shizhe Diao, Tong Zhang(参考訳) CoT(Chain-of- Thought prompting)は、大規模言語モデル(LLM)の推論能力を高め、算術、常識、シンボリック推論タスクにおいて優れたパフォーマンスを達成する。 しかし、ほとんどのCoT研究は、言語モデルを促進するために慎重に設計された有理連鎖に依存しており、有理連鎖なしでラベル付きトレーニングデータが利用できる現実世界のアプリケーションに課題をもたらす。 これにより、これらの一般的なタスクに刺激するCoTの応用に対する障壁が生じる。 本稿では,CoTの人為的エンジニアリングを回避し,ラベル付きデータセットから有理連鎖を自動的に拡張し,低品質な連鎖を抽出して,ラベルに基づく機械生成有理連鎖の候補プールを構築する,Automate-CoT(Automatic Prompt Augmentation and Selection with Chain-of-Thought)を提案する。 最後に、分散還元政策勾配戦略を用いて、COTのためのプールから複数の有理連鎖の最適組み合わせを選択し、ブラックボックス言語モデルにおける各例の意義を推定する。 Automate-CoTは、CoTテクニックをさまざまなタスクに迅速に適応できる。 実験結果から,算術的推論(+2.7\%),コモンセンス推論(+3.4\%),記号的推論(+3.2\%),非推論タスク(+2.5\%)が得られた。 私たちのコードはhttps://github.com/shizhediao/automate-cotで利用可能です。

Chain-of-thought prompting (CoT) advances the reasoning abilities of large language models (LLMs) and achieves superior performance in arithmetic, commonsense, and symbolic reasoning tasks. However, most CoT studies rely on carefully designed human-annotated rational chains to prompt the language model, which poses challenges for real-world applications where labeled training data is available without human-annotated rational chains. This creates barriers to applications of CoT prompting to these general tasks. This paper proposes a new strategy, Automate-CoT (Automatic Prompt Augmentation and Selection with Chain-of-Thought), that can bypass human engineering of CoTs by automatically augmenting rational chains from a small labeled dataset, and then pruning low-quality chains to construct a candidate pool of machine-generated rationale chains based on the labels. Finally, it selects the optimal combination of several rationale chains from the pool for CoT prompting by employing a variance-reduced policy gradient strategy to estimate the significance of each example in a black-box language model. Automate-CoT enables a quick adaptation of the CoT technique to different tasks. Experimental results demonstrate the effectiveness of our method, where state-of-the-art results are achieved on arithmetic reasoning (+2.7\%), commonsense reasoning (+3.4\%), symbolic reasoning (+3.2\%), and non-reasoning tasks (+2.5\%). Our code will be available at https://github.com/shizhediao/automate-cot.
翻訳日:2024-02-27 22:00:15 公開日:2024-02-24
# ExBluRF:Extreme Motion Blurred画像のための高効率放射場

ExBluRF: Efficient Radiance Fields for Extreme Motion Blurred Images ( http://arxiv.org/abs/2309.08957v3 )

ライセンス: Link先を確認
Dongwoo Lee, Jeongtaek Oh, Jaesung Rim, Sunghyun Cho and Kyoung Mu Lee(参考訳) 本稿では,効率的な放射場最適化に基づく極端運動ぼかし画像の新しいビュー合成法であるExBluRFを提案する。 提案手法は,6-DOFカメラトラジェクトリに基づく運動ぼけの定式化とボクセルベースの放射場からなる。 極めてぼやけた画像から、ぼやけた画像を生成するカメラの軌跡を共同で推定し、シャープな輝度場を最適化する。 トレーニングでは、カメラ軌道に沿った複数の光を蓄積して、物理的な動きぼけ操作に相当する単一のぼやけた色を再構成する。 ぼやけた画像空間におけるフォトコンシステンシー損失を最小限に抑え、全画像のぼやけを説明するカメラ軌跡を持つ鋭い輝度場を得る。 ぼやけた画像空間における共同最適化は、そのぼやけたサイズに比例した計算と資源の激増を要求する。 MLPベースのフレームワークを低次元の6-DOFカメラポーズとボクセルベースの放射場に置き換えることで,この問題を解決する。 既存の作品と比較して、より鮮明な3dシーンを10倍のトレーニング時間とgpuメモリ消費で、動きのぼやけたビューから復元する。

We present ExBluRF, a novel view synthesis method for extreme motion blurred images based on efficient radiance fields optimization. Our approach consists of two main components: 6-DOF camera trajectory-based motion blur formulation and voxel-based radiance fields. From extremely blurred images, we optimize the sharp radiance fields by jointly estimating the camera trajectories that generate the blurry images. In training, multiple rays along the camera trajectory are accumulated to reconstruct single blurry color, which is equivalent to the physical motion blur operation. We minimize the photo-consistency loss on blurred image space and obtain the sharp radiance fields with camera trajectories that explain the blur of all images. The joint optimization on the blurred image space demands painfully increasing computation and resources proportional to the blur size. Our method solves this problem by replacing the MLP-based framework to low-dimensional 6-DOF camera poses and voxel-based radiance fields. Compared with the existing works, our approach restores much sharper 3D scenes from challenging motion blurred views with the order of 10 times less training time and GPU memory consumption.
翻訳日:2024-02-27 21:53:53 公開日:2024-02-24
# 反復行動計数法の進歩:性能改善を伴う関節型PoseRACモデル

Advancements in Repetitive Action Counting: Joint-Based PoseRAC Model With Improved Performance ( http://arxiv.org/abs/2308.08632v2 )

ライセンス: Link先を確認
Haodong Chen, Ming C. Leu, Md Moniruzzaman, Zhaozheng Yin, Solmaz Hajmohammadi(参考訳) 反復カウント(RepCount)は、フィットネストラッキングやリハビリテーションなどの様々な応用において重要である。 以前は、アクション反復数を特定するために赤緑青フレームとボディポーズランドマークの推定に頼っていたが、これらの方法は、カメラ視点の変化を安定的に扱えないこと、オーバーカウント、アンダーカウンティング、サブアクションの区別が難しいこと、サリアンポーズの認識における不正確さなど、多くの問題に悩まされていた。 本稿では, [1] が行った研究に基づいて, これらの課題に対処し, 最先端の RepCount 法よりも優れた結果を得るために, 平均 0.211 の 平均絶対誤差 (MAE) と, オフバイワン (OBO) の 0.599 の精度を持つ RepCount データセット [2] と組み合わせた。 総合的な実験結果から,本手法の有効性とロバスト性を示した。

Repetitive counting (RepCount) is critical in various applications, such as fitness tracking and rehabilitation. Previous methods have relied on the estimation of red-green-and-blue (RGB) frames and body pose landmarks to identify the number of action repetitions, but these methods suffer from a number of issues, including the inability to stably handle changes in camera viewpoints, over-counting, under-counting, difficulty in distinguishing between sub-actions, inaccuracy in recognizing salient poses, etc. In this paper, based on the work done by [1], we integrate joint angles with body pose landmarks to address these challenges and achieve better results than the state-of-the-art RepCount methods, with a Mean Absolute Error (MAE) of 0.211 and an Off-By-One (OBO) counting accuracy of 0.599 on the RepCount data set [2]. Comprehensive experimental results demonstrate the effectiveness and robustness of our method.
翻訳日:2024-02-27 21:53:13 公開日:2024-02-24
# 因果探究の幾何学的表記法

A Geometric Notion of Causal Probing ( http://arxiv.org/abs/2307.15054v3 )

ライセンス: Link先を確認
Cl\'ement Guerner, Anej Svete, Tianyu Liu, Alexander Warstadt, Ryan Cotterell(参考訳) 線形部分空間仮説 (Bolukbasi et al., 2016) は、言語モデルの表現空間において、動詞数のような概念に関するすべての情報が線形部分空間に符号化されていることを述べる。 先行研究は、この仮説を支持する可能性のある候補部分空間を識別し評価するために、補助的な分類タスクに依存してきた。 代わりに、理想的な線形概念部分空間を特徴付ける固有の基準のセットを与え、言語モデル分布のみを用いて部分空間を識別できるようにする。 情報理論の枠組みは、表現空間における突発的に相関した特徴(Kumar et al., 2022。 この分析の副産物として、言語モデルが生成中に概念をどのように活用するかの因果プロセスを仮定する。 経験的に、leace (belrose et al., 2023) は動詞数のための枠組みの下で、概念情報のおよそ半分を含む1次元部分空間を返す。 制御された生成に対する因果的介入は、少なくとも1つの概念において、LEACEによって返される部分空間は、生成された単語の概念値を精度良く操作できることを示している。

The linear subspace hypothesis (Bolukbasi et al., 2016) states that, in a language model's representation space, all information about a concept such as verbal number is encoded in a linear subspace. Prior work has relied on auxiliary classification tasks to identify and evaluate candidate subspaces that might give support for this hypothesis. We instead give a set of intrinsic criteria which characterize an ideal linear concept subspace and enable us to identify the subspace using only the language model distribution. Our information-theoretic framework accounts for spuriously correlated features in the representation space (Kumar et al., 2022). As a byproduct of this analysis, we hypothesize a causal process for how a language model might leverage concepts during generation. Empirically, we find that LEACE (Belrose et al., 2023) returns a one-dimensional subspace containing roughly half of total concept information under our framework for verbal-number. Our causal intervention for controlled generation shows that, for at least one concept, the subspace returned by LEACE can be used to manipulate the concept value of the generated word with precision.
翻訳日:2024-02-27 21:52:51 公開日:2024-02-24
# BUS:ボトムアップパッチ要約による視覚言語事前学習の効率化

BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization ( http://arxiv.org/abs/2307.08504v2 )

ライセンス: Link先を確認
Chaoya Jiang, Haiyang Xu, Wei Ye, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Fei Huang, Songfang Huang(参考訳) Vision Transformer (ViT) ベースのVision-Language Pre-Training (VLP) モデルは、様々なタスクで顕著なパフォーマンスを示している。 しかし、ViTに供給される長い視覚トークン配列は、トレーニングの非効率性と非効率性をもたらす。 既存の取り組みでは、vitバックボーンのボトムレベルパッチ抽出と、トレーニング効率と有効性のバランスをとるのではなく、外部のトップレベルパッチ抽象化のどちらでも課題に対処している。 自然言語処理におけるテキスト要約に着想を得て,ボトムアップ・パッチ・サマリゼーション手法BUSを提案し,ボトムアップ・パッチ・サマリゼーションとボトムレベル抽出のコーディネートを行い,視覚的トークン列の簡潔な要約を効率的に学習する。 具体的には,vitバックボーンにtsps(text-semantics-aware patch selector)を組み込んで粗粒度のビジュアルトークン抽出を行い,上位レベルのビジュアル抽象化のためのバックボーンにフレキシブルトランスフォーマベースのパッチ抽象化デコーダ(pad)をアタッチする。 このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり改善したりすることができます。 様々な視覚言語理解・生成タスクに対するアプローチを評価し, 学習効率を50%向上させながら, 競争力の高い下流タスク性能を示す。 さらに,入力画像の解像度を向上し,ベースラインの計算コストを増大させることなく,多くのダウンストリームタスクにおける最先端性能を実現する。

Vision Transformer (ViT) based Vision-Language Pre-training (VLP) models have demonstrated impressive performance in various tasks. However, the lengthy visual token sequences fed into ViT can lead to training inefficiency and ineffectiveness. Existing efforts address the challenge by either bottom-level patch extraction in the ViT backbone or top-level patch abstraction outside, not balancing training efficiency and effectiveness well. Inspired by text summarization in natural language processing, we propose a Bottom-Up Patch Summarization approach named BUS, coordinating bottom-level extraction and top-level abstraction to learn a concise summary of lengthy visual token sequences efficiently. Specifically, We incorporate a Text-Semantics-Aware Patch Selector (TSPS) into the ViT backbone to perform a coarse-grained visual token extraction and then attach a flexible Transformer-based Patch Abstraction Decoder (PAD) upon the backbone for top-level visual abstraction. This bottom-up collaboration enables our BUS to yield high training efficiency while maintaining or even improving effectiveness. We evaluate our approach on various visual-language understanding and generation tasks and show competitive downstream task performance while boosting the training efficiency by 50\%. Additionally, our model achieves state-of-the-art performance on many downstream tasks by increasing input image resolution without increasing computational costs over baselines.
翻訳日:2024-02-27 21:52:32 公開日:2024-02-24
# Mobile-Env: LLM-GUIインタラクションの評価プラットフォームとベンチマーク

Mobile-Env: An Evaluation Platform and Benchmark for LLM-GUI Interaction ( http://arxiv.org/abs/2305.08144v3 )

ライセンス: Link先を確認
Danyang Zhang, Hongshen Xu, Zihan Zhao, Lu Chen, Ruisheng Cao, Kai Yu(参考訳) ユーザインタフェース(ui)は、機械の効率的な制御、情報ナビゲーション、複雑なタスクの完了を容易にするデジタル世界とのヒューマンインタラクションにおいて重要である。 簡単で効率的で自由な対話を実現するため、研究者は従来のプログラミング言語インタフェース(PLI)とグラフィカルユーザインタフェース(GUI)を自然言語インタフェース(NLI)にカプセル化する可能性を模索してきた。 しかし、小さなモデルの能力が限られているため、従来の作業は主に1ステップしか必要としないタスクに焦点を当てている。 これは主にNLIの適用を制限する。 近年,大規模言語モデル (llm) はロバストな推論と計画能力を示しているが,複雑な環境におけるマルチターン対話の可能性は未検討のままである。 実世界のグラフィカル環境において,LLMをNLIとして評価するために,モバイルアプリケーションを中心にGUIインタラクションプラットフォームであるMobile-Envを紹介する。 mobile-envは、以前の環境と比較して、インタラクションの柔軟性、タスクの拡張性、環境適応性を高める。 WikiHowアプリに基づくGUIタスクセットはMobile-Envで収集され、さまざまなGUIインタラクション機能をカバーするベンチマークを形成する。 GPT, LLaMA 2 および AgentLM の様々なバージョンを含む LLM エージェントを WikiHow タスクで総合的に評価し,GUI インタラクションにおける LLM の可能性と課題について考察する。

The User Interface (UI) is pivotal for human interaction with the digital world, facilitating efficient control of machines, information navigation, and complex task completion. To achieve easy, efficient, and free interactions, researchers have been exploring the potential of encapsulating the traditional Programming Language Interfaces (PLIs) and Graphical User Interfaces (GUIs) into Natural Language Interfaces (NLIs). However, due to the limited capabilities of small models, traditional work mainly focuses on tasks for which only a single step is needed. This largely constrains the application of NLIs. Recently, Large Language Models (LLMs) have exhibited robust reasoning and planning abilities, yet their potential for multi-turn interactions in complex environments remains under-explored. To assess LLMs as NLIs in real-world graphical environments, we introduce the GUI interaction platform, Mobile-Env, specifically on mobile apps. Mobile-Env enhances interaction flexibility, task extensibility, and environment adaptability compared with previous environments. A GUI task set based on WikiHow app is collected on Mobile-Env to form a benchmark covering a range of GUI interaction capabilities. We further conduct comprehensive evaluations of LLM agents, including various versions of GPT, LLaMA 2, and AgentLM, on WikiHow task set to acquire insights into the potentials and challenges of LLMs in GUI interactions.
翻訳日:2024-02-27 21:51:17 公開日:2024-02-24
# 擬似画像キャプションのマルチモーダル要約への応用

Exploiting Pseudo Image Captions for Multimodal Summarization ( http://arxiv.org/abs/2305.05496v2 )

ライセンス: Link先を確認
Chaoya Jiang, Rui Xie, Wei Ye, Jinan Sun, Shikun Zhang(参考訳) vision language pretraining(vlp)におけるクロスモーダルコントラスト学習は、(部分的な)偽陰性の問題に直面している。 本稿では,相互情報(MI)最適化の観点からこの問題を考察する。 対照的な学習で使用されるInfoNCE損失は、アンカーと正のMIの低い境界を最大化するが、理論上は、ノイズが一般的に存在する場合にも、負のMIが重要であることを証明している。 最適化のためのより一般的な下界形式によって導かれ、段階的に改良されたクロスモーダルな類似性によって制御される対照的な学習戦略を提案し、画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。 提案手法は,下流の4つのクロスモーダルタスクと,(部分的な)偽陰性サンプルの有益かつ有害な効果を,理論的指導下で体系的にバランスをとる。

Cross-modal contrastive learning in vision language pretraining (VLP) faces the challenge of (partial) false negatives. In this paper, we study this problem from the perspective of Mutual Information (MI) optimization. It is common sense that InfoNCE loss used in contrastive learning will maximize the lower bound of MI between anchors and their positives, while we theoretically prove that MI involving negatives also matters when noises commonly exist. Guided by a more general lower bound form for optimization, we propose a contrastive learning strategy regulated by progressively refined cross-modal similarity, to more accurately optimize MI between an image/text anchor and its negative texts/images instead of improperly minimizing it. Our method performs competitively on four downstream cross-modal tasks and systematically balances the beneficial and harmful effects of (partial) false negative samples under theoretical guidance.
翻訳日:2024-02-27 21:50:54 公開日:2024-02-24
# Search-in-the-Chain:知識集約型タスクによる大規模言語モデルの対話的強化

Search-in-the-Chain: Interactively Enhancing Large Language Models with Search for Knowledge-intensive Tasks ( http://arxiv.org/abs/2304.14732v7 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-Seng Chua(参考訳) 大規模言語モデル(llm)が生成するコンテンツの正確性、信頼性、トレーサブル性は、特にマルチステップ推論を必要とする複雑な知識集約型タスクにおいて重要であり、各ステップには解決すべき知識が必要である。 検索型生成は、この問題を解決する良い可能性である。 しかし、IR(Information Retrieval)をLLMに導入する方法は大きな課題です。 これまでの研究では、IRが取得した誤った知識がLLMを誤解させ、IRとLLMの相互作用がLLMの推論連鎖を破る問題があった。 本稿では, LLM と IR の相互作用を解消するための新しいフレームワーク SearChain (textbf{Search-in-the-Chain}) を提案する。 まず、LLMはChain-of-Query (CoQ) と呼ばれる推論チェーンを生成し、各ノードはIR指向のクエリ-問合せペアで構成されている。 次に、IRは、CoQの各ノードの答えを検証する。 IRが高い信頼を与えると、取得した情報と一致しない回答が修正され、信頼性が向上する。 第3に、llmはcoqに欠けている知識を示し、irに依存してllmにこの知識を提供する。 これらの操作は推論と知識の観点から精度を向上させる。 最後に、searchainは推論プロセスを生成し、各推論ステップでサポートドキュメントへの参照をマークする。 SearChainにおけるIRとの相互作用は、木に基づく新しい推論経路を形成し、LLMが推論の方向を動的に変更できるようにする。 実験の結果,マルチホップq\&a,スロット充填,ファクトチェック,ロングフォームq\&aといった複雑な知識集約タスクでは,検索が最先端のベースラインを上回ることがわかった。

Making the content generated by Large Language Model (LLM), accurate, credible and traceable is crucial, especially in complex knowledge-intensive tasks that require multi-step reasoning and each step needs knowledge to solve. Retrieval-augmented generation is good potential to solve this problem. However, where and how to introduce Information Retrieval (IR) to LLM is a big challenge. Previous work has the problems that wrong knowledge retrieved by IR misleads the LLM and interaction between IR and LLM breaks the reasoning chain of LLM. This paper proposes a novel framework named \textbf{Search-in-the-Chain} (SearChain) for the interaction between LLM and IR to solve the challenges. First, LLM generates the reasoning chain named Chain-of-Query (CoQ) where each node consists of an IR-oriented query-answer pair. Second, IR verifies the answer of each node of CoQ. It corrects the answer that is not consistent with the retrieved information when IR gives high confidence, which improves the credibility. Third, LLM can indicate its missing knowledge in CoQ and rely on IR to provide this knowledge to LLM. These operations improve the accuracy in terms of reasoning and knowledge. Finally, SearChain generates the reasoning process and marks references to supporting documents for each reasoning step, which improves traceability. Interaction with IR in SearChain forms a novel reasoning path based on a tree, which enables LLM to dynamically modify the direction of reasoning. Experiments show that SearChain outperforms state-of-the-art baselines on complex knowledge-intensive tasks including multi-hop Q\&A, slot filling, fact checking, and long-form Q\&A.
翻訳日:2024-02-27 21:49:56 公開日:2024-02-24
# グラフ記述順序が大規模言語モデルによる推論を改善する

Graph Descriptive Order Improves Reasoning with Large Language Model ( http://arxiv.org/abs/2402.07140v3 )

ライセンス: Link先を確認
Yuyao Ge, Shenghua Liu, Wenjie Feng, Lingrui Mei, Lizhe Chen, Xueqi Cheng(参考訳) 近年、大規模言語モデルは複数のドメインで最先端のパフォーマンスを実現している。 しかし、LLMによるグラフ推論の分野の進歩は依然として限られている。 LLMによるグラフ推論を徹底的に研究することで、このギャップを埋めることができます。 本研究では,LLMのグラフ推論性能にグラフ記述順序が与える影響を明らかにする。 この順序を変更することにより, LLMの性能を42.22\%から70\%に向上する。 さらに,LLMの性能を様々なグラフサイズで評価するためのスケールドグラフ推論ベンチマークを導入し,LLMのグラフ推論能力とグラフサイズとの関係を評価する。 LLMのグラフ推論性能はグラフサイズの増加とともに単調に低下しないことがわかった。 実験は、GPT-3.5、LLaMA-2-7B、LLaMA-2-13Bを含むいくつかの主流モデルにまたがって、包括的な評価を提供する。

In recent years, large language models have achieved state-of-the-art performance across multiple domains. However, the progress in the field of graph reasoning with LLM remains limited. Our work delves into this gap by thoroughly investigating graph reasoning with LLMs. In this work, we reveal the impact of the order of graph description on LLMs' graph reasoning performance, which significantly affects LLMs' reasoning abilities. By altering this order, we enhance the performance of LLMs from 42.22\% to 70\%. Furthermore, we introduce the Scaled Graph Reasoning benchmark for assessing LLMs' performance across various graph sizes and evaluate the relationship between LLMs' graph reasoning abilities and graph size. We discover that the graph reasoning performance of LLMs does not monotonically decrease with the increase in graph size. The experiments span several mainstream models, including GPT-3.5, LLaMA-2-7B, and LLaMA-2-13B, to offer a comprehensive evaluation.
翻訳日:2024-02-27 21:42:50 公開日:2024-02-24
# DetectGPTは摂動をフル活用しているか? 微調整されたコントラスト学習検出器への橋梁選択摂動が良い

Does DetectGPT Fully Utilize Perturbation? Bridge Selective Perturbation to Fine-tuned Contrastive Learning Detector would be Better ( http://arxiv.org/abs/2402.00263v3 )

ライセンス: Link先を確認
Shengchao Liu, Xiaoming Liu, Yichen Wang, Zehua Cheng, Chengzhengxu Li, Zhaohan Zhang, Yu Lan, Chao Shen(参考訳) 大規模言語モデル(LLM)の急成長する生成能力は、不正行為に対する懸念を高め、自動機械生成テキスト検出器を要求している。 ゼロショットメートル法に基づく検出器である DetectGPT は、まず摂動を導入し、高い性能向上を示す。 しかし、T DetectGPTでは、ランダムな摂動戦略はノイズを発生させ、ロジット回帰は閾値に依存し、個別または小バッチ入力の一般化性と適用性を損なう。 そこで本研究では,選択的摂動に関するコントラスト学習により,新しい微調整検出器であるpecolaを提案する。 選択戦略は、マルチペアコントラスト学習のための摂動と重み付けにおいて重要なトークンを保持する。 実験の結果、ペコラは4つの公開データセットの平均で最先端の精度を1.20%上回ることがわかった。 さらに, 本手法の有効性, 堅牢性, 一般化について検討した。

The burgeoning generative capabilities of large language models (LLMs) have raised growing concerns about abuse, demanding automatic machine-generated text detectors. DetectGPT, a zero-shot metric-based detector, first introduces perturbation and shows great performance improvement. However, in DetectGPT, random perturbation strategy could introduce noise, and logit regression depends on threshold, harming the generalizability and applicability of individual or small-batch inputs. Hence, we propose a novel fine-tuned detector, Pecola, bridging metric-based and fine-tuned detectors by contrastive learning on selective perturbation. Selective strategy retains important tokens during perturbation and weights for multi-pair contrastive learning. The experiments show that Pecola outperforms the state-of-the-art by 1.20% in accuracy on average on four public datasets. And we further analyze the effectiveness, robustness, and generalization of the method.
翻訳日:2024-02-27 21:42:17 公開日:2024-02-24
# 離散ステイン演算子による勾配推定

Gradient Estimation with Discrete Stein Operators ( http://arxiv.org/abs/2202.09497v7 )

ライセンス: Link先を確認
Jiaxin Shi, Yuhao Zhou, Jessica Hwang, Michalis K. Titsias, Lester Mackey(参考訳) 分布のパラメータに関する期待の勾配を近似するグラディエント推定は、多くの機械学習問題の解の中心である。 しかし、分布が離散である場合、最も一般的な勾配推定器は過度の分散に悩まされる。 勾配推定の品質を向上させるため,離散分布に対するスタイン演算子に基づく分散低減手法を提案する。 次に、この手法を用いて、REINFORCE残高推定のための柔軟な制御変数を構築する。 我々の制御変数は、分散を最小限に抑えるためにオンラインで適応することができ、ターゲット関数の余分な評価を必要としない。 線形変分オートエンコーダの訓練などのベンチマーク生成モデルタスクにおいて、勾配推定器は、同じ数の関数評価を持つ最先端推定器よりもかなり低い分散を実現する。

Gradient estimation -- approximating the gradient of an expectation with respect to the parameters of a distribution -- is central to the solution of many machine learning problems. However, when the distribution is discrete, most common gradient estimators suffer from excessive variance. To improve the quality of gradient estimation, we introduce a variance reduction technique based on Stein operators for discrete distributions. We then use this technique to build flexible control variates for the REINFORCE leave-one-out estimator. Our control variates can be adapted online to minimize variance and do not require extra evaluations of the target function. In benchmark generative modeling tasks such as training binary variational autoencoders, our gradient estimator achieves substantially lower variance than state-of-the-art estimators with the same number of function evaluations.
翻訳日:2024-02-27 19:54:36 公開日:2024-02-24
# 凸プログラミングによる最大線形回帰

Max-Linear Regression by Convex Programming ( http://arxiv.org/abs/2103.07020v2 )

ライセンス: Link先を確認
Seonho Kim, Sohail Bahmani, and Kiryung Lee(参考訳) モデルパラメータ $\boldsymbol{\beta}_{1},\dotsc,\boldsymbol{\beta}_{k}\in\mathbb{R}^{p}$ を、(ノイズ)観測の独立サンプル$n$$$y = \max_{1\leq j \leq k} \boldsymbol{\beta}_{j}^{\mathsf{T}} \boldsymbol{x} + \mathrm{noise}$ から推定する必要がある。 最大線形モデルは、従来の線形モデルを大幅に一般化し、線型モデルが十分に大きい場合、任意の凸関数を任意の精度に近似することができる。 しかし、マックス・リニアモデルの固有非線形性は計算上難しい回帰パラメータの推定を導出する。 特に、凸プログラミングに基づく推定器は文献では知られていない。 我々は,最大線形回帰問題の推定子としてアンカー回帰 (ar) によって与えられるスケーラブルな凸プログラムを定式化し,解析する。 標準ガウス観測条件では、凸プログラムが高い確率でパラメータを回復することを示す非漸近的な性能保証を示す。 k$ の線形成分が等しく最大値に達する可能性がある場合、この結果は {$k^{4}p$} から対数係数までの正確な回復スケールに対して十分なノイズのない観測結果を示す。 このサンプルの複雑性は、最小化の交互化(Ghosh et al., {2021})と一致する。 さらに同じサンプル複雑性は、観測が任意の決定論的ノイズで崩壊した場合にも適用される。 本稿では,提案手法が理論結果として有効であることを示す実験結果を示し,特にベルヌーイ雑音の存在下での交互最小化アルゴリズムとの競合性を示す。 さらに,ARの再帰的応用により推定精度が大幅に向上することを示す。 }

We consider the multivariate max-linear regression problem where the model parameters $\boldsymbol{\beta}_{1},\dotsc,\boldsymbol{\beta}_{k}\in\mathbb{R}^{p}$ need to be estimated from $n$ independent samples of the (noisy) observations $y = \max_{1\leq j \leq k} \boldsymbol{\beta}_{j}^{\mathsf{T}} \boldsymbol{x} + \mathrm{noise}$. The max-linear model vastly generalizes the conventional linear model, and it can approximate any convex function to an arbitrary accuracy when the number of linear models $k$ is large enough. However, the inherent nonlinearity of the max-linear model renders the estimation of the regression parameters computationally challenging. Particularly, no estimator based on convex programming is known in the literature. We formulate and analyze a scalable convex program given by anchored regression (AR) as the estimator for the max-linear regression problem. Under the standard Gaussian observation setting, we present a non-asymptotic performance guarantee showing that the convex program recovers the parameters with high probability. When the $k$ linear components are equally likely to achieve the maximum, our result shows a sufficient number of noise-free observations for exact recovery scales as {$k^{4}p$} up to a logarithmic factor. { This sample complexity coincides with that by alternating minimization (Ghosh et al., {2021}). Moreover, the same sample complexity applies when the observations are corrupted with arbitrary deterministic noise. We provide empirical results that show that our method performs as our theoretical result predicts, and is competitive with the alternating minimization algorithm particularly in presence of multiplicative Bernoulli noise. Furthermore, we also show empirically that a recursive application of AR can significantly improve the estimation accuracy.}
翻訳日:2024-02-27 19:53:59 公開日:2024-02-24
# 単調三角形輸送写像の表現と学習について

On the representation and learning of monotone triangular transport maps ( http://arxiv.org/abs/2009.10303v3 )

ライセンス: Link先を確認
Ricardo Baptista, Youssef Marzouk, Olivier Zahm(参考訳) 測度の移動は、密度推定、ベイズ推定、生成的モデリングなど、複雑な確率分布をモデル化するための汎用的なアプローチを提供する。 単調三角輸送写像$\unicode{x2014}$approximations of the knothe$\unicode{x2013}$rosenblatt (kr) rerangement$\unicode{x2014}$はこれらのタスクの標準選択である。 しかし、そのような写像の表現とパラメータ化は、その一般性と表現性、およびデータから地図を学習する際に生じる最適化問題の性質に大きな影響を与える(例えば、最大確率推定によって)。 滑らかな関数の可逆変換を通じて単調三角写像を表現するための一般的な枠組みを提案する。 我々は,付随する無限次元最小化問題は局所的極小(すなわちすべての局所的極小が大域的極小)を持たないような変換条件を定め,一意的な大域的最小化がkr写像に対応する特定のテール条件を満たす対象分布を示す。 対象からサンプルが与えられた場合、基礎となるKRマップのスパース半パラメトリック近似を推定する適応アルゴリズムを提案する。 我々は,このフレームワークを,様々なサンプルサイズで安定な一般化性能を持つ有向グラフモデルの接合・条件密度推定,確率自由推論,構造学習にどのように適用できるかを示す。

Transportation of measure provides a versatile approach for modeling complex probability distributions, with applications in density estimation, Bayesian inference, generative modeling, and beyond. Monotone triangular transport maps$\unicode{x2014}$approximations of the Knothe$\unicode{x2013}$Rosenblatt (KR) rearrangement$\unicode{x2014}$are a canonical choice for these tasks. Yet the representation and parameterization of such maps have a significant impact on their generality and expressiveness, and on properties of the optimization problem that arises in learning a map from data (e.g., via maximum likelihood estimation). We present a general framework for representing monotone triangular maps via invertible transformations of smooth functions. We establish conditions on the transformation such that the associated infinite-dimensional minimization problem has no spurious local minima, i.e., all local minima are global minima; and we show for target distributions satisfying certain tail conditions that the unique global minimizer corresponds to the KR map. Given a sample from the target, we then propose an adaptive algorithm that estimates a sparse semi-parametric approximation of the underlying KR map. We demonstrate how this framework can be applied to joint and conditional density estimation, likelihood-free inference, and structure learning of directed graphical models, with stable generalization performance across a range of sample sizes.
翻訳日:2024-02-27 19:53:08 公開日:2024-02-24
# ガウス過程のスパース直交変分推定

Sparse Orthogonal Variational Inference for Gaussian Processes ( http://arxiv.org/abs/1910.10596v5 )

ライセンス: Link先を確認
Jiaxin Shi, Michalis K. Titsias, Andriy Mnih(参考訳) 誘導点を用いたガウス過程に対するスパース変分近似の新たな解釈を導入することにより,従来の手法よりもスケーラブルなアルゴリズムを実現することができる。 これはガウス過程を2つの独立した過程の和として分解することに基づいている。 この定式化は既存の近似を復元すると同時に、限界確率と新しい確率的変分推論アルゴリズムのより厳密な下界を得ることができることを示す。 標準回帰から(深い)畳み込みガウス過程を用いたマルチクラス分類まで,いくつかのガウス過程モデルにおいて,これらのアルゴリズムの有効性を実証し,純粋gpモデルにおけるcifar-10に関する最新結果を報告する。

We introduce a new interpretation of sparse variational approximations for Gaussian processes using inducing points, which can lead to more scalable algorithms than previous methods. It is based on decomposing a Gaussian process as a sum of two independent processes: one spanned by a finite basis of inducing points and the other capturing the remaining variation. We show that this formulation recovers existing approximations and at the same time allows to obtain tighter lower bounds on the marginal likelihood and new stochastic variational inference algorithms. We demonstrate the efficiency of these algorithms in several Gaussian process models ranging from standard regression to multi-class classification using (deep) convolutional Gaussian processes and report state-of-the-art results on CIFAR-10 among purely GP-based models.
翻訳日:2024-02-27 19:52:43 公開日:2024-02-24
# 条件付きサンプルを用いた隠れマルコフモデル学習

Learning Hidden Markov Models Using Conditional Samples ( http://arxiv.org/abs/2302.14753v2 )

ライセンス: Link先を確認
Sham M. Kakade, Akshay Krishnamurthy, Gaurav Mahajan, Cyril Zhang(参考訳) 本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。 HMMは、シーケンシャルおよび時系列モデリングにおいて最も広く使われているツールであるが、観察シーケンスのサンプルであるi.d.にアクセス可能な標準設定では、暗号的に学習が難しい。 本稿では,この設定から脱却し,HMMの条件分布からサンプルを検索できる対話型アクセスモデルを提案する。 HMMの対話的アクセスにより、計算効率のよい学習アルゴリズムが実現され、暗号化の難しさを回避できることを示す。 具体的には、HMMを2つの設定で学習するための効率的なアルゴリズムを得る。 (a)厳密な条件付き確率へのクエリアクセスが容易な設定。 このアルゴリズムは多項式時間で動作し、任意のHMMを全変動距離で近似するために多項式的に多くのクエリを生成する。 (b)条件分布からのみサンプルを得ることのできる、より難しい設定。 ここで、アルゴリズムの性能は、HMMの忠実度と呼ばれる新しいパラメータに依存する。 これは暗号処理の難しいインスタンスと、以前知られていたポジティブな結果をキャプチャする。 また,これらの結果は潜在低位構造を持つ分布のより広いクラスに拡張できることを示した。 我々のアルゴリズムは、会員クエリから決定論的有限オートマトンを学習するためのAngluinの$L^*$アルゴリズムの一般化とロバスト化と見なすことができる。

This paper is concerned with the computational complexity of learning the Hidden Markov Model (HMM). Although HMMs are some of the most widely used tools in sequential and time series modeling, they are cryptographically hard to learn in the standard setting where one has access to i.i.d. samples of observation sequences. In this paper, we depart from this setup and consider an interactive access model, in which the algorithm can query for samples from the conditional distributions of the HMMs. We show that interactive access to the HMM enables computationally efficient learning algorithms, thereby bypassing cryptographic hardness. Specifically, we obtain efficient algorithms for learning HMMs in two settings: (a) An easier setting where we have query access to the exact conditional probabilities. Here our algorithm runs in polynomial time and makes polynomially many queries to approximate any HMM in total variation distance. (b) A harder setting where we can only obtain samples from the conditional distributions. Here the performance of the algorithm depends on a new parameter, called the fidelity of the HMM. We show that this captures cryptographically hard instances and previously known positive results. We also show that these results extend to a broader class of distributions with latent low rank structure. Our algorithms can be viewed as generalizations and robustifications of Angluin's $L^*$ algorithm for learning deterministic finite automata from membership queries.
翻訳日:2024-02-27 19:50:14 公開日:2024-02-24
# 時間遅延ニューラルネットワークを用いたマルチモーダル振舞い復元のための効率的なアンサンブル

Efficient Ensemble for Multimodal Punctuation Restoration using Time-Delay Neural Network ( http://arxiv.org/abs/2302.13376v2 )

ライセンス: Link先を確認
Xing Yi Liu and Homayoon Beigi(参考訳) 自動音声認識における後処理過程において,句読点復元が重要な役割を担っているが,モデル効率が重要な課題である。 そこで本研究では,10分の1未満の推論ネットワークパラメータを用いて,現在の最良モデルの1.0f1点を上回るマルチモーダル時間遅延ニューラルネットワークを用いたアンサンブル手法である efficientpunct を提案する。 音声認識器を用いて、句読取復元のための隠れ層音響埋め込みを効率よく出力し、BERTを用いて意味のあるテキスト埋め込みを抽出する。 強制的なアライメントと時間的畳み込みを用いることで,注意に基づく融合の必要性をなくし,計算効率を大幅に向上させ,性能を向上させる。 efficientpunctは、bertの純粋言語に基づく予測をマルチモーダルネットワークの予測よりもわずかに重み付けするアンサンブルで、新しい芸術状態を設定する。 私たちのコードはhttps://github.com/lxy-peter/ efficientpunctで利用可能です。

Punctuation restoration plays an essential role in the post-processing procedure of automatic speech recognition, but model efficiency is a key requirement for this task. To that end, we present EfficientPunct, an ensemble method with a multimodal time-delay neural network that outperforms the current best model by 1.0 F1 points, using less than a tenth of its inference network parameters. We streamline a speech recognizer to efficiently output hidden layer acoustic embeddings for punctuation restoration, as well as BERT to extract meaningful text embeddings. By using forced alignment and temporal convolutions, we eliminate the need for attention-based fusion, greatly increasing computational efficiency and raising performance. EfficientPunct sets a new state of the art with an ensemble that weights BERT's purely language-based predictions slightly more than the multimodal network's predictions. Our code is available at https://github.com/lxy-peter/EfficientPunct.
翻訳日:2024-02-27 19:49:00 公開日:2024-02-24
# テキストデータを用いた倒産予測のためのマルチモーダル生成モデル

Multimodal Generative Models for Bankruptcy Prediction Using Textual Data ( http://arxiv.org/abs/2211.08405v5 )

ライセンス: Link先を確認
Rogelio A. Mancisidor and Kjersti Aas(参考訳) 10-KのMDA(Management's Discussion & Analysis)セクションなどの財務書類からのテキストデータは、倒産モデルの予測精度を改善するために使われてきた。 しかし、実際には、従来の倒産モデルにおけるMDAデータの使用を制限するために、予測を行うのに完全なデータが必要であるため、すべての公開企業に対してMDAセクションを取得することはできない。 mdaの欠如の主な理由は次の2つです。 一 すべての企業がMDAを提出しなければならないわけではない。 (II)MDA部のクロール・スクラップ時に技術的問題が発生する。 この制限を解決するために、会計、市場、テキストデータモダリティから情報を埋め込んだマルチモーダル表現を学習する条件付きマルチモーダル識別(CMMD)モデルを導入する。 cmmdモデルは、モデルトレーニングのためにすべてのデータモダリティを持つサンプルを必要とする。 テスト時には、CMMDモデルは、マルチモーダル表現を生成するために、会計と市場モダリティへのアクセスしか必要とせず、さらに倒産予測やMDAモダリティの欠如から単語を生成するために使われる。 この新手法では,テキストデータとは異なり,すべての企業において会計や市場データを利用できるため,倒産予測モデルにおいてテキストデータを使用することが現実的である。 この調査の実証的な結果は、金融規制当局や投資家がMDAデータを使用して従来のモデルを使用する場合、企業の60%しか予測できないことを示している。 さらに,提案手法の分類性能は,従来の多くの分類モデルよりも優れており,サンプル中の全企業を考慮に入れている。

Textual data from financial filings, e.g., the Management's Discussion & Analysis (MDA) section in Form 10-K, has been used to improve the prediction accuracy of bankruptcy models. In practice, however, we cannot obtain the MDA section for all public companies, which limits the use of MDA data in traditional bankruptcy models, as they need complete data to make predictions. The two main reasons for the lack of MDA are: (i) not all companies are obliged to submit the MDA and (ii) technical problems arise when crawling and scrapping the MDA section. To solve this limitation, this research introduces the Conditional Multimodal Discriminative (CMMD) model that learns multimodal representations that embed information from accounting, market, and textual data modalities. The CMMD model needs a sample with all data modalities for model training. At test time, the CMMD model only needs access to accounting and market modalities to generate multimodal representations, which are further used to make bankruptcy predictions and to generate words from the missing MDA modality. With this novel methodology, it is realistic to use textual data in bankruptcy prediction models, since accounting and market data are available for all companies, unlike textual data. The empirical results of this research show that if financial regulators, or investors, were to use traditional models using MDA data, they would only be able to make predictions for 60% of the companies. Furthermore, the classification performance of our proposed methodology is superior to that of a large number of traditional classifier models, taking into account all the companies in our sample.
翻訳日:2024-02-27 19:47:12 公開日:2024-02-24
# DynaConF:非定常時系列の動的予測

DynaConF: Dynamic Forecasting of Non-Stationary Time Series ( http://arxiv.org/abs/2209.08411v3 )

ライセンス: Link先を確認
Siqi Liu, Andreas Lehrmann(参考訳) 深層学習は様々な時系列予測タスクにおいて印象的な結果を示しており、過去の条件分布をモデル化することが本質である。 しかし、この条件分布が定常でない場合、これらのモデルが一貫して学習し、正確に予測することが課題となる。 本研究では,非定常力学モデルから定常条件分布モデルを明確に分離することにより,時間とともに非定常条件分布をモデル化する新しい手法を提案する。 本手法は,条件付き分布変化に適応可能なベイズ動的モデルと,因子付き出力空間を用いて多変量時系列を扱う深い条件付き分布モデルに基づいている。 人工および実世界のデータセットに関する実験結果から,我々のモデルは最先端のディープラーニングソリューションよりも非定常時系列に適応できることが示された。

Deep learning has shown impressive results in a variety of time series forecasting tasks, where modeling the conditional distribution of the future given the past is the essence. However, when this conditional distribution is non-stationary, it poses challenges for these models to learn consistently and to predict accurately. In this work, we propose a new method to model non-stationary conditional distributions over time by clearly decoupling stationary conditional distribution modeling from non-stationary dynamics modeling. Our method is based on a Bayesian dynamic model that can adapt to conditional distribution changes and a deep conditional distribution model that handles multivariate time series using a factorized output space. Our experimental results on synthetic and real-world datasets show that our model can adapt to non-stationary time series better than state-of-the-art deep learning solutions.
翻訳日:2024-02-27 19:46:46 公開日:2024-02-24
# 内在的動機から行動状態経路空間への複雑挙動

Complex behavior from intrinsic motivation to occupy action-state path space ( http://arxiv.org/abs/2205.10316v2 )

ライセンス: Link先を確認
Jorge Ram\'irez-Ruiz, Dmytro Grytskyy, Chiara Mastrogiuseppe, Yamen Habib and Rub\'en Moreno-Bote(参考訳) エージェントは何らかの報酬や効用を最大化する傾向があるという行動仮説のほとんどである。 しかし、動物は好奇心を持って動き、報酬のない方法で動機づけられることが多い。 ここでは報酬の最大化という考え方を捨て、行動の目標は行動や状態の将来の経路の占有を最大化することを提案する。 この最大占有原理によれば、報酬は経路空間を占有する手段であり、目的ごとの目標ではない。 アクション状態経路エントロピーは、将来のアクション状態経路占有率の付加性と他の直感的特性と一致する唯一の尺度であることがわかった。 最適方針と状態値関数を関連付けた分析式を提供し,値反復アルゴリズムの収束を証明する。 高次元コントローラを含む離散的かつ連続的な状態タスクを用いることで、「ダンシング」や「シーク・アンド・シーク」といった複雑な行動、そして利他的行動の基本形が本質的に経路空間を占有する動機から自然に生じることを示す。 総じて、報酬の最大化がなければ、変動性と目標指向性の両方を生み出す行動理論を提示する。

Most theories of behavior posit that agents tend to maximize some form of reward or utility. However, animals very often move with curiosity and seem to be motivated in a reward-free manner. Here we abandon the idea of reward maximization, and propose that the goal of behavior is maximizing occupancy of future paths of actions and states. According to this maximum occupancy principle, rewards are the means to occupy path space, not the goal per se; goal-directedness simply emerges as rational ways of searching for resources so that movement, understood amply, never ends. We find that action-state path entropy is the only measure consistent with additivity and other intuitive properties of expected future action-state path occupancy. We provide analytical expressions that relate the optimal policy and state-value function, and prove convergence of our value iteration algorithm. Using discrete and continuous state tasks, including a high--dimensional controller, we show that complex behaviors such as `dancing', hide-and-seek and a basic form of altruistic behavior naturally result from the intrinsic motivation to occupy path space. All in all, we present a theory of behavior that generates both variability and goal-directedness in the absence of reward maximization.
翻訳日:2024-02-27 19:45:34 公開日:2024-02-24
# ランダム再帰的dagにおける放送

Broadcasting in random recursive dags ( http://arxiv.org/abs/2306.01727v2 )

ライセンス: Link先を確認
Simon Briend and Luc Devroye and Gabor Lugosi(参考訳) 均一$k$-{\sc dag} は、既存のノードからランダムに$k$親を選択することによって、一様ランダム再帰木を一般化する。 最初は$k$ ''roots' から始まります。 それぞれの$k$ルートはビットに割り当てられる。 これらのビットはノイズチャネルによって伝搬される。 両親のビットは確率$p$で反転し、過半数の投票が行われる。 すべてのノードがビットを受信すると、$k$-{\sc dag} がルートを特定せずに表示される。 目標は、ルーツの大多数のビットを見積もることである。 p$ のしきい値は、すべてのノードの多数ルールが $c<1/2$ の誤差 $c+o(1)$ を出力する $k$ 以下の関数として特定する。 しきい値を超えると、多数決ルールは1/2+o(1)$の確率を持つ。

A uniform $k$-{\sc dag} generalizes the uniform random recursive tree by picking $k$ parents uniformly at random from the existing nodes. It starts with $k$ ''roots''. Each of the $k$ roots is assigned a bit. These bits are propagated by a noisy channel. The parents' bits are flipped with probability $p$, and a majority vote is taken. When all nodes have received their bits, the $k$-{\sc dag} is shown without identifying the roots. The goal is to estimate the majority bit among the roots. We identify the threshold for $p$ as a function of $k$ below which the majority rule among all nodes yields an error $c+o(1)$ with $c<1/2$. Above the threshold the majority rule errs with probability $1/2+o(1)$.
翻訳日:2024-02-27 19:38:16 公開日:2024-02-24
# エンティティアライメントの再検討とアウトストリップ:生成モデルの視点から

Revisit and Outstrip Entity Alignment: A Perspective of Generative Models ( http://arxiv.org/abs/2305.14651v2 )

ライセンス: Link先を確認
Lingbing Guo, Zhuo Chen, Jiaoyan Chen, Yin Fang, Wen Zhang, and Huajun Chen(参考訳) 近年の埋め込み型手法は、知識グラフ(KG)の複数のモーダルの埋め込みからエンティティアライメントを活用することに成功している。 本稿では, 組込み型エンティティアライメント(EEA)について, 生成モデルの観点から検討する。 近年開発されたGAN(Generative Adversarial Network)に基づくEEA手法の有効性が理論的に証明されている。 そして、その不完全な目的が、エンティティアライメントとエンティティ合成(すなわち、新しいエンティティの生成)の両方の能力を制限することを明らかにする。 生成モデルとして相互変分オートエンコーダ(M-VAE)を用いた生成型EEA(GEEA)フレームワークを導入することでこの問題を軽減する。 M-VAEは、ランダムノイズベクトルからKG間のエンティティ変換と新しいエンティティの生成を可能にする。 GEEAのパワーを理論的解析と実証実験で示し, 実体アライメントと実体合成の両課題について検討した。

Recent embedding-based methods have achieved great successes in exploiting entity alignment from knowledge graph (KG) embeddings of multiple modalities. In this paper, we study embedding-based entity alignment (EEA) from a perspective of generative models. We show that EEA shares similarities with typical generative models and prove the effectiveness of the recently developed generative adversarial network (GAN)-based EEA methods theoretically. We then reveal that their incomplete objective limits the capacity on both entity alignment and entity synthesis (i.e., generating new entities). We mitigate this problem by introducing a generative EEA (GEEA) framework with the proposed mutual variational autoencoder (M-VAE) as the generative model. M-VAE enables entity conversion between KGs and generation of new entities from random noise vectors. We demonstrate the power of GEEA with theoretical analysis and empirical experiments on both entity alignment and entity synthesis tasks.
翻訳日:2024-02-27 19:37:33 公開日:2024-02-24
# gaokaoベンチマークによる大規模言語モデルの性能評価

Evaluating the Performance of Large Language Models on GAOKAO Benchmark ( http://arxiv.org/abs/2305.12474v3 )

ライセンス: Link先を確認
Xiaotian Zhang, Chunyang Li, Yi Zong, Zhengyu Ying, Liang He, Xipeng Qiu(参考訳) 大規模言語モデル(llm)は、様々な自然言語処理タスクにおいて顕著な性能を示しているが、その性能を包括的かつ正確に評価する方法は、対処すべき緊急問題となっている。 本稿では,中国のガオカオ検定からの質問を主観的および客観的な質問を含むテストサンプルとして用いた直感的なベンチマークであるガオカオベンチを紹介する。 人間の検査手法に適合するため,ゼロショット設定に基づく手法を設計,llmの性能評価を行う。 評価の結果,gpt-4,chatgpt,ernie-botを含むllmの総スコアが変換され,各被験者間で有意なパフォーマンス差が認められた。 また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。 結論として,本研究では,将来の大規模言語モデルに対する堅牢な評価ベンチマークを提供し,そのようなモデルの利点と限界について貴重な知見を提供する。

Large Language Models(LLMs) have demonstrated remarkable performance across various natural language processing tasks; however, how to comprehensively and accurately assess their performance becomes an urgent issue to be addressed. This paper introduces GAOKAO-Bench, an intuitive benchmark that employs questions from the Chinese GAOKAO examination as test samples, including both subjective and objective questions. To align with human examination methods, we design a method based on zero-shot settings to evaluate the performance of LLMs. With human evaluation, we obtain the converted total score of LLMs, including GPT-4, ChatGPT and ERNIE-Bot.Our findings reveal that LLMs have achieved competitive scores in Chinese GAOKAO examination, while they exhibit significant performance disparities across various subjects. We also use LLMs to grade the subjective questions, and find that model scores achieve a moderate level of consistency with human scores. In conclusion, this research contributes a robust evaluation benchmark for future large language models and offers valuable insights into the advantages and limitations of such models.
翻訳日:2024-02-27 19:37:19 公開日:2024-02-24
# より小さな言語モデルはブラックボックスマシン生成テキスト検出器より優れている

Smaller Language Models are Better Black-box Machine-Generated Text Detectors ( http://arxiv.org/abs/2305.09859v4 )

ライセンス: Link先を確認
Niloofar Mireshghallah, Justus Mattern, Sicun Gao, Reza Shokri, Taylor Berg-Kirkpatrick(参考訳) 人間が書いたものと非常によく似た説得力のある発話を生成できる流麗な生成言語モデルが出現すると、テキストが機械によって生成されたか、あるいは人間が書いたかの区別がより困難で重要になり、そのようなモデルは誤った情報や偽ニュース、偽レビュー、特定の著者や人物を模倣するために使われる。 この目的のために、マシン生成テキストを検出する手法が数多く提案されている。 これらのメソッドの多くは、ターゲットモデルのロジットにアクセスするか、ターゲットからサンプリングする機能を必要とする。 そのようなブラックボックス検出方法の1つは、生成したテキストが生成者の可能性関数の下で局所的に最適であるという観察に依存している。 全体として、より小さく、部分的に訓練されたモデルは、より普遍的なテキスト検出器として、より正確に、小モデルと大モデルの両方から生成されたテキストを検出できる。 興味深いことに、検出器とジェネレータが同じデータで訓練されたかどうかは、検出の成功にとって重要ではない。 例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのGPTJ-6BはAUCが0.45である。

With the advent of fluent generative language models that can produce convincing utterances very similar to those written by humans, distinguishing whether a piece of text is machine-generated or human-written becomes more challenging and more important, as such models could be used to spread misinformation, fake news, fake reviews and to mimic certain authors and figures. To this end, there have been a slew of methods proposed to detect machine-generated text. Most of these methods need access to the logits of the target model or need the ability to sample from the target. One such black-box detection method relies on the observation that generated text is locally optimal under the likelihood function of the generator, while human-written text is not. We find that overall, smaller and partially-trained models are better universal text detectors: they can more precisely detect text generated from both small and larger models. Interestingly, we find that whether the detector and generator were trained on the same data is not critically important to the detection success. For instance the OPT-125M model has an AUC of 0.81 in detecting ChatGPT generations, whereas a larger model from the GPT family, GPTJ-6B, has AUC of 0.45.
翻訳日:2024-02-27 19:36:34 公開日:2024-02-24
# ユニバーサルカーネル学習のための効率的な凸アルゴリズム

Efficient Convex Algorithms for Universal Kernel Learning ( http://arxiv.org/abs/2304.07472v2 )

ライセンス: Link先を確認
Aleksandr Talitckii and Brendon K. Colbert and Matthew M. Peet(参考訳) カーネル最適化に基づく機械学習アルゴリズムの精度と複雑さは、最適化が可能なカーネルの集合によって決定される。 カーネルの理想的な集合は、線形パラメータ化(トラクタビリティ)を認めること、全てのカーネルの集合において(堅牢性のために)密にすること、(正確性のために)普遍であることである。 近年,正行列を用いて正半分離核のクラスをパラメータ化するためのフレームワークが提案されている。 このクラスは3つの基準すべてを満たすことが示されるが、これらのカーネルを最適化するための以前のアルゴリズムは分類に限られており、さらに計算に複雑な半有限計画法(SDP)アルゴリズムに依存していた。 本稿では, 半分離カーネルの学習問題を最小最適化問題として取り上げ, 従来のSDP法と比較して計算複雑性を劇的に低減するSVD-QCQP法を提案する。 さらに、このアルゴリズムを分類と回帰の両方に効果的に実装し、100個の特徴と30,000個のダタムの問題を解くことができる実装を提供する。 最後に、ベンチマークデータに適用すると、このアルゴリズムは、ニューラルネットやランダムフォレストのような一般的な(しかし非凸)アプローチよりも、同様のあるいはより良い計算時間で精度が大幅に向上する可能性を示す。

The accuracy and complexity of machine learning algorithms based on kernel optimization are determined by the set of kernels over which they are able to optimize. An ideal set of kernels should: admit a linear parameterization (for tractability); be dense in the set of all kernels (for robustness); be universal (for accuracy). Recently, a framework was proposed for using positive matrices to parameterize a class of positive semi-separable kernels. Although this class can be shown to meet all three criteria, previous algorithms for optimization of such kernels were limited to classification and furthermore relied on computationally complex Semidefinite Programming (SDP) algorithms. In this paper, we pose the problem of learning semiseparable kernels as a minimax optimization problem and propose a SVD-QCQP primal-dual algorithm which dramatically reduces the computational complexity as compared with previous SDP-based approaches. Furthermore, we provide an efficient implementation of this algorithm for both classification and regression -- an implementation which enables us to solve problems with 100 features and up to 30,000 datums. Finally, when applied to benchmark data, the algorithm demonstrates the potential for significant improvement in accuracy over typical (but non-convex) approaches such as Neural Nets and Random Forest with similar or better computation time.
翻訳日:2024-02-27 19:36:10 公開日:2024-02-24
# マスター方程式解法としての言語モデル

Language models as master equation solvers ( http://arxiv.org/abs/2308.02514v2 )

ライセンス: Link先を確認
Chuanbo Liu and Jin Wang(参考訳) マスター方程式は確率力学系のモデリングにおいて基本的重要性を持つが、状態空間の次元を持つ状態や軌道の数の増加によりマスター方程式を解くことは困難である。 本研究では,マスター方程式を解くための機械学習手法として,言語モデルの再構築を提案する。 我々は、入力コンテキストと正確に一致する状態結合確率分布に直接、レートパラメータ、初期条件、時間値をマッピングするプロンプトベースのニューラルネットワークを設計する。 このようにして、マスター方程式の解を最も一般的な形に近似する。 本稿では,強化学習フレームワーク内でポリシ勾配アルゴリズムを用いてネットワークをトレーニングし,変動型自己回帰モデルによるフィードバック報酬を与える。 本手法を代表例に適用することにより,多元系および高次元系の高精度な観測を行う。 トレーニングされたネットワークはまた、外挿能力を示し、予測可能性を未確認データにまで拡張する。 本研究は, 言語モデルとマスター方程式の関連を立証し, 事前学習された1つの大規模モデルを用いてマスター方程式を解く可能性を強調した。

Master equations are of fundamental importance in modeling stochastic dynamical systems.However, solving master equations is challenging due to the exponential increase in the number of possible states or trajectories with the dimension of the state space. In this study, we propose repurposing language models as a machine learning approach to solve master equations. We design a prompt-based neural network to map rate parameters, initial conditions, and time values directly to the state joint probability distribution that exactly matches the input contexts. In this way, we approximate the solution of the master equation in its most general form. We train the network using the policy gradient algorithm within the reinforcement learning framework, with feedback rewards provided by a set of variational autoregressive models. By applying this approach to representative examples, we observe high accuracy for both multi-module and high-dimensional systems. The trained network also exhibits extrapolating ability, extending its predictability to unseen data. Our findings establish the connection between language models and master equations, highlighting the possibility of using a single pretrained large model to solve any master equation.
翻訳日:2024-02-27 19:28:13 公開日:2024-02-24
# ct画像における大動脈および大血管分節のトポロジー認識損失

Topology-Aware Loss for Aorta and Great Vessel Segmentation in Computed Tomography Images ( http://arxiv.org/abs/2307.03137v2 )

ライセンス: Link先を確認
Seher Ozcelik, Sinan Unver, Ilke Ali Gurses, Rustu Turkay, and Cigdem Gunduz-Demir(参考訳) セグメンテーションネットワークは、標準的な損失関数で訓練された場合、オブジェクトの形状や複数のオブジェクト間の幾何など、画像のグローバル不変性を学ぶために明示的に強制されない。 一方,このような不変性をネットワークトレーニングに組み込むことで,分割対象の固有特性である様々なセグメンテーションタスクの性能を向上させることができる。 例えば、CT画像における大動脈と大血管の分節化では、人間の解剖学により体内の特定の形状に血管が見出され、2次元CT画像上の丸い物体のように見える。 本稿では, 基底的真理と持続的ホモロジーによる予測とのトポロジの相違を罰する新たなトポロジ認識損失関数を導入することにより, この問題に対処する。 予測写像の確率関数と基底真理のベッチ数にしきい値濾過を適用した従来提案されていた分節ネットワーク設計とは違って, ヴィトリス・リップス濾過を適用し, 基底真理と予測写像の持続性図を取得し, 対応する持続性図間のワッサースタイン距離との差を計算することを提案する。 この濾過を用いると、形状と形状を同時にモデル化する利点があるが、しきい値濾過が適用されるとは起こり得ない。 24名の被験者の4327ct画像を用いた実験により,提案するトポロジー認識損失関数が,提案手法よりも優れた結果をもたらすことが明らかとなった。

Segmentation networks are not explicitly imposed to learn global invariants of an image, such as the shape of an object and the geometry between multiple objects, when they are trained with a standard loss function. On the other hand, incorporating such invariants into network training may help improve performance for various segmentation tasks when they are the intrinsic characteristics of the objects to be segmented. One example is segmentation of aorta and great vessels in computed tomography (CT) images where vessels are found in a particular geometry in the body due to the human anatomy and they mostly seem as round objects on a 2D CT image. This paper addresses this issue by introducing a new topology-aware loss function that penalizes topology dissimilarities between the ground truth and prediction through persistent homology. Different from the previously suggested segmentation network designs, which apply the threshold filtration on a likelihood function of the prediction map and the Betti numbers of the ground truth, this paper proposes to apply the Vietoris-Rips filtration to obtain persistence diagrams of both ground truth and prediction maps and calculate the dissimilarity with the Wasserstein distance between the corresponding persistence diagrams. The use of this filtration has advantage of modeling shape and geometry at the same time, which may not happen when the threshold filtration is applied. Our experiments on 4327 CT images of 24 subjects reveal that the proposed topology-aware loss function leads to better results than its counterparts, indicating the effectiveness of this use.
翻訳日:2024-02-27 19:27:09 公開日:2024-02-24
# Invertible Neural Networks and Error Diffusion を用いた導電性マップによる気泡分布の再構築

Learning to reconstruct the bubble distribution with conductivity maps using Invertible Neural Networks and Error Diffusion ( http://arxiv.org/abs/2307.02496v2 )

ライセンス: Link先を確認
Nishant Kumar, Lukas Krause, Thomas Wondrak, Sven Eckert, Kerstin Eckert, Stefan Gumhold(参考訳) 電解はエコフレンドリーな水素生産には不可欠であるが、反応の妨げとなり、セル効率が低下し、エネルギー消費が増加する。 さらに、これらのガス気泡は細胞内部の伝導度の変化を引き起こし、細胞周囲の誘導磁場に対応する変化をもたらす。 したがって, 外部磁場センサを用いてこれらのガス気泡誘起磁場変動を測定し, バイオサバルト法則の逆問題を解くことにより, セル内の伝導度を推定し, 気泡の大きさと位置を推定することができる。 しかし、少数の磁場測定から高分解能導電率マップを決定することは、逆問題である。 これを解決するために,Invertible Neural Networks (INNs) を用いて導電性フィールドを再構築する。 その結果,tikhonov正則化に比べ,innははるかに優れた性能が得られることがわかった。

Electrolysis is crucial for eco-friendly hydrogen production, but gas bubbles generated during the process hinder reactions, reduce cell efficiency, and increase energy consumption. Additionally, these gas bubbles cause changes in the conductivity inside the cell, resulting in corresponding variations in the induced magnetic field around the cell. Therefore, measuring these gas bubble-induced magnetic field fluctuations using external magnetic sensors and solving the inverse problem of Biot-Savart Law allows for estimating the conductivity in the cell and, thus, bubble size and location. However, determining high-resolution conductivity maps from only a few induced magnetic field measurements is an ill-posed inverse problem. To overcome this, we exploit Invertible Neural Networks (INNs) to reconstruct the conductivity field. Our qualitative results and quantitative evaluation using random error diffusion show that INN achieves far superior performance compared to Tikhonov regularization.
翻訳日:2024-02-27 19:26:39 公開日:2024-02-24
# ground-a-video:テキストから画像への拡散モデルを用いたゼロショットグラウンドビデオ編集

Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models ( http://arxiv.org/abs/2310.01107v2 )

ライセンス: Link先を確認
Hyeonho Jeong and Jong Chul Ye(参考訳) ビデオ編集における最近の取り組みは、テキストからビデオへのモデル(t2v)をテキストビデオデータでトレーニングするか、トレーニングフリーの方法を採用するかのどちらかで、単一属性の編集やスタイル転送タスクで有望な結果を示している。 しかし、多属性編集シナリオの複雑さに直面すると、意図した属性変更の省略や見落とし、入力ビデオの間違った要素の変更、入力ビデオの領域の保存の失敗といった欠点が現れる。 そこで本稿では,マルチアトリビュートビデオ編集のための新しいグラウンドガイド付きビデオからビデオへの翻訳フレームワークである ground-a-video を提案する。 ground-a-videoは、前述した欠点なく、トレーニングフリーで入力ビデオの時間的一貫性のあるマルチ属性編集を実現する。 本手法の中心となるクロスフレームゲート・アテンションの導入は,時間的に一貫性のある方法で,情報接地を潜在表現に組み込むとともに,変調されたクロスアテンションと光流誘導反転潜時平滑化を実現する。 広範囲な実験と応用により、グランド・ア・ビデオのゼロショットキャパシティは、編集精度とフレーム一貫性の観点から他のベースラインメソッドよりも優れていることが示されている。 さらなる結果とコードは、私たちのプロジェクトページ(http://ground-a-video.github.io)で閲覧できます。

Recent endeavors in video editing have showcased promising results in single-attribute editing or style transfer tasks, either by training text-to-video (T2V) models on text-video data or adopting training-free methods. However, when confronted with the complexities of multi-attribute editing scenarios, they exhibit shortcomings such as omitting or overlooking intended attribute changes, modifying the wrong elements of the input video, and failing to preserve regions of the input video that should remain intact. To address this, here we present a novel grounding-guided video-to-video translation framework called Ground-A-Video for multi-attribute video editing. Ground-A-Video attains temporally consistent multi-attribute editing of input videos in a training-free manner without aforementioned shortcomings. Central to our method is the introduction of Cross-Frame Gated Attention which incorporates groundings information into the latent representations in a temporally consistent fashion, along with Modulated Cross-Attention and optical flow guided inverted latents smoothing. Extensive experiments and applications demonstrate that Ground-A-Video's zero-shot capacity outperforms other baseline methods in terms of edit-accuracy and frame consistency. Further results and code are available at our project page (http://ground-a-video.github.io).
翻訳日:2024-02-27 19:21:31 公開日:2024-02-24
# グラフの推論: 忠実で解釈可能な大言語モデル推論

Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasoning ( http://arxiv.org/abs/2310.01061v2 )

ライセンス: Link先を確認
Linhao Luo, Yuan-Fang Li, Gholamreza Haffari, Shirui Pan(参考訳) 大規模言語モデル(LLM)は複雑なタスクにおいて顕著な推論能力を示している。 しかし、それらは推論中に最新の知識や経験の幻覚を欠き、誤った推論プロセスを引き起こし、パフォーマンスと信頼性を低下させます。 知識グラフ(KG)は、大量の事実を構造化形式で捉え、推論のための信頼できる知識源を提供する。 それでも、既存のKGベースのLCM推論手法は、KGを事実的知識基盤として扱うだけで、推論のための構造情報の重要性を見落としている。 本稿では,LLMをKGと相乗化して忠実かつ解釈可能な推論を可能にする,グラフ上の推論(RoG)と呼ばれる新しい手法を提案する。 具体的には、RoGがKGを忠実な計画として基礎とした関係経路を最初に生成する計画-検索-推論フレームワークを提案する。 これらの計画は、LLMが忠実な推論を行うために、KGsから有効な推論パスを取得するために使用される。 さらに、RoGはKGからの知識を蒸留し、学習を通してLLMの推論能力を向上させるだけでなく、推論中に任意のLLMとシームレスに統合することができる。 2つのベンチマークKGQAデータセットの大規模な実験は、RoGがKG推論タスクの最先端のパフォーマンスを達成し、忠実で解釈可能な推論結果を生成することを示した。

Large language models (LLMs) have demonstrated impressive reasoning abilities in complex tasks. However, they lack up-to-date knowledge and experience hallucinations during reasoning, which can lead to incorrect reasoning processes and diminish their performance and trustworthiness. Knowledge graphs (KGs), which capture vast amounts of facts in a structured format, offer a reliable source of knowledge for reasoning. Nevertheless, existing KG-based LLM reasoning methods only treat KGs as factual knowledge bases and overlook the importance of their structural information for reasoning. In this paper, we propose a novel method called reasoning on graphs (RoG) that synergizes LLMs with KGs to enable faithful and interpretable reasoning. Specifically, we present a planning-retrieval-reasoning framework, where RoG first generates relation paths grounded by KGs as faithful plans. These plans are then used to retrieve valid reasoning paths from the KGs for LLMs to conduct faithful reasoning. Furthermore, RoG not only distills knowledge from KGs to improve the reasoning ability of LLMs through training but also allows seamless integration with any arbitrary LLMs during inference. Extensive experiments on two benchmark KGQA datasets demonstrate that RoG achieves state-of-the-art performance on KG reasoning tasks and generates faithful and interpretable reasoning results.
翻訳日:2024-02-27 19:21:08 公開日:2024-02-24
# オフライン強化学習を支援する合成データによる事前学習

Pre-training with Synthetic Data Helps Offline Reinforcement Learning ( http://arxiv.org/abs/2310.00771v3 )

ライセンス: Link先を確認
Zecheng Wang, Che Wang, Zixuan Dong, Keith Ross(参考訳) 近年,オフライン深部強化学習(DRL)では,大規模な言語コーパスを持つ事前学習型決定変換器が下流の性能を向上させることが示されている(Reid et al., 2022)。 自然な質問は、このパフォーマンス向上が言語事前トレーニングでのみ達成できるのか、あるいは言語を含まない単純な事前トレーニングスキームで達成できるのかである。 本稿では,まず言語が性能向上に必須ではないことを示すとともに,少数の更新のための合成iidデータによる事前学習は,大規模な言語コーパスによる事前学習によるパフォーマンス向上に適合することを示すとともに,1ステップマルコフ連鎖で生成されたデータによる事前学習により,さらにパフォーマンスを向上させることができる。 これらの実験結果に触発されて、一般的なオフラインDRLアルゴリズムである事前学習型保守的Q-Learning(CQL)について検討する。 驚くべきことに、少数の更新のための単純な合成データによる事前トレーニングは、CQLを改善し、D4RL Gymロコモーションデータセットの一貫性のあるパフォーマンス向上を提供する。 本研究の結果は, オフラインDRLの事前学習の重要性だけでなく, 極めて単純な機構で事前学習データを合成・生成できることを示唆している。

Recently, it has been shown that for offline deep reinforcement learning (DRL), pre-training Decision Transformer with a large language corpus can improve downstream performance (Reid et al., 2022). A natural question to ask is whether this performance gain can only be achieved with language pre-training, or can be achieved with simpler pre-training schemes which do not involve language. In this paper, we first show that language is not essential for improved performance, and indeed pre-training with synthetic IID data for a small number of updates can match the performance gains from pre-training with a large language corpus; moreover, pre-training with data generated by a one-step Markov chain can further improve the performance. Inspired by these experimental results, we then consider pre-training Conservative Q-Learning (CQL), a popular offline DRL algorithm, which is Q-learning-based and typically employs a Multi-Layer Perceptron (MLP) backbone. Surprisingly, pre-training with simple synthetic data for a small number of updates can also improve CQL, providing consistent performance improvement on D4RL Gym locomotion datasets. The results of this paper not only illustrate the importance of pre-training for offline DRL but also show that the pre-training data can be synthetic and generated with remarkably simple mechanisms.
翻訳日:2024-02-27 19:20:45 公開日:2024-02-24
# 深層強化学習による画像間翻訳

Image-to-Image Translation with Deep Reinforcement Learning ( http://arxiv.org/abs/2309.13672v4 )

ライセンス: Link先を確認
Xin Wang, Ziwei Luo, Jing Hu, Chengming Feng, Shu Hu, Bin Zhu, Xi Wu, Xin Li, Siwei Lyu(参考訳) 既存の画像変換(I2IT)手法のほとんどは、ディープラーニング(DL)モデルの単一実行時に画像を生成する。 しかし、そのような単一ステップモデルの設計は常に困難であり、大量のパラメータが必要であり、すぐに悪いグローバルな最小値に陥り、過度に適合する。 本稿では,深部強化学習(DRL)による段階的意思決定問題としてI2ITを再構成し,RLに基づくI2IT(RL-I2IT)を実現する新しいフレームワークを提案する。 RL-I2ITフレームワークの主な特徴は、モノリシックな学習プロセスを軽量なモデルで小さなステップに分解し、ターゲット画像に徐々にソースイメージを変換することである。 従来のrlフレームワークでは,高次元連続状態や動作空間を扱うことが困難であると考えると,従来の画像よりも低次元で,俳優が扱いやすい高次元アクションを生成することができる標準アクター・クリティックモデルに対して,新たな概念プランによるメタポリシーを導入する。 RL-I2ITフレームワークでは、トレーニングプロセスを安定させ、対応するタスクの性能を向上させるために、タスク固有の補助学習戦略も採用している。 複数のi2itタスクにおける実験により,高次元連続動作空間問題に対する提案手法の有効性とロバスト性が示された。 RL-I2ITフレームワークの実装はhttps://github.com/Algolzw/SPAC-Deformable-Registrationで公開しています。

Most existing Image-to-Image Translation (I2IT) methods generate images in a single run of a deep learning (DL) model. However, designing such a single-step model is always challenging, requiring a huge number of parameters and easily falling into bad global minimums and overfitting. In this work, we reformulate I2IT as a step-wise decision-making problem via deep reinforcement learning (DRL) and propose a novel framework that performs RL-based I2IT (RL-I2IT). The key feature in the RL-I2IT framework is to decompose a monolithic learning process into small steps with a lightweight model to progressively transform a source image successively to a target image. Considering that it is challenging to handle high dimensional continuous state and action spaces in the conventional RL framework, we introduce meta policy with a new concept Plan to the standard Actor-Critic model, which is of a lower dimension than the original image and can facilitate the actor to generate a tractable high dimensional action. In the RL-I2IT framework, we also employ a task-specific auxiliary learning strategy to stabilize the training process and improve the performance of the corresponding task. Experiments on several I2IT tasks demonstrate the effectiveness and robustness of the proposed method when facing high-dimensional continuous action space problems. Our implementation of the RL-I2IT framework is available at https://github.com/Algolzw/SPAC-Deformable-Registration.
翻訳日:2024-02-27 19:18:06 公開日:2024-02-24
# RaTrack: 4Dレーダポイントクラウドによるオブジェクトの検出と追跡

RaTrack: Moving Object Detection and Tracking with 4D Radar Point Cloud ( http://arxiv.org/abs/2309.09737v5 )

ライセンス: Link先を確認
Zhijun Pan, Fangqiang Ding, Hantao Zhong, Chris Xiaoxuan Lu(参考訳) モバイルの自律性は、動的環境の正確な認識に依存している。 3Dの世界における移動物体のロバストな追跡は、軌道予測、障害物回避、経路計画といったアプリケーションにおいて重要な役割を果たす。 現在のほとんどの手法では、LiDARやカメラを多重物体追跡(MOT)に利用しているが、4Dイメージングレーダーの能力はほとんど探索されていない。 4dレーダデータにおけるレーダノイズとポイントスパーシティの課題を認識し,レーダトラッキングに適した革新的なソリューションであるratrackを紹介する。 特定のオブジェクトタイプや3次元境界ボックスに典型的な依存を通すことで、動作推定モジュールによって強化された動きのセグメンテーションとクラスタリングに焦点をあてる。 View-of-Delftデータセットから評価すると、RaTrackは移動物体の追跡精度が優れており、ほとんどの場合、最先端のパフォーマンスを上回っている。 コードとモデルはhttps://github.com/ljacksonpan/ratrackでリリースします。

Mobile autonomy relies on the precise perception of dynamic environments. Robustly tracking moving objects in 3D world thus plays a pivotal role for applications like trajectory prediction, obstacle avoidance, and path planning. While most current methods utilize LiDARs or cameras for Multiple Object Tracking (MOT), the capabilities of 4D imaging radars remain largely unexplored. Recognizing the challenges posed by radar noise and point sparsity in 4D radar data, we introduce RaTrack, an innovative solution tailored for radar-based tracking. Bypassing the typical reliance on specific object types and 3D bounding boxes, our method focuses on motion segmentation and clustering, enriched by a motion estimation module. Evaluated on the View-of-Delft dataset, RaTrack showcases superior tracking precision of moving objects, largely surpassing the performance of the state of the art. We release our code and model at https://github.com/LJacksonPan/RaTrack.
翻訳日:2024-02-27 19:17:21 公開日:2024-02-24
# 拡張を伴わない単純・非対称なグラフコントラスト学習

Simple and Asymmetric Graph Contrastive Learning without Augmentations ( http://arxiv.org/abs/2310.18884v3 )

ライセンス: Link先を確認
Teng Xiao, Huaisheng Zhu, Zhengyu Chen, Suhang Wang(参考訳) グラフコントラスト学習(GCL)はグラフ構造化データの表現学習において優れた性能を示した。 その成功にもかかわらず、既存のほとんどのGCL法は前ファブリックグラフ増補法とホモフィリー仮定に依存している。 したがって、連結ノードが異なるクラスラベルと異種特徴を持つヘテロ親和グラフにうまく一般化することができない。 本稿では,ホモフィルグラフとヘテロフィルグラフの対比学習問題について考察する。 隣接するノードの非対称なビューを考慮すれば,有望な性能を実現することができる。 グラフに対する非対称コントラスト学習(graphacl)という単純なアルゴリズムは実装が容易であり、グラフ拡張やホモフィリな仮定に依存しない。 我々は,graphaclが1-hopの局所的近傍情報と2-hopの単相類似性を捉えることができるという理論的および実証的な証拠を提供する。 実験結果から, 単純グラフACLは, ホモ親和性グラフとヘテロ親和性グラフの対比学習法や自己教師学習法よりも優れていた。 GraphACLのコードはhttps://github.com/tengxiao1/GraphACLで公開されている。

Graph Contrastive Learning (GCL) has shown superior performance in representation learning in graph-structured data. Despite their success, most existing GCL methods rely on prefabricated graph augmentation and homophily assumptions. Thus, they fail to generalize well to heterophilic graphs where connected nodes may have different class labels and dissimilar features. In this paper, we study the problem of conducting contrastive learning on homophilic and heterophilic graphs. We find that we can achieve promising performance simply by considering an asymmetric view of the neighboring nodes. The resulting simple algorithm, Asymmetric Contrastive Learning for Graphs (GraphACL), is easy to implement and does not rely on graph augmentations and homophily assumptions. We provide theoretical and empirical evidence that GraphACL can capture one-hop local neighborhood information and two-hop monophily similarity, which are both important for modeling heterophilic graphs. Experimental results show that the simple GraphACL significantly outperforms state-of-the-art graph contrastive learning and self-supervised learning methods on homophilic and heterophilic graphs. The code of GraphACL is available at https://github.com/tengxiao1/GraphACL.
翻訳日:2024-02-27 19:11:14 公開日:2024-02-24
# geollm: 大きな言語モデルから地理空間知識を抽出する

GeoLLM: Extracting Geospatial Knowledge from Large Language Models ( http://arxiv.org/abs/2310.06213v2 )

ライセンス: Link先を確認
Rohin Manvi, Samar Khanna, Gengchen Mai, Marshall Burke, David Lobell, Stefano Ermon(参考訳) 様々な地理空間タスクにおける機械学習(ml)の応用は、ますます一般的になっているが、しばしば、費用のかかる衛星画像や予測能力の欠如といった世界的な共変量に依存する。 本稿では,現在大規模言語モデル(llm)に圧縮されているインターネット言語コーパスに含まれる膨大な知識が,地理空間予測タスクに活用できるかどうかを考察する。 まず, LLMが位置に関する顕著な空間情報を埋め込んでいることを実証するが, 地理的座標だけでは, 人口密度などの重要な指標を予測するのに有効ではない。 次に,openstreetmap から補助地図データを用いて llm から地理空間知識を効果的に抽出する手法 geollm を提案する。 我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。 これらの課題を通して,本手法は,近辺のユーザやプロンプトから直接情報を利用するベースラインと比較して70%の改善(pearsonの$r^2$を用いて測定)し,文献における衛星ベースのベンチマークと同等かそれ以上の性能を示す。 GeoLLM では GPT-3.5 が Llama 2 と RoBERTa を 19% と 51% で上回り,本手法の性能はモデルのサイズや事前学習データセットとよく一致している。 実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。 重要なことは、GeoLLMは既存の地理空間共変体の制限を緩和し、それらをうまく補うことを約束している。 コードはプロジェクトのwebサイトで入手できる。 https://rohinmanvi.github.io/geollm

The application of machine learning (ML) in a range of geospatial tasks is increasingly common but often relies on globally available covariates such as satellite imagery that can either be expensive or lack predictive power. Here we explore the question of whether the vast amounts of knowledge found in Internet language corpora, now compressed within large language models (LLMs), can be leveraged for geospatial prediction tasks. We first demonstrate that LLMs embed remarkable spatial information about locations, but naively querying LLMs using geographic coordinates alone is ineffective in predicting key indicators like population density. We then present GeoLLM, a novel method that can effectively extract geospatial knowledge from LLMs with auxiliary map data from OpenStreetMap. We demonstrate the utility of our approach across multiple tasks of central interest to the international community, including the measurement of population density and economic livelihoods. Across these tasks, our method demonstrates a 70% improvement in performance (measured using Pearson's $r^2$) relative to baselines that use nearest neighbors or use information directly from the prompt, and performance equal to or exceeding satellite-based benchmarks in the literature. With GeoLLM, we observe that GPT-3.5 outperforms Llama 2 and RoBERTa by 19% and 51% respectively, suggesting that the performance of our method scales well with the size of the model and its pretraining dataset. Our experiments reveal that LLMs are remarkably sample-efficient, rich in geospatial information, and robust across the globe. Crucially, GeoLLM shows promise in mitigating the limitations of existing geospatial covariates and complementing them well. Code is available on the project website: https://rohinmanvi.github.io/GeoLLM
翻訳日:2024-02-27 19:07:34 公開日:2024-02-24
# 大規模言語モデル(LLMS)を用いたグラフ上のラベルなしノード分類

Label-free Node Classification on Graphs with Large Language Models (LLMS) ( http://arxiv.org/abs/2310.04668v3 )

ライセンス: Link先を確認
Zhikai Chen, Haitao Mao, Hongzhi Wen, Haoyu Han, Wei Jin, Haiyang Zhang, Hui Liu, Jiliang Tang(参考訳) 近年,グラフニューラルネットワーク(gnns)によるノード分類が著しく進歩している。 しかし、有望なパフォーマンスを保証するためには、豊富な高品質なラベルが必要である。 対照的に、Large Language Models (LLMs) は、テキスト分散グラフに印象的なゼロショットの習熟度を示す。 しかし、効率的な構造データ処理の課題に直面し、高い推論コストを被る。 これらの観測から, LLMsパイプラインを用いたグラフ上のラベルなしノード分類, LLM-GNNを導入する。 制限を緩和しながら、gnnとllmの両方の強みを融合させる。 特に、llmは少数のノードに注釈をつけるために利用され、gnnはllmsのアノテーションで訓練され、残りのノードの大部分が予測される。 llm-gnnの実装は、いかに積極的にllmのノードを選択してアノテートし、gnnトレーニングを強化するかという、ユニークな課題に直面している。 高品質、代表性、多様性のアノテーションを得るためにLLMをどのように活用すれば、より低コストでGNN性能を向上させることができるのか? この課題に取り組むために,アノテーションの品質ヒューリスティックを開発し,llmから得られた信頼度スコアを高度なノード選択に活用する。 LLM-GNNの有効性を総合的に検証した。 特に、LLM-GNNは1ドル未満の大規模データセット \products において74.9%の精度を達成できる。

In recent years, there have been remarkable advancements in node classification achieved by Graph Neural Networks (GNNs). However, they necessitate abundant high-quality labels to ensure promising performance. In contrast, Large Language Models (LLMs) exhibit impressive zero-shot proficiency on text-attributed graphs. Yet, they face challenges in efficiently processing structural data and suffer from high inference costs. In light of these observations, this work introduces a label-free node classification on graphs with LLMs pipeline, LLM-GNN. It amalgamates the strengths of both GNNs and LLMs while mitigating their limitations. Specifically, LLMs are leveraged to annotate a small portion of nodes and then GNNs are trained on LLMs' annotations to make predictions for the remaining large portion of nodes. The implementation of LLM-GNN faces a unique challenge: how can we actively select nodes for LLMs to annotate and consequently enhance the GNN training? How can we leverage LLMs to obtain annotations of high quality, representativeness, and diversity, thereby enhancing GNN performance with less cost? To tackle this challenge, we develop an annotation quality heuristic and leverage the confidence scores derived from LLMs to advanced node selection. Comprehensive experimental results validate the effectiveness of LLM-GNN. In particular, LLM-GNN can achieve an accuracy of 74.9% on a vast-scale dataset \products with a cost less than 1 dollar.
翻訳日:2024-02-27 19:07:00 公開日:2024-02-24
# SKILLコード自動補完に向けた機械学習アプローチ

A Machine Learning Approach Towards SKILL Code Autocompletion ( http://arxiv.org/abs/2312.01921v2 )

ライセンス: Link先を確認
Enrique Dehaerne, Bappaditya Dey, Wannes Meert(参考訳) ムーアの法則は電子システムの複雑さを増し続けており、Electronic Design Automation(EDA)は世界的な需要を満たすために前進しなければならない。 EDA技術の重要な例は、EDAソフトウェアのカスタマイズと拡張に使用されるスクリプト言語であるSKILLである。 最近のtransformerアーキテクチャを用いたコード生成モデルは、学術的な環境で素晴らしい結果をもたらし、開発者生産性を向上させるために商用開発ツールにも使われています。 我々の知る限りでは、ハードウェア設計技術者の生産性向上にトランスフォーマーをSKILLコードオートコンプリートに適用するのは、この研究が初めてである。 本研究では,新しいデータ効率の高いスキルコード生成手法を提案し,実験的に検証した。 具体的には,新しい方法論を提案する。 i)ラベル付きデータとラベル付きデータの両方で高品質なSKILLデータセットを作成する。 (II)教師なしおよび教師なし学習を用いて、我々のカスタムSKILLデータセット上で、汎用プログラミング言語コード上で事前訓練されたT5モデルを微調整する訓練戦略。 (iii)合成SKILL符号の評価。 提案手法を用いて学習したモデルは,人間の判断スコアとブレウスコアの点でベースラインを上回っている。 直面した大きな課題は、SKILLコードを生成するためにトランスフォーマーモデルをトレーニングするために使用できる非常に少ないSKILLコードデータであった。 私たちの検証した改善にもかかわらず、利用可能な非常に小さなデータセットは、確実に自動補完スキルコードをトレーニングするには不十分でした。 これらの制限に対処できる将来的な作業だけでなく、これや他の制限についても議論する。

As Moore's Law continues to increase the complexity of electronic systems, Electronic Design Automation (EDA) must advance to meet global demand. An important example of an EDA technology is SKILL, a scripting language used to customize and extend EDA software. Recently, code generation models using the transformer architecture have achieved impressive results in academic settings and have even been used in commercial developer tools to improve developer productivity. To the best of our knowledge, this study is the first to apply transformers to SKILL code autocompletion towards improving the productivity of hardware design engineers. In this study, a novel, data-efficient methodology for generating SKILL code is proposed and experimentally validated. More specifically, we propose a novel methodology for (i) creating a high-quality SKILL dataset with both unlabeled and labeled data, (ii) a training strategy where T5 models pre-trained on general programming language code are fine-tuned on our custom SKILL dataset using unsupervised and supervised learning, and (iii) evaluating synthesized SKILL code. We show that models trained using the proposed methodology outperform baselines in terms of human-judgment score and BLEU score. A major challenge faced was the extremely small amount of available SKILL code data that can be used to train a transformer model to generate SKILL code. Despite our validated improvements, the extremely small dataset available to us was still not enough to train a model that can reliably autocomplete SKILL code. We discuss this and other limitations as well as future work that could address these limitations.
翻訳日:2024-02-27 19:00:54 公開日:2024-02-24
# xTrimoGene:シングルセルRNA-Seqデータのための効率的でスケーラブルな表現学習者

xTrimoGene: An Efficient and Scalable Representation Learner for Single-Cell RNA-Seq Data ( http://arxiv.org/abs/2311.15156v2 )

ライセンス: Link先を確認
Jing Gong, Minsheng Hao, Xingyi Cheng, Xin Zeng, Chiming Liu, Jianzhu Ma, Xuegong Zhang, Taifeng Wang, Le Song(参考訳) 高スループットシークエンシング技術の進歩は、単一細胞レベルでの遺伝子発現の測定に大きな進歩をもたらした。 公開されているシングルセルRNA-seq(scRNA-seq)の量は、すでに2万の遺伝子を計測したヒトの5000万レコードを超えている。 これは教師なし表現学習の必要性を強調するものだが、古典的なトランスフォーマーアーキテクチャでは、計算とメモリの両方でそのようなデータをトレーニングすることは禁止されている。 この課題に対処するため、我々は、xTrimoGene$^\alpha$(略してxTrimoGene)と呼ばれる、cRNA-seqデータのための新しい非対称エンコーダデコーダ変換器を提案する。 xTrimoGeneのこのスケーラブルな設計は、従来のトランスフォーマーに比べてFLOPを1~2桁削減し、高い精度を維持しながら、今日の最大のScRNA-seqデータセット上で最大のトランスフォーマーモデルをトレーニングすることができる。 また,モデルサイズを拡大するにつれて,xTrimoGeneの性能が向上し,セルタイプアノテーションやパーターブシーク効果予測,薬物の組み合わせ予測など,様々な下流タスクにおけるSOTA性能も向上することを示した。 xTrimoGeneモデルは現在、以下のリンクを通じてサービスとして利用可能である。

Advances in high-throughput sequencing technology have led to significant progress in measuring gene expressions at the single-cell level. The amount of publicly available single-cell RNA-seq (scRNA-seq) data is already surpassing 50M records for humans with each record measuring 20,000 genes. This highlights the need for unsupervised representation learning to fully ingest these data, yet classical transformer architectures are prohibitive to train on such data in terms of both computation and memory. To address this challenge, we propose a novel asymmetric encoder-decoder transformer for scRNA-seq data, called xTrimoGene$^\alpha$ (or xTrimoGene for short), which leverages the sparse characteristic of the data to scale up the pre-training. This scalable design of xTrimoGene reduces FLOPs by one to two orders of magnitude compared to classical transformers while maintaining high accuracy, enabling us to train the largest transformer models over the largest scRNA-seq dataset today. Our experiments also show that the performance of xTrimoGene improves as we scale up the model sizes, and it also leads to SOTA performance over various downstream tasks, such as cell type annotation, perturb-seq effect prediction, and drug combination prediction. xTrimoGene model is now available for use as a service via the following link: https://api.biomap.com/xTrimoGene/apply.
翻訳日:2024-02-27 19:00:32 公開日:2024-02-24
# フリーロングシンク変圧器(フライルト)

Freely Long-Thinking Transformer (FraiLT) ( http://arxiv.org/abs/2401.11626v2 )

ライセンス: Link先を確認
Akbay Tabak(参考訳) Freely Long-Thinking Transformer (FraiLT) は、サイズをスケールアップすることなく処理能力を向上させるために設計された改良型トランスモデルである。 再帰的なアプローチを採用し、レイヤのサブセットを複数回反復し、繰り返しエンコーディングを導入して、これらのサイクル全体の認識を維持する。 イテレーションエンコーディングにより、frailtはコンパクトな形式でより大きなモデルの解釈的深さを達成することができる。 合成ストーリーデータセットで評価すると、FriLTはより大きなモデルよりも優れており、メモリ要求を減らしながら高品質のパフォーマンスを提供する能力を示している。 このモデルは、より効率的でアクセス可能な言語モデルへの一歩である。

Freely Long-Thinking Transformer (FraiLT) is an improved transformer model designed to enhance processing capabilities without scaling up size. It utilizes a recursive approach, iterating over a subset of layers multiple times, and introduces iteration encodings to maintain awareness across these cycles. Iteration encoding allows FraiLT to achieve the interpretive depth of larger models in a compact form. When evaluated on a synthetic story dataset, FraiLT outperformed larger models, showcasing its ability to deliver high-quality performance while reducing memory demands. This model represents a step forward towards more efficient and accessible language models.
翻訳日:2024-02-27 18:52:00 公開日:2024-02-24
# TiMix:効果的なビジョンランゲージ事前学習のためのテキスト対応画像ミキシング

TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-training ( http://arxiv.org/abs/2312.08846v4 )

ライセンス: Link先を確認
Chaoya Jiang, Wei ye, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang, Shikun Zhang(参考訳) 自己教師型マルチモーダル・コントラシティブ・ラーニング(SMCL)は、視覚的・言語的モダリティを整合させることにより、現代のビジョンランゲージ・プレトレーニング(VLP)モデルを大幅に進歩させる。 しかし、ウェブハーベストテキストイメージペアのノイズのため、SMCLにおけるトレーニングデータボリュームのスケールアップは、計算コストとデータ非効率の点でかなりの障害となる。 本稿では,vlpにおけるデータ効率を向上させるために,ミックスベースデータ拡張技術をsmclに統合したテキスト認識画像混合(timix)を提案する。 本稿では,相互情報(MI)の観点からTiMixの理論的解析を行い,相互学習のための混合データサンプルが,対照損失の正則化として暗黙的に機能していることを示す。 実験の結果,timoxは既存の手法に対してベンチマークを行った場合,トレーニングデータの量が少なく,トレーニング時間が短い場合でも,下流タスクで同等のパフォーマンスを示すことがわかった。 この研究は、データ効率と計算可能なVLPのためのデータ混合の可能性を実証的かつ理論的に実証し、実用シナリオにおけるより広範なVLPモデルの採用に寄与する。

Self-supervised Multi-modal Contrastive Learning (SMCL) remarkably advances modern Vision-Language Pre-training (VLP) models by aligning visual and linguistic modalities. Due to noises in web-harvested text-image pairs, however, scaling up training data volume in SMCL presents considerable obstacles in terms of computational cost and data inefficiency. To improve data efficiency in VLP, we propose Text-aware Image Mixing (TiMix), which integrates mix-based data augmentation techniques into SMCL, yielding significant performance improvements without significantly increasing computational overhead. We provide a theoretical analysis of TiMixfrom a mutual information (MI) perspective, showing that mixed data samples for cross-modal contrastive learning implicitly serve as a regularizer for the contrastive loss. The experimental results demonstrate that TiMix exhibits a comparable performance on downstream tasks, even with a reduced amount of training data and shorter training time, when benchmarked against existing methods. This work empirically and theoretically demonstrates the potential of data mixing for data-efficient and computationally viable VLP, benefiting broader VLP model adoption in practical scenarios.
翻訳日:2024-02-27 18:47:30 公開日:2024-02-24
# 確率長と組成一般化について

On Provable Length and Compositional Generalization ( http://arxiv.org/abs/2402.04875v2 )

ライセンス: Link先を確認
Kartik Ahuja, Amin Mansouri(参考訳) 長さ一般化(long generalization) -- 訓練中に見られるものよりも長いシーケンスに一般化する能力、および合成一般化 -- 訓練中に見えないトークンの組み合わせに一般化する能力は、シーケンスからシーケンスへのモデルの分配外一般化の重要な形態である。 本研究では, 深部集合, 変圧器, 状態空間モデル, 単純なリカレントニューラルネットワークなど, 様々なアーキテクチャの証明可能な長さと構成の一般化に向けた第一歩を踏み出す。 アーキテクチャによって、線形あるいは置換関係や基底真理表現といった表現の識別の度合いが異なることが証明され、長さや組成の一般化に必要となる。

Length generalization -- the ability to generalize to longer sequences than ones seen during training, and compositional generalization -- the ability to generalize to token combinations not seen during training, are crucial forms of out-of-distribution generalization in sequence-to-sequence models. In this work, we take the first steps towards provable length and compositional generalization for a range of architectures, including deep sets, transformers, state space models, and simple recurrent neural nets. Depending on the architecture, we prove different degrees of representation identification, e.g., a linear or a permutation relation with ground truth representation, is necessary for length and compositional generalization.
翻訳日:2024-02-27 18:40:55 公開日:2024-02-24
# RevOrder: 言語モデルにおける算術的強化のための新しい方法

RevOrder: A Novel Method for Enhanced Arithmetic in Language Models ( http://arxiv.org/abs/2402.03822v2 )

ライセンス: Link先を確認
Si Shen, Peijun Shen, Danhao Zhu(参考訳) 本稿では,大言語モデル(LLM)における算術演算の改善を目的とした新しい手法であるRevOrderを提案する。 本手法は,方程式の複雑性を評価するための新しい指標である$\mathcal{o}(1)$ に対して,シーケンシャル中間桁 (csid) のカウントを大幅に削減する。 総合的なテストを通じて、RevOrderは基本的な算術演算において完全な精度を達成するだけでなく、分割タスク、特に従来のモデルが苦戦する多数のタスクにおけるLLM性能を大幅に向上させる。 RevOrderの実装は、トレーニングと推論フェーズの両方に費用対効果がある。 さらに、GSM8Kの数学タスク上でLLaMA2-7Bモデルを微調整するためにRevOrderを適用すると、方程式計算誤差が46%減少し、総合スコアが41.6から44.4に増加した。

This paper presents RevOrder, a novel technique aimed at improving arithmetic operations in large language models (LLMs) by reversing the output digits in addition, subtraction, and n-digit by 1-digit (nD by 1D) multiplication tasks. Our method significantly reduces the Count of Sequential Intermediate Digits (CSID) to $\mathcal{O}(1)$, a new metric we introduce to assess equation complexity. Through comprehensive testing, RevOrder not only achieves perfect accuracy in basic arithmetic operations but also substantially boosts LLM performance in division tasks, particularly with large numbers where traditional models struggle. Implementation of RevOrder is cost-effective for both training and inference phases. Moreover, applying RevOrder to fine-tune the LLaMA2-7B model on the GSM8K math task results in a considerable improvement, reducing equation calculation errors by 46% and increasing overall scores from 41.6 to 44.4.
翻訳日:2024-02-27 18:40:42 公開日:2024-02-24
# 知識グラフ完成のための大規模言語モデルからの文脈化蒸留

Contextualization Distillation from Large Language Model for Knowledge Graph Completion ( http://arxiv.org/abs/2402.01729v3 )

ライセンス: Link先を確認
Dawei Li, Zhen Tan, Tianlong Chen, Huan Liu(参考訳) テキスト情報は知識グラフ補完(KGC)における事前学習言語モデル(PLM)の性能を大幅に向上させるが、ウィキペディアの記事やシンセット定義から収集された既存のコーパスの静的でノイズの多い性質は、しばしばPLMベースのKGCモデルの可能性を制限する。 これらの課題を克服するため,我々は,多彩なプラグイン・アンド・プレイアプローチであるコンテクスト化蒸留戦略を紹介する。 提案手法は,大規模言語モデル(llm)にコンパクトな構造的三重項をコンテキストリッチセグメントに変換するよう指示することから始まる。 次に,これらの強化三重項から得られた洞察を,より小さなkgcモデルで同一化できるように,復元と文脈化という2つの補助タスクを導入する。 さまざまなデータセットとKGCテクニックにわたる包括的な評価は、アプローチの有効性と適応性を強調し、基盤となるパイプラインやアーキテクチャに関係なく、一貫したパフォーマンス向上を明らかにします。 さらに,本解析により,より説明しやすくなり,経路選択や適切な蒸留タスクの選択に関する知見が得られる。 この作業のコードとデータは、https://github.com/David-Li0406/Contextulization-Distillationで公開される。

While textual information significantly enhances the performance of pre-trained language models (PLMs) in knowledge graph completion (KGC), the static and noisy nature of existing corpora collected from Wikipedia articles or synsets definitions often limits the potential of PLM-based KGC models. To surmount these challenges, we introduce the Contextualization Distillation strategy, a versatile plug-in-and-play approach compatible with both discriminative and generative KGC frameworks. Our method begins by instructing large language models (LLMs) to transform compact, structural triplets into context-rich segments. Subsequently, we introduce two tailored auxiliary tasks, reconstruction and contextualization, allowing smaller KGC models to assimilate insights from these enriched triplets. Comprehensive evaluations across diverse datasets and KGC techniques highlight the efficacy and adaptability of our approach, revealing consistent performance enhancements irrespective of underlying pipelines or architectures. Moreover, our analysis makes our method more explainable and provides insight into generating path selection, as well as the choosing of suitable distillation tasks. All the code and data in this work will be released at https://github.com/David-Li0406/Contextulization-Distillation
翻訳日:2024-02-27 18:39:27 公開日:2024-02-24
# IT組織における競争的アドバンテージとしてのタレント保持の理解と改善のための実行可能なフレームワーク

An Actionable Framework for Understanding and Improving Talent Retention as a Competitive Advantage in IT Organizations ( http://arxiv.org/abs/2402.01573v2 )

ライセンス: Link先を確認
Luiz Alexandre Costa, Edson Dias, Danilo Monteiro Ribeiro, Awdren Font\~ao, Gustavo Pinto, Rodrigo Pereira dos Santos, Alexander Serebrenik(参考訳) 急速に発展するグローバルビジネスの世界では、ソフトウェアに対する需要が組織間の競争を激化させ、ソフトウェア組織における高度なITメンバーを維持する上での課題につながっている。 IT組織が直面している問題の1つは、これらの戦略的プロフェッショナルの維持である。 この作業は、IT組織で使用されるTalent Retention(TR)のための実行可能なフレームワークを提示します。 これは、21のITマネージャによるインタビューの結果に基づいています。 TR Frameworkは私たちの主要な研究成果です。 私たちのフレームワークは、要素、文脈特性、障壁、戦略、対処メカニズムのセットを包含しています。 この結果から,ソフトウェア技術者は他の専門家グループと差別化が可能であることが示唆され,競争的な給与を超えて,心理的安全性,ワークライフバランス,ポジティブな作業環境,革新的で挑戦的なプロジェクト,柔軟な作業といった,IT組織における人材維持の他の要素を考慮する必要がある。 ソフトウェアエンジニアリングの課題に対処し、重要な要素を特定し、個人、チーム、組織レベルで戦略を探求することによって、ITマネージャが人材管理プロセスを改善する上で、ファクタをより深く理解することが可能になる。

In the rapidly evolving global business landscape, the demand for software has intensified competition among organizations, leading to challenges in retaining highly qualified IT members in software organizations. One of the problems faced by IT organizations is the retention of these strategic professionals, also known as talent. This work presents an actionable framework for Talent Retention (TR) used in IT organizations. It is based on our findings from interviews performed with 21 IT managers. The TR Framework is our main research outcome. Our framework encompasses a set of factors, contextual characteristics, barriers, strategies, and coping mechanisms. Our findings indicated that software engineers can be differentiated from other professional groups, and beyond competitive salaries, other elements for retaining talent in IT organizations should be considered, such as psychological safety, work-life balance, a positive work environment, innovative and challenging projects, and flexible work. A better understanding of factors could guide IT managers in improving talent management processes by addressing Software Engineering challenges, identifying important elements, and exploring strategies at the individual, team, and organizational levels.
翻訳日:2024-02-27 18:39:04 公開日:2024-02-24
# 階層的正規化を伴うマルチモーダル・コントラスト EHR モデルによる次回の来院診断予測

Next Visit Diagnosis Prediction via Medical Code-Centric Multimodal Contrastive EHR Modelling with Hierarchical Regularisation ( http://arxiv.org/abs/2401.11648v4 )

ライセンス: Link先を確認
Heejoon Koo(参考訳) エレクトロニック・ヘルス・レコード(EHR)を用いた次の来院診断の予測は、医療機関と患者双方の積極的な将来の計画策定に不可欠である。 しかしながら、多くの先行研究は、EHRデータに固有の不均一性や階層性に十分対応していない。 そこで我々は, 階層的正規化を伴う新しい医用コード中心マルチモーダルコントラスト学習フレームワークであるNECHOを提案する。 まず, 医用コード, 人口統計, 臨床記録を含む多面的情報を, 整形ネットワーク設計と2つの対の両モードのコントラスト的損失を用いて統合し, すべて医療用コード表現を中心に展開する。 EHRデータの階層構造を学習するために、医療オントロジーにおける親レベル情報を用いてモダリティ固有のエンコーダを規則化する。 MIMIC-IIIデータの一連の実験により,本手法の有効性が示された。

Predicting next visit diagnosis using Electronic Health Records (EHR) is an essential task in healthcare, critical for devising proactive future plans for both healthcare providers and patients. Nonetheless, many preceding studies have not sufficiently addressed the heterogeneous and hierarchical characteristics inherent in EHR data, inevitably leading to sub-optimal performance. To this end, we propose NECHO, a novel medical code-centric multimodal contrastive EHR learning framework with hierarchical regularisation. First, we integrate multifaceted information encompassing medical codes, demographics, and clinical notes using a tailored network design and a pair of bimodal contrastive losses, all of which pivot around a medical codes representation. We also regularise modality-specific encoders using a parental level information in medical ontology to learn hierarchical structure of EHR data. A series of experiments on MIMIC-III data demonstrates effectiveness of our approach.
翻訳日:2024-02-27 18:36:29 公開日:2024-02-24
# SDiT:トランスを用いたスパイキング拡散モデル

SDiT: Spiking Diffusion Model with Transformer ( http://arxiv.org/abs/2402.11588v2 )

ライセンス: Link先を確認
Shu Yang, Hanzhi Ma, Chengting Yu, Aili Wang, Er-Ping Li(参考訳) スパイキングニューラルネットワーク (snn) は消費電力が低く, バイオコンタプリタブルな特性を有しており, エネルギー効率の高いコンピューティングの可能性を秘めていると考えられている。 しかし、画像生成タスクにおけるSNNの探索は非常に限定的であり、SNNベースの生成モデルに対する統一的で効果的な構造はまだ提案されていない。 本稿では,スパイクニューラルネットワークにおける新しい拡散モデルアーキテクチャについて検討する。 我々は、主流拡散モデルにおいてよく使われるU-net構造を置き換えるためにトランスフォーマーを利用する。 比較的低い計算コストと短いサンプリング時間で高品質な画像を生成することができる。 SNNに基づく生成モデルの研究のための経験的ベースラインの提供を目的としている。 MNIST、Fashion-MNIST、CIFAR-10データセットの実験は、既存のSNN生成モデルと比較して、我々の研究が非常に競合していることを示している。

Spiking neural networks (SNNs) have low power consumption and bio-interpretable characteristics, and are considered to have tremendous potential for energy-efficient computing. However, the exploration of SNNs on image generation tasks remains very limited, and a unified and effective structure for SNN-based generative models has yet to be proposed. In this paper, we explore a novel diffusion model architecture within spiking neural networks. We utilize transformer to replace the commonly used U-net structure in mainstream diffusion models. It can generate higher quality images with relatively lower computational cost and shorter sampling time. It aims to provide an empirical baseline for research of generative models based on SNNs. Experiments on MNIST, Fashion-MNIST, and CIFAR-10 datasets demonstrate that our work is highly competitive compared to existing SNN generative models.
翻訳日:2024-02-27 18:32:42 公開日:2024-02-24
# 医療AIにおける一般化 : 臨床大言語モデルの評価

Generalization in Healthcare AI: Evaluation of a Clinical Large Language Model ( http://arxiv.org/abs/2402.10965v2 )

ライセンス: Link先を確認
Salman Rahman, Lavender Yao Jiang, Saadia Gabriel, Yindalon Aphinyanaphongs, Eric Karl Oermann and Rumi Chunara(参考訳) 大規模言語モデル(LLM)の進歩は、患者のケアの改善、臨床的意思決定、医師と管理者のワークフローの強化のための医療の新たな機会を提供する。 しかしながら、これらのモデルの可能性は、臨床環境や人口にわたって効果的に一般化する能力に大きく依存する。 これらの課題の理由をよりよく理解し,緩和的アプローチを提示するために,病院間の多様性と患者特性に着目した30日間の完全寛解予測の結果を分析し,[HOSPITAL]の臨床ノートに基づいて訓練した臨床LLMを評価した。 対象は, 行政・未特定保険患者, 高齢者, および, コンコービディティの高い患者で, 患者数が少ない病院では, 一般化が低かった。 一般化の欠如の原因を明らかにするため,本研究では,微調整,ノート内容(ノート数),患者特性(コーディビディティレベル,年齢,保険タイプ,区),健康システム(ホスピタル,全30日間の読解率,死亡率)のサンプルサイズについて検討した。 特徴の識別には記述統計と教師付き分類を用いた。 その結果, サンプルサイズ, 患者年齢, コンボビデンス数, ノート中の単語数などが, 一般化に関連する重要な要因であることがわかった。 最後に,局所ファインチューニング(Hospital specific),インスタンスベースの拡張ファインチューニング,クラスタベースのファインチューニングを比較した。 これらのうち、局所的な微調整が最も効果的であり、aucは0.25%から11.74%に増加した。 本研究は、社会学的に重要な医療分野における大規模言語モデルの展開を促進するための新たな洞察を与え、より広い人口に対するその性能を向上させる。

Advances in large language models (LLMs) provide new opportunities in healthcare for improved patient care, clinical decision-making, and enhancement of physician and administrator workflows. However, the potential of these models importantly depends on their ability to generalize effectively across clinical environments and populations, a challenge often underestimated in early development. To better understand reasons for these challenges and inform mitigation approaches, we evaluated ClinicLLM, an LLM trained on [HOSPITAL]'s clinical notes, analyzing its performance on 30-day all-cause readmission prediction focusing on variability across hospitals and patient characteristics. We found poorer generalization particularly in hospitals with fewer samples, among patients with government and unspecified insurance, the elderly, and those with high comorbidities. To understand reasons for lack of generalization, we investigated sample sizes for fine-tuning, note content (number of words per note), patient characteristics (comorbidity level, age, insurance type, borough), and health system aspects (hospital, all-cause 30-day readmission, and mortality rates). We used descriptive statistics and supervised classification to identify features. We found that, along with sample size, patient age, number of comorbidities, and the number of words in notes are all important factors related to generalization. Finally, we compared local fine-tuning (hospital specific), instance-based augmented fine-tuning and cluster-based fine-tuning for improving generalization. Among these, local fine-tuning proved most effective, increasing AUC by 0.25% to 11.74% (most helpful in settings with limited data). Overall, this study provides new insights for enhancing the deployment of large language models in the societally important domain of healthcare, and improving their performance for broader populations.
翻訳日:2024-02-27 18:32:29 公開日:2024-02-24
# ラマは英語で働きますか。 多言語トランスフォーマーの潜在言語について

Do Llamas Work in English? On the Latent Language of Multilingual Transformers ( http://arxiv.org/abs/2402.10588v2 )

ライセンス: Link先を確認
Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West(参考訳) 言語モデルがどのように機能するか、言語バイアスの起源を理解する上で重要な課題である、英語が支配的なコーパスが内的ピボット言語として英語を使用しているかどうかを問う。 変換器モデルのLlama-2ファミリに着目し,一意に正しい単発連続性を持つ英語でないプロンプトを慎重に構築する。 層から層へ変換器は、最終プロンプトトークンの入力埋め込みを次の確率が計算される出力埋め込みに徐々にマッピングする。 中間埋め込みを高次元空間で追跡することは、3つの異なるフェーズを示し、(1)中間埋め込みは出力トークン埋め込みから遠く離れて始まり、(2)既に中層で意味的に正しい次のトークンをデコードできるが、入力言語よりも英語でそのバージョンに高い確率を与える、(3)埋め込み空間の入力言語特有の領域に移動する。 これらの結果を「入力空間」と「概念空間」と「出力空間」の3つの相がそれぞれ動作する概念モデルにキャストした。 重要な証拠は、抽象的な「概念空間」は他の言語よりも英語に近いことを示しており、これは多言語言語モデルが持つバイアスに関して重要な結果をもたらす可能性がある。

We ask whether multilingual language models trained on unbalanced, English-dominated corpora use English as an internal pivot language -- a question of key importance for understanding how language models function and the origins of linguistic bias. Focusing on the Llama-2 family of transformer models, our study uses carefully constructed non-English prompts with a unique correct single-token continuation. From layer to layer, transformers gradually map an input embedding of the final prompt token to an output embedding from which next-token probabilities are computed. Tracking intermediate embeddings through their high-dimensional space reveals three distinct phases, whereby intermediate embeddings (1) start far away from output token embeddings; (2) already allow for decoding a semantically correct next token in the middle layers, but give higher probability to its version in English than in the input language; (3) finally move into an input-language-specific region of the embedding space. We cast these results into a conceptual model where the three phases operate in "input space", "concept space", and "output space", respectively. Crucially, our evidence suggests that the abstract "concept space" lies closer to English than to other languages, which may have important consequences regarding the biases held by multilingual language models.
翻訳日:2024-02-27 18:31:09 公開日:2024-02-24
# safedecoding:safe-aware decodingによるジェイルブレイク攻撃に対する防御

SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding ( http://arxiv.org/abs/2402.08983v2 )

ライセンス: Link先を確認
Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bill Yuchen Lin, Radha Poovendran(参考訳) 大規模言語モデル(LLM)がコード生成やチャットボット支援といった現実のアプリケーションに統合されるにつれて、安全性を含むLLMの振る舞いを人間の価値と整合させる取り組みが盛んに行われている。 ジェイルブレイク攻撃は、LLMから意図しない、安全でない行動を誘発することを目的としており、LLMの安全性を脅かしている。 本稿では, LLMの安全を意識した復号化戦略であるSafeDecodingを導入して, ユーザクエリに対する有用な無害な応答を生成することで, ジェイルブレイク攻撃に対するLLMの防御を目指す。 セーフデコーディングの考え方は,有害な内容を表すトークンの確率が有害な応答を示すトークンよりも高いにもかかわらず,下位順の確率でトークンをソートした後も,安全宣言者がトップトークンに現れるという観察に基づいている。 これにより、脱獄者を特定し、トークンの確率を増幅することで脱獄攻撃を軽減し、同時に脱獄攻撃の目的と一致したトークンシーケンスの確率を弱めることができる。 6つの最先端脱獄攻撃と4つのベンチマークデータセットを用いて、5つのllmを広範囲に実験した。 この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。 SafeDecodingは6つの防御方法より優れている。

As large language models (LLMs) become increasingly integrated into real-world applications such as code generation and chatbot assistance, extensive efforts have been made to align LLM behavior with human values, including safety. Jailbreak attacks, aiming to provoke unintended and unsafe behaviors from LLMs, remain a significant/leading LLM safety threat. In this paper, we aim to defend LLMs against jailbreak attacks by introducing SafeDecoding, a safety-aware decoding strategy for LLMs to generate helpful and harmless responses to user queries. Our insight in developing SafeDecoding is based on the observation that, even though probabilities of tokens representing harmful contents outweigh those representing harmless responses, safety disclaimers still appear among the top tokens after sorting tokens by probability in descending order. This allows us to mitigate jailbreak attacks by identifying safety disclaimers and amplifying their token probabilities, while simultaneously attenuating the probabilities of token sequences that are aligned with the objectives of jailbreak attacks. We perform extensive experiments on five LLMs using six state-of-the-art jailbreak attacks and four benchmark datasets. Our results show that SafeDecoding significantly reduces the attack success rate and harmfulness of jailbreak attacks without compromising the helpfulness of responses to benign user queries. SafeDecoding outperforms six defense methods.
翻訳日:2024-02-27 18:29:58 公開日:2024-02-24
# クアイジ:中国初の会計大言語モデル

Kuaiji: the First Chinese Accounting Large Language Model ( http://arxiv.org/abs/2402.13866v2 )

ライセンス: Link先を確認
Jiayuan Luo, Songhua Yang, Xiaoling Qiu, Panyu Chen, Yufei Nai, Wenxuan Zeng, Wentao Zhang, Xinke Jiang(参考訳) ChatGPT や GPT-4 のような大規模言語モデル (LLM) は、自然言語の理解と生成に優れた能力を示している。 しかし、会計などの専門分野に適応するにあたっては困難に遭遇する。 この課題に対処するため,我々は,会計用大規模言語モデルであるkuaijiを紹介する。 Kuaijiは、連続的な事前トレーニングと監督された微調整プロセスを含むBaichuanフレームワークを使用して、慎重に微調整されている。 CAtAcctQA(英語版)によってサポートされている、大きな真の会計士とクライアントの対話を含むデータセットは、例外的な精度と応答速度を示す。 当社の貢献は,中国初の会計データセットの作成,中国の主要な会計llmとしてのkuaijiの確立,実世界の会計シナリオによる有効性の検証などに関するものです。

Large Language Models (LLMs) like ChatGPT and GPT-4 have demonstrated impressive proficiency in comprehending and generating natural language. However, they encounter difficulties when tasked with adapting to specialized domains such as accounting. To address this challenge, we introduce Kuaiji, a tailored Accounting Large Language Model. Kuaiji is meticulously fine-tuned using the Baichuan framework, which encompasses continuous pre-training and supervised fine-tuning processes. Supported by CAtAcctQA, a dataset containing large genuine accountant-client dialogues, Kuaiji exhibits exceptional accuracy and response speed. Our contributions encompass the creation of the first Chinese accounting dataset, the establishment of Kuaiji as a leading open-source Chinese accounting LLM, and the validation of its efficacy through real-world accounting scenarios.
翻訳日:2024-02-27 18:18:58 公開日:2024-02-24
# 半線形ニューラルネットワークの学習 : 予測とデータ同化のための統一再帰フレームワーク

Learning Semilinear Neural Operators : A Unified Recursive Framework For Prediction And Data Assimilation ( http://arxiv.org/abs/2402.15656v1 )

ライセンス: Link先を確認
Ashutosh Singh, Ricardo Augusto Borsoi, Deniz Erdogmus, Tales Imbiriba(参考訳) ニューラル演算子(NOs)の理論の最近の進歩は、偏微分方程式(PDE)によって記述された複素系の解の高速かつ正確な計算を可能にしている。 彼らの大きな成功にもかかわらず、現在のNOベースのソリューションは、長期にわたる時空間PDEを扱う際に重要な課題に直面します。 特に、NOsの現在の理論は、わずかにサンプリングされたノイズ測定に基づいて、データ同化を行い、PDE溶液の進化を時間とともに効率的に補正する体系的な枠組みを提示していない。 本稿では,無限次元半線形PDEに対する解演算子を計算するための学習に基づく状態空間アプローチを提案する。 半線形PDEの構造と非線形オブザーバの理論を関数空間で展開し、予測と修正操作を組み合わせることで、予測とデータ同化の両方を可能にする柔軟な再帰的手法を開発した。 提案手法は,長時間の地平線上で高速かつ正確な予測を生成でき,不規則にサンプリングされたノイズ測定を処理して解を補正し,このタイプのpdesの時空間ダイナミクスと時間ダイナミクスの分離による利点を享受できる。 クラモト・シヴァシンスキー,ナヴィエ・ストークス,コルテウェグ・ド・ブリース方程式を用いて,提案モデルが雑音に対して頑健であり,任意の量の測定値を用いて計算オーバーヘッドの少ない長時間地平線上での予測を補正できることを示す。

Recent advances in the theory of Neural Operators (NOs) have enabled fast and accurate computation of the solutions to complex systems described by partial differential equations (PDEs). Despite their great success, current NO-based solutions face important challenges when dealing with spatio-temporal PDEs over long time scales. Specifically, the current theory of NOs does not present a systematic framework to perform data assimilation and efficiently correct the evolution of PDE solutions over time based on sparsely sampled noisy measurements. In this paper, we propose a learning-based state-space approach to compute the solution operators to infinite-dimensional semilinear PDEs. Exploiting the structure of semilinear PDEs and the theory of nonlinear observers in function spaces, we develop a flexible recursive method that allows for both prediction and data assimilation by combining prediction and correction operations. The proposed framework is capable of producing fast and accurate predictions over long time horizons, dealing with irregularly sampled noisy measurements to correct the solution, and benefits from the decoupling between the spatial and temporal dynamics of this class of PDEs. We show through experiments on the Kuramoto-Sivashinsky, Navier-Stokes and Korteweg-de Vries equations that the proposed model is robust to noise and can leverage arbitrary amounts of measurements to correct its prediction over a long time horizon with little computational overhead.
翻訳日:2024-02-27 17:43:49 公開日:2024-02-24
# 顧客サービスにおけるコンタクト複雑性

Contact Complexity in Customer Service ( http://arxiv.org/abs/2402.15655v1 )

ライセンス: Link先を確認
Shu-Ting Pi, Michael Yang, Qun Liu(参考訳) カスタマーサービスのサポートに手を差し伸べる顧客は、複雑さの異なるさまざまな問題に直面します。 ジュニアエージェントに高複雑さのコンタクトをルーティングすることは、複数の転送や繰り返しのコンタクトにつながるが、上級エージェントに低複雑さのコンタクトを指示することは、プロの助けを必要とする顧客を支援する能力に負担を与える可能性がある。 これに取り組むために、顧客の問題の複雑さを正確に予測する機械学習モデルが非常に望ましい。 しかし、非常に抽象的な概念であるため、接触の複雑さを定義することは難しい作業である。 経験豊富なエージェントによるコンセンサスベースのデータアノテーションは可能な解決策であるが、時間とコストがかかる。 これらの課題を克服するために,接触複雑性を定義する新しい機械学習アプローチを開発した。 人間のアノテーションに頼る代わりに、エージェントの振る舞いを模倣するAI専門家モデルを訓練し、AI専門家の反応に基づいて、各コンタクトの複雑さを評価しました。 AIの専門家が不確実か、あるいは連絡先を理解できない場合、高い複雑さの接触と見なされる。 本手法は, 収集したデータに基づいて信頼性, スケーラビリティ, 費用対効果を実証した。

Customers who reach out for customer service support may face a range of issues that vary in complexity. Routing high-complexity contacts to junior agents can lead to multiple transfers or repeated contacts, while directing low-complexity contacts to senior agents can strain their capacity to assist customers who need professional help. To tackle this, a machine learning model that accurately predicts the complexity of customer issues is highly desirable. However, defining the complexity of a contact is a difficult task as it is a highly abstract concept. While consensus-based data annotation by experienced agents is a possible solution, it is time-consuming and costly. To overcome these challenges, we have developed a novel machine learning approach to define contact complexity. Instead of relying on human annotation, we trained an AI expert model to mimic the behavior of agents and evaluate each contact's complexity based on how the AI expert responds. If the AI expert is uncertain or lacks the skills to comprehend the contact transcript, it is considered a high-complexity contact. Our method has proven to be reliable, scalable, and cost-effective based on the collected data.
翻訳日:2024-02-27 17:43:22 公開日:2024-02-24
# 物理力学のマルチモーダル推論における障害事例の検討

Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics ( http://arxiv.org/abs/2402.15654v1 )

ライセンス: Link先を確認
Sadaf Ghaffari, Nikhil Krishnaswamy(参考訳) 本稿では, 位置環境における物理推論を用いて, LLMの問題解決能力について検討する。 単純なシミュレート環境を構築し,ゼロショット設定において,テキストとマルチモーダルllmの両方が様々なオブジェクトに関するアトミックワールドの知識を表示するが,オブジェクト操作や配置タスクの正しい解ではその知識を合成できないことを示す。 また、より洗練されたクロスモーダルな注意で訓練された視覚言語モデルBLIPを使用して、そのモデルがグラウンドに失敗するオブジェクトの物理的特性に関連する事例を特定する。 最後に,環境中の物体の関連性を発見するための手法を提案し,その知識をLLMに還元する方法を提案する。

In this paper, we present an exploration of LLMs' abilities to problem solve with physical reasoning in situated environments. We construct a simple simulated environment and demonstrate examples of where, in a zero-shot setting, both text and multimodal LLMs display atomic world knowledge about various objects but fail to compose this knowledge in correct solutions for an object manipulation and placement task. We also use BLIP, a vision-language model trained with more sophisticated cross-modal attention, to identify cases relevant to object physical properties that that model fails to ground. Finally, we present a procedure for discovering the relevant properties of objects in the environment and propose a method to distill this knowledge back into the LLM.
翻訳日:2024-02-27 17:43:02 公開日:2024-02-24
# foot in the door: 認知心理学による大規模言語モデル脱獄の理解

Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology ( http://arxiv.org/abs/2402.15690v1 )

ライセンス: Link先を確認
Zhenhua Wang, Wei Xie, Baosheng Wang, Enze Wang, Zhiwen Gui, Shuoyoucheng Ma, Kai Chen(参考訳) 大規模言語モデル(LLM)は、人々が新たな知識を得るためのゲートウェイになりつつある。 しかし、攻撃者は制限された情報にアクセスするためにモデルのセキュリティ保護("jail")を破ることができ、これは"jailbreaking"と呼ばれる。 これまでの研究では、脱獄攻撃に直面すると現在のllmの弱点が示されている。 それにもかかわらず、ジェイルブレイクプロンプトの受信によるLSM内の本質的な意思決定機構の理解は著しく欠如している。 本研究は脱獄プロンプトの心理的な説明を提供する。 認知整合性理論に基づいて, ジェイルブレイクの鍵は, LLMを誤った方向への認知協調を達成するよう導くことであると論じる。 さらに,フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。 この方法は、多段階のインクリメンタルなプロンプトを通じて有害な質問に答えるモデルを段階的に誘導する。 8種類の先進LDMにおける脱獄効果を評価するためのプロトタイプシステムを試作し, 平均成功率83.9%を得た。 本研究は, LLMの内在的意思決定論理に関する説明的洞察を心理学的に捉えたものである。

Large Language Models (LLMs) have gradually become the gateway for people to acquire new knowledge. However, attackers can break the model's security protection ("jail") to access restricted information, which is called "jailbreaking." Previous studies have shown the weakness of current LLMs when confronted with such jailbreaking attacks. Nevertheless, comprehension of the intrinsic decision-making mechanism within the LLMs upon receipt of jailbreak prompts is noticeably lacking. Our research provides a psychological explanation of the jailbreak prompts. Drawing on cognitive consistency theory, we argue that the key to jailbreak is guiding the LLM to achieve cognitive coordination in an erroneous direction. Further, we propose an automatic black-box jailbreaking method based on the Foot-in-the-Door (FITD) technique. This method progressively induces the model to answer harmful questions via multi-step incremental prompts. We instantiated a prototype system to evaluate the jailbreaking effectiveness on 8 advanced LLMs, yielding an average success rate of 83.9%. This study builds a psychological perspective on the explanatory insights into the intrinsic decision-making logic of LLMs.
翻訳日:2024-02-27 17:32:34 公開日:2024-02-24
# アンカーグラフ因子化に基づくアンカーフリークラスタリング

Anchor-free Clustering based on Anchor Graph Factorization ( http://arxiv.org/abs/2402.15688v1 )

ライセンス: Link先を確認
Shikun Mei, Fangfang Li, Quanxue Gao, Ming Yang(参考訳) アンカーベースの手法は、大規模データのクラスタリングを扱う上で重要なアプローチである。 しかし、これらの手法は通常、アンカー点の選択とアンカーグラフの構築という2つの異なる段階を含む。 この分岐は、アンカー点の初期化とともに、アルゴリズム全体の性能に大きな影響を及ぼす。 これらの問題を緩和するため,Anchor Graph Factorization (AFCAGF) に基づくアンカーフリークラスタリング手法を提案する。 AFCAGFはアンカーグラフの学習において革新的であり、サンプル間のペア距離の計算のみを必要とする。 このプロセスは単純最適化によって実現可能であり、アンカーポイントの明示的な選択の必要性を回避できる。 より具体的には、このアプローチはファジィk-meansクラスタリングアルゴリズム(fkm)を強化し、クラスタセンタの初期化の必要性を緩和する新しい多様体学習技術を導入する。 さらに、FKMにおけるクラスタセンターとサンプル間のメンバシップ行列の概念を、複数のアンカーポイントとサンプルを含むアンカーグラフに進化させる。 このアンカーグラフに非負行列分解(NMF)を用いることで、クラスタラベルの直接導出が可能となり、さらなる後処理ステップの必要がなくなる。 提案手法を解くために,収束を確実にする交互最適化アルゴリズムを実装した。 様々な実世界のデータセットにおける経験的評価は、従来の手法と比較してアルゴリズムの優れた効果を強調する。

Anchor-based methods are a pivotal approach in handling clustering of large-scale data. However, these methods typically entail two distinct stages: selecting anchor points and constructing an anchor graph. This bifurcation, along with the initialization of anchor points, significantly influences the overall performance of the algorithm. To mitigate these issues, we introduce a novel method termed Anchor-free Clustering based on Anchor Graph Factorization (AFCAGF). AFCAGF innovates in learning the anchor graph, requiring only the computation of pairwise distances between samples. This process, achievable through straightforward optimization, circumvents the necessity for explicit selection of anchor points. More concretely, our approach enhances the Fuzzy k-means clustering algorithm (FKM), introducing a new manifold learning technique that obviates the need for initializing cluster centers. Additionally, we evolve the concept of the membership matrix between cluster centers and samples in FKM into an anchor graph encompassing multiple anchor points and samples. Employing Non-negative Matrix Factorization (NMF) on this anchor graph allows for the direct derivation of cluster labels, thereby eliminating the requirement for further post-processing steps. To solve the method proposed, we implement an alternating optimization algorithm that ensures convergence. Empirical evaluations on various real-world datasets underscore the superior efficacy of our algorithm compared to traditional approaches.
翻訳日:2024-02-27 17:32:16 公開日:2024-02-24
# 医用画像登録のための汎用画像エンコーダdinov2

General Purpose Image Encoder DINOv2 for Medical Image Registration ( http://arxiv.org/abs/2402.15687v1 )

ライセンス: Link先を確認
Xinrui Song, Xuanang Xu, Pingkun Yan(参考訳) 既存の医療画像登録アルゴリズムは、画像を調整するためにデータセット固有のトレーニングまたはローカルテクスチャベースの機能に依存している。 前者は大きなモダリティ固有のトレーニングデータセットなしでは確実に実装できないが、後者はグローバルセマンティクスを欠いているため、ローカルなミニマで簡単に捕捉できる。 本稿では,画像特徴抽出のための汎用画像エンコーダDINOv2を活用する,トレーニング不要な変形可能な画像登録手法DINO-Regを提案する。 DINOv2エンコーダは、自然画像を含むImageNetデータを使って訓練された。 DINOv2を微調整なしで使用した。 提案手法は,DINOv2符号化された特徴を離散最適化器に供給し,最適な変形可能な登録フィールドを求める。 我々は,画像登録の応用において,このような汎用画像エンコーダの動作と役割を理解するために,一連の実験を行った。 最近のOncoReg Challengeでは,手作りの特徴と組み合わせて,本手法が第一位となった。 我々の知る限り、医療画像登録における一般ビジョン基礎モデルの初めての応用である。

Existing medical image registration algorithms rely on either dataset specific training or local texture-based features to align images. The former cannot be reliably implemented without large modality-specific training datasets, while the latter lacks global semantics thus could be easily trapped at local minima. In this paper, we present a training-free deformable image registration method, DINO-Reg, leveraging a general purpose image encoder DINOv2 for image feature extraction. The DINOv2 encoder was trained using the ImageNet data containing natural images. We used the pretrained DINOv2 without any finetuning. Our method feeds the DINOv2 encoded features into a discrete optimizer to find the optimal deformable registration field. We conducted a series of experiments to understand the behavior and role of such a general purpose image encoder in the application of image registration. Combined with handcrafted features, our method won the first place in the recent OncoReg Challenge. To our knowledge, this is the first application of general vision foundation models in medical image registration.
翻訳日:2024-02-27 17:31:57 公開日:2024-02-24
# 通信複雑性を用いた量子インスパイアされた古典アルゴリズムの下限

Lower bounds for quantum-inspired classical algorithms via communication complexity ( http://arxiv.org/abs/2402.15686v1 )

ライセンス: Link先を確認
Nikhil S. Mande and Changpeng Shao(参考訳) 量子に触発された古典的アルゴリズムは、量子コンピュータの計算能力を理解する新しい方法を提供してくれます。 過去数年間、様々なタスクに対する多くの効率的なアルゴリズムが発見されているが、下位境界の解析はいまだに欠けている。 本研究は,コミュニケーションの複雑さを用いて,これらの課題の下位境界を研究するための最初の手法を提案する。 線形回帰,教師付きクラスタリング,主成分分析,レコメンデーションシステム,ハミルトニアンシミュレーションの解法として,下限に着目した。 より正確には、線形回帰について、行スパースの場合、下界は、基礎となる行列のフロベニウスノルムにおいて2次的であることを示す。 濃密な場合、その精度について余分な仮定をすれば、下界は上界と一致するフロベニウスノルムにおいて四角形であることが分かる。 教師付きクラスタリングでは、フロベニウスノルムにおいて四分の一の厳密な下界が得られる。 他の3つのタスクについて、フロベニウスノルムにおいて二次であり、既知の上界はフロベニウスノルムにおいて四進法である下界を得る。 本研究により, スパース, 高位, 条件のよい行列関連問題に対して, 大規模な量子スピードアップが存在することがわかった。 最後に,本手法を拡張し,行列問題に対する量子クエリアルゴリズムの下限解析を行う。 応用がいくつかある。

Quantum-inspired classical algorithms provide us with a new way to understand the computational power of quantum computers for practically-relevant problems, especially in machine learning. In the past several years, numerous efficient algorithms for various tasks have been found, while an analysis of lower bounds is still missing. Using communication complexity, in this work we propose the first method to study lower bounds for these tasks. We mainly focus on lower bounds for solving linear regressions, supervised clustering, principal component analysis, recommendation systems, and Hamiltonian simulations. More precisely, we show that for linear regressions, in the row-sparse case, the lower bound is quadratic in the Frobenius norm of the underlying matrix, which is tight. In the dense case, with an extra assumption on the accuracy we obtain that the lower bound is quartic in the Frobenius norm, which matches the upper bound. For supervised clustering, we obtain a tight lower bound that is quartic in the Frobenius norm. For the other three tasks, we obtain a lower bound that is quadratic in the Frobenius norm, and the known upper bound is quartic in the Frobenius norm. Through this research, we find that large quantum speedup can exist for sparse, high-rank, well-conditioned matrix-related problems. Finally, we extend our method to study lower bounds analysis of quantum query algorithms for matrix-related problems. Some applications are given.
翻訳日:2024-02-27 17:31:41 公開日:2024-02-24
# Exit Ripple Effects: 社員の退社後の社会化ネットワークの崩壊を理解する

Exit Ripple Effects: Understanding the Disruption of Socialization Networks Following Employee Departures ( http://arxiv.org/abs/2402.15683v1 )

ライセンス: Link先を確認
David Gamba, Yulin Yu, Yuan Yuan, Grant Schoenebeck, Daniel M. Romero(参考訳) 不確実性と頻繁な再編の中で、従業員の退社の影響が組織の中心的関心事となっている。 大手企業からの豊富なコミュニケーションデータを用いて、残りの同僚のソーシャル化ネットワークに対する従業員の退社の影響を検討する。 具体的には、歴史的に離職した従業員と交流した人々の間でネットワークメトリクスがどのように変化するかを検討する。 残りの同僚とのコミュニケーションにおいて、同僚の離脱後、より少ない相互作用でつながりが薄れる傾向の「ブレイクダウン」の証拠が見つかる。 この効果は、組織的ストレスの期間などの外部要因と、退社する従業員の特性のような内部要因の両方によって中和されているように見える。 外部レベルでは、高いストレスの周期は、より大きなコミュニケーション障害に対応するが、内部レベルでは、ネットワークの隣人が出発した後、個人がネットワーク内でより良く位置決めできることを示すパターンが見つかる。 本研究は、従業員の退社を前に、従業員の変化を管理し、コミュニケーションのダイナミクスを維持するための重要な洞察を提供する。

Amidst growing uncertainty and frequent restructurings, the impacts of employee exits are becoming one of the central concerns for organizations. Using rich communication data from a large holding company, we examine the effects of employee departures on socialization networks among the remaining coworkers. Specifically, we investigate how network metrics change among people who historically interacted with departing employees. We find evidence of ``breakdown" in communication among the remaining coworkers, who tend to become less connected with fewer interactions after their coworkers' departure. This effect appears to be moderated by both external factors, such as periods of high organizational stress, and internal factors, such as the characteristics of the departing employee. At the external level, periods of high stress correspond to greater communication breakdown; at the internal level, however, we find patterns suggesting individuals may end up better positioned in their networks after a network neighbor's departure. Overall, our study provides critical insights into managing workforce changes and preserving communication dynamics in the face of employee exits.
翻訳日:2024-02-27 17:31:15 公開日:2024-02-24
# グラフコントラスト学習評価における落とし穴の克服:総合ベンチマークに向けて

Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward Comprehensive Benchmarks ( http://arxiv.org/abs/2402.15680v1 )

ライセンス: Link先を確認
Qian Ma, Hongliang Chi, Hengrui Zhang, Kay Liu, Zhiwei Zhang, Lu Cheng, Suhang Wang, Philip S. Yu, Yao Ma(参考訳) ラベル付きデータを必要としないセルフ教師付き学習の台頭は、グラフ学習コミュニティにおいて大きな関心を集めている。 この熱意により、多くのグラフコントラスト学習(GCL)技術が開発され、様々な下流タスクにラベルなしデータの富を活用する多目的グラフエンコーダの開発を目指している。 しかしながら、GCLアプローチの現在の評価基準は、事前トレーニング中に広範なハイパーパラメータチューニングが必要であり、評価のために単一の下流タスクに依存するため、欠陥がある。 これらの欠陥は、評価を意図した目標から切り離し、誤解を招く可能性がある。 本稿では,これらの欠点を徹底的に検討し,gcl手法がハイパーパラメータ選択によってどのように影響を受けるか,その評価に下流タスクを選択するか,という新しい視点を提供する。 さらに,GCL手法の有効性,一貫性,全体的な性能をより正確に評価する拡張評価フレームワークを導入する。

The rise of self-supervised learning, which operates without the need for labeled data, has garnered significant interest within the graph learning community. This enthusiasm has led to the development of numerous Graph Contrastive Learning (GCL) techniques, all aiming to create a versatile graph encoder that leverages the wealth of unlabeled data for various downstream tasks. However, the current evaluation standards for GCL approaches are flawed due to the need for extensive hyper-parameter tuning during pre-training and the reliance on a single downstream task for assessment. These flaws can skew the evaluation away from the intended goals, potentially leading to misleading conclusions. In our paper, we thoroughly examine these shortcomings and offer fresh perspectives on how GCL methods are affected by hyper-parameter choices and the choice of downstream tasks for their evaluation. Additionally, we introduce an enhanced evaluation framework designed to more accurately gauge the effectiveness, consistency, and overall capability of GCL methods.
翻訳日:2024-02-27 17:30:57 公開日:2024-02-24
# ランダム投影を用いたスケーラブル密度クラスタリング

Scalable Density-based Clustering with Random Projections ( http://arxiv.org/abs/2402.15679v1 )

ライセンス: Link先を確認
Haochuan Xu, Ninh Pham(参考訳) 本稿では,コサイン距離の高い高次元密度クラスタリングアルゴリズムであるsDBSCANを提案する。 ランダムな投影の近傍保存特性を利用して、sDBSCANは、密度に基づくクラスタリングの主要なハードルであるコアポイントとその近傍を素早く特定できる。 理論的には、sDBSCANはDBSCANに似たクラスタリング構造を高い確率で穏やかな条件下で出力する。 sDBSCANをさらに促進するために、本発明のクラスタリング構造をインタラクティブに探索するためのスケーラブルなOPTICSであるsOPTICSを提案する。 また、sDBSCAN と sOPTICS を L2, L1, $\chi^2$, Jensen-Shannon 距離にランダムなカーネル特徴により拡張する。 実世界の百万点データセット上の他の多くのクラスタリングアルゴリズムよりも、sdbscanは非常に高速で、高い精度を提供する。 これらのデータセットでは、sDBSCANとsOPTICSは数分で実行され、Scikit-learnはメモリ制約のために数時間、あるいは実行できない。

We present sDBSCAN, a scalable density-based clustering algorithm in high dimensions with cosine distance. Utilizing the neighborhood-preserving property of random projections, sDBSCAN can quickly identify core points and their neighborhoods, the primary hurdle of density-based clustering. Theoretically, sDBSCAN outputs a clustering structure similar to DBSCAN under mild conditions with high probability. To further facilitate sDBSCAN, we present sOPTICS, a scalable OPTICS for interactive exploration of the intrinsic clustering structure. We also extend sDBSCAN and sOPTICS to L2, L1, $\chi^2$, and Jensen-Shannon distances via random kernel features. Empirically, sDBSCAN is significantly faster and provides higher accuracy than many other clustering algorithms on real-world million-point data sets. On these data sets, sDBSCAN and sOPTICS run in a few minutes, while the scikit-learn's counterparts demand several hours or cannot run due to memory constraints.
翻訳日:2024-02-27 17:30:39 公開日:2024-02-24
# 人間-ロボット信頼の参加と社会正義志向の尺度に向けて

Towards a Participatory and Social Justice-Oriented Measure of Human-Robot Trust ( http://arxiv.org/abs/2402.15671v1 )

ライセンス: Link先を確認
Raj Korpan(参考訳) ヒト-ロボット信頼の多くの尺度は、その多くの次元にもかかわらず信頼に影響を与える要因を捉えようと試みているため、HRIの研究文献全体で増大してきた。 しかし、これまでの信頼度尺度では、HRI研究における不平等と権力の構造の体系や、HRIシステムによる系統的バイアスや潜在的危害に対処する試みには対応していない。 本稿では,信頼度尺度の設計と評価のための参加的かつ社会的正義志向のアプローチを提案する。 このプロセスは、HRIシステムが作成されているコミュニティとの信頼度を反復的に設計する。 このプロセスは、ロボットに対する信頼に影響を与える要因を正確に反映した信頼尺度を作成するために、コミュニティのニーズとユニークな状況が優先される。

Many measures of human-robot trust have proliferated across the HRI research literature because each attempts to capture the factors that impact trust despite its many dimensions. None of the previous trust measures, however, address the systems of inequity and structures of power present in HRI research or attempt to counteract the systematic biases and potential harms caused by HRI systems. This position paper proposes a participatory and social justice-oriented approach for the design and evaluation of a trust measure. This proposed process would iteratively co-design the trust measure with the community for whom the HRI system is being created. The process would prioritize that community's needs and unique circumstances to produce a trust measure that accurately reflects the factors that impact their trust in a robot.
翻訳日:2024-02-27 17:30:20 公開日:2024-02-24
# 同時人事シフト計画と非関連並列機械スケジューリングのための数学的モデル

A mathematical model for simultaneous personnel shift planning and unrelated parallel machine scheduling ( http://arxiv.org/abs/2402.15670v1 )

ライセンス: Link先を確認
Maziyar Khadivi, Mostafa Abbasi, Todd Charter, Homayoun Najjaran(参考訳) 本稿では,人的利用制約を伴う非関連並列機械スケジューリングに着目し,産業利用事例から得られた生産スケジューリング問題に対処する。 提案モデルでは,複数周期のスケジューリングホライズンズ上で生産計画の最適化を行い,各期間における人員シフト時間の変化を考慮した。 機械間での人員共有を前提としており、作業処理中に機械の設置と監督に1人の人員を要している。 利用可能な人員はマシンよりも少ないため、並列に動作可能なマシンの数を制限することができる。 このモデルは、マシン依存の処理時間とシーケンス依存のセットアップ時間を考慮した総生産時間を最小化することを目的としている。 このモデルは、機械の適性制約や生産時間ウィンドウのような実用的なシナリオを扱う。 連続変数と地区変数の両方を考慮した混合整数線形計画法(MILP)モデルを導入する。 2段階の解法により計算速度が向上し、まずジョブを最大化し、生産時間を最小化する。 食品加工工場における合成問題事例の検証と実産業事例研究は,人事シフト計画におけるモデルの性能とその有用性を示している。 この結果は、生産スケジュールの文脈において、実践的な管理的意思決定に貴重な洞察を与える。

This paper addresses a production scheduling problem derived from an industrial use case, focusing on unrelated parallel machine scheduling with the personnel availability constraint. The proposed model optimizes the production plan over a multi-period scheduling horizon, accommodating variations in personnel shift hours within each time period. It assumes shared personnel among machines, with one personnel required per machine for setup and supervision during job processing. Available personnel are fewer than the machines, thus limiting the number of machines that can operate in parallel. The model aims to minimize the total production time considering machine-dependent processing times and sequence-dependent setup times. The model handles practical scenarios like machine eligibility constraints and production time windows. A Mixed Integer Linear Programming (MILP) model is introduced to formulate the problem, taking into account both continuous and district variables. A two-step solution approach enhances computational speed, first maximizing accepted jobs and then minimizing production time. Validation with synthetic problem instances and a real industrial case study of a food processing plant demonstrates the performance of the model and its usefulness in personnel shift planning. The findings offer valuable insights for practical managerial decision-making in the context of production scheduling.
翻訳日:2024-02-27 17:30:08 公開日:2024-02-24
# オンラインカスタマサービスにおけるユニバーサルモデル

Universal Model in Online Customer Service ( http://arxiv.org/abs/2402.15666v1 )

ライセンス: Link先を確認
Shu-Ting Pi, Cheng-Ping Hsieh, Qun Liu, Yuying Zhu(参考訳) 機械学習モデルの構築は、典型的なビジネスシナリオで実装されるのに数ヶ月を要する場合が多い。 データ分散における一貫したモデル性能を保証するためには、定期的な再訓練が必要である。 本稿では,eコマースにおけるオンライン顧客サービスを改善するためのソリューションについて紹介する。 我々の新しいアプローチは、機械学習技術を用いて顧客の質問をテキストにタグ付けし、質問と対応するラベルのリポジトリを作成することである。 顧客が支援を要求すると、情報検索モデルは同様の質問をリポジトリに検索し、統計分析を用いて対応するラベルを予測する。 個別のモデルトレーニングとメンテナンスの必要性を排除することで、我々のアプローチはモデル開発サイクルとコストの両方を削減する。 リポジトリは、正確性を維持するために定期的な更新のみを必要とする。

Building machine learning models can be a time-consuming process that often takes several months to implement in typical business scenarios. To ensure consistent model performance and account for variations in data distribution, regular retraining is necessary. This paper introduces a solution for improving online customer service in e-commerce by presenting a universal model for predict-ing labels based on customer questions, without requiring training. Our novel approach involves using machine learning techniques to tag customer questions in transcripts and create a repository of questions and corresponding labels. When a customer requests assistance, an information retrieval model searches the repository for similar questions, and statistical analysis is used to predict the corresponding label. By eliminating the need for individual model training and maintenance, our approach reduces both the model development cycle and costs. The repository only requires periodic updating to maintain accuracy.
翻訳日:2024-02-27 17:29:49 公開日:2024-02-24
# 知的ルーティングにおける複雑度に関する教師学生の学習

Teacher-Student Learning on Complexity in Intelligent Routing ( http://arxiv.org/abs/2402.15665v1 )

ライセンス: Link先を確認
Shu-Ting Pi, Michael Yang, Yuying Zhu, Qun Liu(参考訳) 顧客サービスは電子商取引サイトにとって最も時間がかかり、それぞれの連絡先は通常10~15分かかる。 したがって、顧客を転送なしで適切なエージェントにルーティングすることは、電子商取引の成功に不可欠である。 そこで我々は,顧客との接点の複雑さを予測し,適切なエージェントにルーティングする機械学習フレームワークを開発した。 この枠組みは2つの部分からなる。 まず,教師モデルを用いて,接触後の書き起こしに基づいて,接触の複雑さを評価する。 次に,教師モデルをデータアノテータとして使用して,事前接触データのみに基づいて複雑性を予測する学生モデルをトレーニングするラベルを提供する。 我々の実験は、このようなフレームワークが成功し、顧客の体験を大幅に改善できることを示している。 また,顧客サービスの有効性を統計的に評価する,複雑性AUCと呼ばれる有用な指標を提案する。

Customer service is often the most time-consuming aspect for e-commerce websites, with each contact typically taking 10-15 minutes. Effectively routing customers to appropriate agents without transfers is therefore crucial for e-commerce success. To this end, we have developed a machine learning framework that predicts the complexity of customer contacts and routes them to appropriate agents accordingly. The framework consists of two parts. First, we train a teacher model to score the complexity of a contact based on the post-contact transcripts. Then, we use the teacher model as a data annotator to provide labels to train a student model that predicts the complexity based on pre-contact data only. Our experiments show that such a framework is successful and can significantly improve customer experience. We also propose a useful metric called complexity AUC that evaluates the effectiveness of customer service at a statistical level.
翻訳日:2024-02-27 17:29:35 公開日:2024-02-24
# quarton couplerを用いた超高速超伝導量子ビット再生

Ultrafast Superconducting Qubit Readout with the Quarton Coupler ( http://arxiv.org/abs/2402.15664v1 )

ライセンス: Link先を確認
Yufeng Ye, Jeremy B. Kline, Sean Chen, Kevin P. O'Brien(参考訳) 高速、高忠実、量子非退化(qnd)量子ビット読み出しは、量子情報処理の重要な要素である。 超伝導量子ビットでは、最先端の読み出しは量子ビットと読み出し共振器の間の分散クロスカーカップリングに基づいている。 結果の読み出し時間は高忠実度とQNDであるが、現在の読み出し時間は10MHzの分散クロスカーのために50 nsに制限されている。 ここでは、クォートンカプラを用いてトランスモンキュービットと読み出し共振器との間の大きな(250MHzを超える)クロスカーを容易にする新しい読み出し方式を提案する。 完全なマスター方程式シミュレーションは、99%以上の読み出し時間とQND忠実度で5 nsの読み出し時間を示す。 最先端の分散読み出しとは異なり、提案された「四重項読み出し」方式は、線形化遷移を読み出し共振器とするトランスモンに依存する。 このような操作点は、結合系の詳細な理論的処理とパラメータ研究から得られる。 クォートニック・リードアウト回路も実験的に実現可能であり、キュービットのコヒーレンス特性を保っている。 本研究は,既存の設計では到達不能なパラメータ系における非線形光マッターカップリングによる超電導量子ビット読み出しの桁違い性向上のための新しい経路を明らかにする。

Fast, high-fidelity, and quantum nondemolition (QND) qubit readout is an essential element of quantum information processing. For superconducting qubits, state-of-the-art readout is based on a dispersive cross-Kerr coupling between a qubit and its readout resonator. The resulting readout can be high-fidelity and QND, but readout times are currently limited to the order of 50 ns due to the dispersive cross-Kerr of magnitude 10 MHz. Here, we present a new readout scheme that uses the quarton coupler to facilitate a large (greater than 250 MHz) cross-Kerr between a transmon qubit and its readout resonator. Full master equation simulations show a 5 ns readout time with greater than 99% readout and QND fidelity. Unlike state-of-the-art dispersive readout, the proposed "quartonic readout" scheme relies on a transmon with linearized transitions as the readout resonator. Such operational points are found from a detailed theoretical treatment and parameter study of the coupled system. The quartonic readout circuit is also experimentally feasible and preserves the coherence properties of the qubit. Our work reveals a new path for order-of-magnitude improvements of superconducting qubit readout by engineering nonlinear light-matter couplings in parameter regimes unreachable by existing designs.
翻訳日:2024-02-27 17:29:22 公開日:2024-02-24
# 薬理学的イベント抽出におけるChatGPTの活用 : 実証的研究

Leveraging ChatGPT in Pharmacovigilance Event Extraction: An Empirical Study ( http://arxiv.org/abs/2402.15663v1 )

ライセンス: Link先を確認
Zhaoyue Sun, Gabriele Pergola, Byron C. Wallace and Yulan He(参考訳) 大規模言語モデル(llm)の出現により、医学的応用の可能性について探究する関心が高まっている。 本研究の目的は, 薬物移動イベント抽出におけるLSM, 特にChatGPTの能力について検討することであり, その主な目的は, テキスト医療ソースから有害事象や潜在的治療イベントを識別・抽出することである。 薬物移動イベント抽出タスクにおけるChatGPTの性能を評価するための広範囲な実験を行い、様々なプロンプトとデモ選択戦略を用いた。 この結果から,ChatGPTは適切な実演選択戦略を用いて合理的な性能を示すが,完全微調整された小型モデルに比べ,依然として不足していることがわかった。 さらに,データ拡張にChatGPTを活用する可能性についても検討する。 しかし,本研究では,合成データを微調整に組み込むことで,ChatGPT生成ラベルのノイズによる性能低下につながる可能性が示唆された。 これを軽減するため、異なるフィルタリング戦略を検討し、適切なアプローチでより安定したパフォーマンスを実現することができることを見出します。

With the advent of large language models (LLMs), there has been growing interest in exploring their potential for medical applications. This research aims to investigate the ability of LLMs, specifically ChatGPT, in the context of pharmacovigilance event extraction, of which the main goal is to identify and extract adverse events or potential therapeutic events from textual medical sources. We conduct extensive experiments to assess the performance of ChatGPT in the pharmacovigilance event extraction task, employing various prompts and demonstration selection strategies. The findings demonstrate that while ChatGPT demonstrates reasonable performance with appropriate demonstration selection strategies, it still falls short compared to fully fine-tuned small models. Additionally, we explore the potential of leveraging ChatGPT for data augmentation. However, our investigation reveals that the inclusion of synthesized data into fine-tuning may lead to a decrease in performance, possibly attributed to noise in the ChatGPT-generated labels. To mitigate this, we explore different filtering strategies and find that, with the proper approach, more stable performance can be achieved, although constant improvement remains elusive.
翻訳日:2024-02-27 17:29:03 公開日:2024-02-24
# GiMeFive: 解釈可能な顔の感情分類を目指して

GiMeFive: Towards Interpretable Facial Emotion Classification ( http://arxiv.org/abs/2402.15662v1 )

ライセンス: Link先を確認
Jiawen Wang and Leah Kawka(参考訳) 深層畳み込みニューラルネットワークは、コンピュータビジョンの領域で過去数年間、顔の感情を認識することに成功した。 しかし,既存の検出手法は必ずしも信頼性や説明可能なものではないため,我々は階層活性化と勾配重み付きクラスアクティベーションマッピングを用いたGiMeFiveモデルを提案する。 我々は6つの顔の感情を分類する最先端の方法と比較した。 実験結果から,2つの表情認識(FER)ベンチマークと集約したFER GiMeFiveにおいて,従来の手法よりも精度が高いことがわかった。 さらに,実世界の映像やビデオの例,リアルタイムのライブカメラストリームについても紹介する。 コードと補足資料はhttps: //github.com/werywjw/SEP-CVDLで公開されています。

Deep convolutional neural networks have been shown to successfully recognize facial emotions for the past years in the realm of computer vision. However, the existing detection approaches are not always reliable or explainable, we here propose our model GiMeFive with interpretations, i.e., via layer activations and gradient-weighted class activation mapping. We compare against the state-of-the-art methods to classify the six facial emotions. Empirical results show that our model outperforms the previous methods in terms of accuracy on two Facial Emotion Recognition (FER) benchmarks and our aggregated FER GiMeFive. Furthermore, we explain our work in real-world image and video examples, as well as real-time live camera streams. Our code and supplementary material are available at https: //github.com/werywjw/SEP-CVDL.
翻訳日:2024-02-27 17:28:44 公開日:2024-02-24
# DeepLight:マルチモードリモートセンシングデータによる夜間光の高分解能観測の再構築

DeepLight: Reconstructing High-Resolution Observations of Nighttime Light With Multi-Modal Remote Sensing Data ( http://arxiv.org/abs/2402.15659v1 )

ライセンス: Link先を確認
Lixian Zhang, Runmin Dong, Shuai Yuan, Jinxiao Zhang, Mengxuan Chen, Juepeng Zheng, Haohuan Fu(参考訳) 夜間光(ntl)リモートセンシング観測は、貧困推定、都市持続可能な開発、二酸化炭素排出量といった一連の持続可能な開発目標(sdgs)の達成に向けた進捗を定量的に評価するためのユニークな指標である。 しかし、既存のNTL観測はしばしば広範に劣化と矛盾に悩まされ、SDGによって定義された指標の計算に有効性を制限する。 本研究では,マルチモーダルリモートセンシングデータを用いた高解像度NTL画像の再構成手法を提案する。 この研究を支援するために,5つの異種センサからのデータを包含する包括的データセットであるdeeplightmdを導入し,詳細な空間分解能と豊かなスペクトル情報を全国規模で提供する。 さらに,多モード超解像における空間的不均一なモダリティデータ間の橋梁のキャリブレーションを考慮したDeepLightSRを提案する。 deeplightsrは、キャリブレーション・アウェアアライメント、補助対メインのマルチモダリティ融合、そして空間的不均一性に効果的に対処し、多様な代表的特徴を融合し、8ドルの超解像(sr)タスクで性能を向上させる補助埋め込み改良を統合している。 大規模な実験は、PSNR (2.01 dB $ \sim $ 13.25 dB) と PIQE (0.49 $ \sim $ 9.32) の改善によって証明されたように、8つの競合する手法よりもDeepLightSRの方が優れていることを示した。 本研究は,高分解能NTLデータの再構成において,提案するデータセットとモデルの実用的意義を強調し,SDGの進行を効率的に定量的に評価する。

Nighttime light (NTL) remote sensing observation serves as a unique proxy for quantitatively assessing progress toward meeting a series of Sustainable Development Goals (SDGs), such as poverty estimation, urban sustainable development, and carbon emission. However, existing NTL observations often suffer from pervasive degradation and inconsistency, limiting their utility for computing the indicators defined by the SDGs. In this study, we propose a novel approach to reconstruct high-resolution NTL images using multi-modal remote sensing data. To support this research endeavor, we introduce DeepLightMD, a comprehensive dataset comprising data from five heterogeneous sensors, offering fine spatial resolution and rich spectral information at a national scale. Additionally, we present DeepLightSR, a calibration-aware method for building bridges between spatially heterogeneous modality data in the multi-modality super-resolution. DeepLightSR integrates calibration-aware alignment, an auxiliary-to-main multi-modality fusion, and an auxiliary-embedded refinement to effectively address spatial heterogeneity, fuse diversely representative features, and enhance performance in $8\times$ super-resolution (SR) tasks. Extensive experiments demonstrate the superiority of DeepLightSR over 8 competing methods, as evidenced by improvements in PSNR (2.01 dB $ \sim $ 13.25 dB) and PIQE (0.49 $ \sim $ 9.32). Our findings underscore the practical significance of our proposed dataset and model in reconstructing high-resolution NTL data, supporting efficiently and quantitatively assessing the SDG progress.
翻訳日:2024-02-27 17:28:30 公開日:2024-02-24
# llmは、ジェイルブレイクを実際に防げる:vision paper

LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper ( http://arxiv.org/abs/2402.15727v1 )

ライセンス: Link先を確認
Daoyuan Wu and Shuai Wang and Yang Liu and Ning Liu(参考訳) Jailbreakingは、既製の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。 最近のGreedy Coordinate Gradient(GCG)攻撃、"Do-Anything-Now"(DAN)の使用のようなジェイルブレイクテンプレートベースの攻撃、多言語ジェイルブレイクなど、より効果的なジェイルブレイク攻撃を提案する研究がかなりの数存在する。 対照的に、防御面の探索は比較的少ない。 本報告では,Jailbreakプロンプトの遅延を最小化し,通常のユーザプロンプトの遅延を無視して,既存のJailbreak攻撃を防ぎながら,軽量かつ実用的なSELFDEFENDを提案する。 我々の重要な洞察は、どのような種類のジェイルブレイク戦略が採用されるにせよ、最終的に彼らはLSMに送られたプロンプトに有害なプロンプト(例えば「爆弾を作る方法」)を含める必要があり、既存のLSMは、彼らの安全方針に違反しているような有害なプロンプトを効果的に認識できることを発見したことである。 この知見に基づき、ユーザプロンプトに有害なプロンプトが存在するかを同時にチェックし、「no」または有害なプロンプトのトークンが出力されると、通常のスタックでチェックポイントをトリガーするシャドースタックを設計する。 後者は、敵のプロンプトに対する説明可能なLSM応答も生成できる。 GPT-3.5/4における手動解析により,SELFDEFENDが様々なジェイルブレイクシナリオで有効であることを示す。 また、SELFDEFENDをさらに強化する3つの今後の方向性をリストアップする。

Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models (LLMs). A considerable amount of research exists proposing more effective jailbreak attacks, including the recent Greedy Coordinate Gradient (GCG) attack, jailbreak template-based attacks such as using "Do-Anything-Now" (DAN), and multilingual jailbreak. In contrast, the defensive side has been relatively less explored. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts. Our key insight is that regardless of the kind of jailbreak strategies employed, they eventually need to include a harmful prompt (e.g., "how to make a bomb") in the prompt sent to LLMs, and we found that existing LLMs can effectively recognize such harmful prompts that violate their safety policies. Based on this insight, we design a shadow stack that concurrently checks whether a harmful prompt exists in the user prompt and triggers a checkpoint in the normal stack once a token of "No" or a harmful prompt is output. The latter could also generate an explainable LLM response to adversarial prompts. We demonstrate our idea of SELFDEFEND works in various jailbreak scenarios through manual analysis in GPT-3.5/4. We also list three future directions to further enhance SELFDEFEND.
翻訳日:2024-02-27 17:23:26 公開日:2024-02-24
# CLIPose: 事前学習型視覚言語知識を用いたカテゴリーレベルオブジェクトポス推定

CLIPose: Category-Level Object Pose Estimation with Pre-trained Vision-Language Knowledge ( http://arxiv.org/abs/2402.15726v1 )

ライセンス: Link先を確認
Xiao Lin, Minghao Zhu, Ronghao Dang, Guangliang Zhou, Shaolong Shu, Feng Lin, Chengju Liu and Qijun Chen(参考訳) 既存のカテゴリレベルのオブジェクトポーズ推定手法のほとんどは、ポイントクラウドモダリティからオブジェクトカテゴリ情報を学ぶことに専念している。 しかし、3Dデータ収集とアノテーションのコストが高いため、3Dデータセットのスケールは制限されている。 したがって、これらの限られた点の雲サンプルから抽出されたカテゴリの特徴は包括的ではないかもしれない。 これは、カテゴリ情報を得るために他のモダリティの知識を頼りにできるかどうかを調べる動機となる。 このモチベーションに触発されたCLIPoseは、事前学習された視覚言語モデルを用いて、画像とテキストのモダリティにおける豊富なセマンティック知識を十分に活用できるオブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークである。 3次元エンコーダがカテゴリ固有の特徴をより効率的に学習できるようにするため,マルチモーダルコントラスト学習により特徴空間内の3つの様相の表現を整列する。 CLIPのモデルの事前訓練された知識を活用することに加えて、ポーズパラメータに敏感になることも期待しています。 そこで本研究では,テキスト記述に回転情報や翻訳情報を組み込んだ微調整画像エンコーダの高速化手法を提案する。 CLIPoseは2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中にリアルタイムに実行する(40FPS)。

Most of existing category-level object pose estimation methods devote to learning the object category information from point cloud modality. However, the scale of 3D datasets is limited due to the high cost of 3D data collection and annotation. Consequently, the category features extracted from these limited point cloud samples may not be comprehensive. This motivates us to investigate whether we can draw on knowledge of other modalities to obtain category information. Inspired by this motivation, we propose CLIPose, a novel 6D pose framework that employs the pre-trained vision-language model to develop better learning of object category information, which can fully leverage abundant semantic knowledge in image and text modalities. To make the 3D encoder learn category-specific features more efficiently, we align representations of three modalities in feature space via multi-modal contrastive learning. In addition to exploiting the pre-trained knowledge of the CLIP's model, we also expect it to be more sensitive with pose parameters. Therefore, we introduce a prompt tuning approach to fine-tune image encoder while we incorporate rotations and translations information in the text descriptions. CLIPose achieves state-of-the-art performance on two mainstream benchmark datasets, REAL275 and CAMERA25, and runs in real-time during inference (40FPS).
翻訳日:2024-02-27 17:22:56 公開日:2024-02-24
# Hal-Eval:大規模視覚言語モデルのための普遍的できめ細かい幻覚評価フレームワーク

Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models ( http://arxiv.org/abs/2402.15721v1 )

ライセンス: Link先を確認
Chaoya Jiang, Wei Ye, Mengfan Dong, Hongrui Jia, Haiyang Xu, Ming Yan, Ji Zhang, Shikun Zhang(参考訳) 大きな視覚言語モデルは優れた能力を示すが、画像とそれらの記述との矛盾に苦しむ。 これまでのLVLMの幻覚評価研究は、対象、属性、関係の観点で幻覚を特定してきたが、架空の実体を取り巻く物語全体を形作る複雑な幻覚を見落としていた。 本稿では,新しいカテゴリーであるイベント幻覚を特徴とする幻覚の洗練された分類法を提案する。 次に,高度なllmを用いて様々な種類の幻覚からなる細粒度幻覚データを生成・フィルタリングし,特にイベント幻覚に焦点をあて,普遍的評価枠組みにおける判別・生成評価手法の統合に向けた基礎研究を行った。 提案したベンチマークは,幻覚の幅広い領域に対処するLVLMの能力を顕著に評価し,幻覚の処理におけるLVLMの有効性を高めるための信頼性と総合的なツールである。 コードとデータをリリースします。

Large Vision Language Models exhibit remarkable capabilities but struggle with hallucinations inconsistencies between images and their descriptions. Previous hallucination evaluation studies on LVLMs have identified hallucinations in terms of objects, attributes, and relations but overlooked complex hallucinations that create an entire narrative around a fictional entity. In this paper, we introduce a refined taxonomy of hallucinations, featuring a new category: Event Hallucination. We then utilize advanced LLMs to generate and filter fine grained hallucinatory data consisting of various types of hallucinations, with a particular focus on event hallucinations, laying the groundwork for integrating discriminative and generative evaluation methods within our universal evaluation framework. The proposed benchmark distinctively assesses LVLMs ability to tackle a broad spectrum of hallucinations, making it a reliable and comprehensive tool for gauging LVLMs efficacy in handling hallucinations. We will release our code and data.
翻訳日:2024-02-27 17:22:31 公開日:2024-02-24
# 無騒音環境におけるカーネルリッジ回帰の双対性解析

A Duality Analysis of Kernel Ridge Regression in the Noiseless Regime ( http://arxiv.org/abs/2402.15718v1 )

ライセンス: Link先を確認
Jihao Long, Xiaojun Peng and Lei Wu(参考訳) 本稿では,カーネルリッジ回帰(krr)の一般化特性の包括的解析を行い,計算機シミュレーションによってデータが頻繁に生成される科学計算に不可欠なシナリオであるノイズレスレジームについて述べる。 我々は、KRRが、対応するカーネルの固有値減衰とターゲット関数の相対的滑らかさの両方に依存する最小値の最適値が得られることを証明した。 特に、固有値が指数関数的に速く減衰すると、KRRはスペクトル精度、すなわち任意の多項式よりも速い収束率を達成する。 さらに, 数値実験は理論的な結果とよく相関している。 我々の証明は Chen らによって導入された双対性フレームワーク (2023) の新たな拡張を利用しており、これはこの研究の範囲を超えてカーネルベースの手法を分析するのに役立つ。

In this paper, we conduct a comprehensive analysis of generalization properties of Kernel Ridge Regression (KRR) in the noiseless regime, a scenario crucial to scientific computing, where data are often generated via computer simulations. We prove that KRR can attain the minimax optimal rate, which depends on both the eigenvalue decay of the associated kernel and the relative smoothness of target functions. Particularly, when the eigenvalue decays exponentially fast, KRR achieves the spectral accuracy, i.e., a convergence rate faster than any polynomial. Moreover, the numerical experiments well corroborate our theoretical findings. Our proof leverages a novel extension of the duality framework introduced by Chen et al. (2023), which could be useful in analyzing kernel-based methods beyond the scope of this work.
翻訳日:2024-02-27 17:22:12 公開日:2024-02-24
# オペレータ学習:アルゴリズムと分析

Operator Learning: Algorithms and Analysis ( http://arxiv.org/abs/2402.15715v1 )

ライセンス: Link先を確認
Nikola B. Kovachki and Samuel Lanthaler and Andrew M. Stuart(参考訳) オペレータラーニング(Operator learning)とは、機械学習から、バナッハ空間間の写像を近似する(典型的には非線形)演算子へのアイデアの適用を指す。 そのような作用素は、しばしば偏微分方程式(PDE)で表される物理モデルから生じる。 この文脈では、そのような近似作用素は、多くのクエリータスクにおいて伝統的な数値法を補完する効率的な代理モデルとして大きな可能性を秘めている。 データ駆動型であるため、PDEの数学的記述が利用できない場合にもモデル発見が可能である。 本論は,有限次元ユークリッド空間上で定義される関数の近似におけるディープニューラルネットワークの成功を基盤としたニューラル演算子に注目した。 経験的に、ニューラルネットワークは様々なアプリケーションで成功していますが、理論的な理解は未完成です。 本稿では,ニューラルネットワークの理論的理解の最近の進歩と現状を概説し,近似理論の観点から考察する。

Operator learning refers to the application of ideas from machine learning to approximate (typically nonlinear) operators mapping between Banach spaces of functions. Such operators often arise from physical models expressed in terms of partial differential equations (PDEs). In this context, such approximate operators hold great potential as efficient surrogate models to complement traditional numerical methods in many-query tasks. Being data-driven, they also enable model discovery when a mathematical description in terms of a PDE is not available. This review focuses primarily on neural operators, built on the success of deep neural networks in the approximation of functions defined on finite dimensional Euclidean spaces. Empirically, neural operators have shown success in a variety of applications, but our theoretical understanding remains incomplete. This review article summarizes recent progress and the current state of our theoretical understanding of neural operators, focusing on an approximation theoretic point of view.
翻訳日:2024-02-27 17:21:58 公開日:2024-02-24
# 事前学習型言語モデルによる連続的なFew-Shot関係エクストラクタの改良

Making Pre-trained Language Models Better Continual Few-Shot Relation Extractors ( http://arxiv.org/abs/2402.15713v1 )

ライセンス: Link先を確認
Shengkun Ma, Jiale Han, Yi Liang, Bo Cheng(参考訳) CFRE(Continuous Few-shot Relation extract)は、ラベル付きトレーニングデータが少ない古いものを忘れることなく、新しい関係を継続的に学習するモデルを必要とする実践的な問題である。 主な課題は、破滅的な忘れ方と過剰な失態である。 本稿では,事前学習した言語モデルの暗黙的能力を探るために,プロンプト・ラーニングを活用し,上記の2つの課題を解決する。 具体的には,古いカテゴリや新しいカテゴリに適応可能な一般化された知識を得るためのプロンプト表現をデザインし,よりハードサンプルに焦点を絞ったマージンベースのコントラスト学習を行うコントラスト学習フレームワークを提案する。 低リソースシナリオにおけるオーバーフィッティングのさらなる改善を目的として,多種多様なサンプルの生成においてChatGPTをガイドするプロンプトを用いた効果的なメモリ拡張戦略を提案する。 大規模な実験により,本手法は最先端手法よりも高い性能を示し,低リソースシナリオにおける破滅的な忘れ込みや過度適合を著しく軽減することがわかった。

Continual Few-shot Relation Extraction (CFRE) is a practical problem that requires the model to continuously learn novel relations while avoiding forgetting old ones with few labeled training data. The primary challenges are catastrophic forgetting and overfitting. This paper harnesses prompt learning to explore the implicit capabilities of pre-trained language models to address the above two challenges, thereby making language models better continual few-shot relation extractors. Specifically, we propose a Contrastive Prompt Learning framework, which designs prompt representation to acquire more generalized knowledge that can be easily adapted to old and new categories, and margin-based contrastive learning to focus more on hard samples, therefore alleviating catastrophic forgetting and overfitting issues. To further remedy overfitting in low-resource scenarios, we introduce an effective memory augmentation strategy that employs well-crafted prompts to guide ChatGPT in generating diverse samples. Extensive experiments demonstrate that our method outperforms state-of-the-art methods by a large margin and significantly mitigates catastrophic forgetting and overfitting in low-resource scenarios.
翻訳日:2024-02-27 17:21:44 公開日:2024-02-24
# 固有低次元データに対するwassersteinオートエンコーダの統計的解析

A Statistical Analysis of Wasserstein Autoencoders for Intrinsically Low-dimensional Data ( http://arxiv.org/abs/2402.15710v1 )

ライセンス: Link先を確認
Saptarshi Chakraborty and Peter L. Bartlett(参考訳) 変分オートエンコーダ(VAE)は、限られたサンプルに基づいて未知の分布を理解する強力なツールとして研究者の間で大きな人気を集めている。 この人気は、その印象的なパフォーマンスと、潜在空間で有意義な特徴表現を提供する能力に起因する。 VAEの変種であるWasserstein Autoencoders (WAEs) は、モデル効率の向上だけでなく、解釈可能性の向上も目指している。 しかし、統計学的保証の分析には限定的な焦点が当てられている。 この問題は、自然画像のようなwaeが適用されるデータ分布が、現在の理論では十分に説明されていない高次元特徴空間内の基礎となる低次元構造を持つと推定されることがしばしばあり、既知の境界が非効率であるという事実によりさらに複雑である。 本稿では、WAEの理論と実践のギャップを埋めるために、WAEがネットワークアーキテクチャが適切に選択されたときにデータ分布を学習できることを示す。 本研究では,WAEのサンプル数における余剰リスクの収束率は,データ分布の本質的な次元にのみ依存せず,高い特徴次元に依存していることを示す。

Variational Autoencoders (VAEs) have gained significant popularity among researchers as a powerful tool for understanding unknown distributions based on limited samples. This popularity stems partly from their impressive performance and partly from their ability to provide meaningful feature representations in the latent space. Wasserstein Autoencoders (WAEs), a variant of VAEs, aim to not only improve model efficiency but also interpretability. However, there has been limited focus on analyzing their statistical guarantees. The matter is further complicated by the fact that the data distributions to which WAEs are applied - such as natural images - are often presumed to possess an underlying low-dimensional structure within a high-dimensional feature space, which current theory does not adequately account for, rendering known bounds inefficient. To bridge the gap between the theory and practice of WAEs, in this paper, we show that WAEs can learn the data distributions when the network architectures are properly chosen. We show that the convergence rates of the expected excess risk in the number of samples for WAEs are independent of the high feature dimension, instead relying only on the intrinsic dimension of the data distribution.
翻訳日:2024-02-27 17:21:22 公開日:2024-02-24
# 脳信号からのセマンティクスの復号によるクエリ拡張

Query Augmentation by Decoding Semantics from Brain Signals ( http://arxiv.org/abs/2402.15708v1 )

ライセンス: Link先を確認
Ziyi Ye, Jingtao Zhan, Qingyao Ai, Yiqun Liu, Maarten de Rijke, Christina Lioma, Tuukka Ruotsalo(参考訳) クエリ拡張は意味的に不正確なクエリを精査するための重要なテクニックである。 伝統的に、クエリ拡張は、最初に検索された、潜在的に関連のあるドキュメントから情報を抽出することに依存する。 検索した文書の品質が低い場合、クエリ拡張の有効性も制限される。 本稿では,脳信号からデコードされた意味情報を組み込んでクエリを強化するBrain-Augを提案する。 BrainAugは、脳信号情報とランキング指向推論アプローチを備えたプロンプトで、元のクエリの継続を生成する。 fMRI(機能的磁気共鳴イメージング)データセットの実験結果から、Brain-Augは意味的により正確なクエリを生成し、文書のランク付け性能が改善された。 脳信号によるこのような改善は、特にあいまいなクエリで顕著である。

Query augmentation is a crucial technique for refining semantically imprecise queries. Traditionally, query augmentation relies on extracting information from initially retrieved, potentially relevant documents. If the quality of the initially retrieved documents is low, then the effectiveness of query augmentation would be limited as well. We propose Brain-Aug, which enhances a query by incorporating semantic information decoded from brain signals. BrainAug generates the continuation of the original query with a prompt constructed with brain signal information and a ranking-oriented inference approach. Experimental results on fMRI (functional magnetic resonance imaging) datasets show that Brain-Aug produces semantically more accurate queries, leading to improved document ranking performance. Such improvement brought by brain signals is particularly notable for ambiguous queries.
翻訳日:2024-02-27 17:21:02 公開日:2024-02-24
# 量子通信のクイックガイド

A Quick Guide to Quantum Communication ( http://arxiv.org/abs/2402.15707v1 )

ライセンス: Link先を確認
Rohit Singh, Roshan M. Bodile(参考訳) この記事では、量子通信のいくつかの革新的な側面をまとめて、量子通信の概要を紹介する。 まず、量子通信の役割を中立的に観察し、今後のワイヤレスにおいてその重要性を示します。 次に、量子エンタングルメント、量子重ね合わせ、量子テレポーテーションなど、量子通信に関わる原則と基本的なメカニズムを要約する。 さらに,その画期的な特徴,機会,課題,今後の展望を強調する。

This article provides a quick overview of quantum communication, bringing together several innovative aspects of quantum enabled transmission. We first take a neutral look at the role of quantum communication, presenting its importance for the forthcoming wireless. Then, we summarise the principles and basic mechanisms involved in quantum communication, including quantum entanglement, quantum superposition, and quantum teleportation. Further, we highlight its groundbreaking features, opportunities, challenges and future prospects.
翻訳日:2024-02-27 17:20:50 公開日:2024-02-24
# 画像超解像のための不均一動的畳み込みニューラルネットワーク

A Heterogeneous Dynamic Convolutional Neural Network for Image Super-resolution ( http://arxiv.org/abs/2402.15704v1 )

ライセンス: Link先を確認
Chunwei Tian, Xuanyu Zhang, Jia Ren, Wangmeng Zuo, Yanning Zhang, Chia-Wen Lin(参考訳) 畳み込みニューラルネットワークは、ディープネットワークアーキテクチャと与えられた入力サンプルを通じて自動的に特徴を学習することができる。 しかし、得られたモデルの堅牢性は、様々な場面で困難を伴う可能性がある。 ネットワークアーキテクチャのより大きな違いは、得られた超解像モデルの堅牢性を高めるために、より相補的な構造情報を抽出することに有益である。 本稿では,画像超解像(HDSRNet)における異種動的畳み込みネットワークを提案する。 より多くの情報を取得するために、HDSRNetは異種並列ネットワークによって実装される。 上層ネットワークは、画像超解像の効果を改善するために、積み重ねた異種ブロックを介してよりコンテキスト情報を容易にすることができる。 各異種ブロックは、拡張された動的、共通の畳み込み層、reluおよび残差学習操作の組み合わせで構成される。 異なる入力によってパラメータを適応的に調整できるだけでなく、長期依存の問題も防止できる。 下位のネットワークは対称的なアーキテクチャを用いて異なるレイヤの関係を強化し、より構造的な情報をマイニングし、画像超解像のための上層ネットワークと補完する。 実験結果から,HDSRNetは画像解決に有効であることが示唆された。 HDSRNetのコードはhttps://github.com/hellloxiaotian/HDSRNetで入手できる。

Convolutional neural networks can automatically learn features via deep network architectures and given input samples. However, robustness of obtained models may have challenges in varying scenes. Bigger differences of a network architecture are beneficial to extract more complementary structural information to enhance robustness of an obtained super-resolution model. In this paper, we present a heterogeneous dynamic convolutional network in image super-resolution (HDSRNet). To capture more information, HDSRNet is implemented by a heterogeneous parallel network. The upper network can facilitate more contexture information via stacked heterogeneous blocks to improve effects of image super-resolution. Each heterogeneous block is composed of a combination of a dilated, dynamic, common convolutional layers, ReLU and residual learning operation. It can not only adaptively adjust parameters, according to different inputs, but also prevent long-term dependency problem. The lower network utilizes a symmetric architecture to enhance relations of different layers to mine more structural information, which is complementary with a upper network for image super-resolution. The relevant experimental results show that the proposed HDSRNet is effective to deal with image resolving. The code of HDSRNet can be obtained at https://github.com/hellloxiaotian/HDSRNet.
翻訳日:2024-02-27 17:20:42 公開日:2024-02-24
# オフライン意思決定は少数のサンプルで可能か? 信頼領域強化によるデータ・スタベド・バンディットの信頼性決定

Is Offline Decision Making Possible with Only Few Samples? Reliable Decisions in Data-Starved Bandits via Trust Region Enhancement ( http://arxiv.org/abs/2402.15703v1 )

ライセンス: Link先を確認
Ruiqi Zhang, Yuexiang Zhai, Andrea Zanette(参考訳) エージェントは、各アームに1つのサンプルだけを含むデータセットから、確率的マルチアーメッドバンドイット(MAB)問題で何を学ぶことができるのか? 驚くべきことに、この研究では、このようなデータ不足設定であっても、最適なポリシーと競合するポリシーを見つけることが可能であることを実証しています。 これにより、少数のサンプルのみに依存して重要な決定を行う必要のある設定において、信頼できる意思決定への道を開くことができる。 分析の結果,オフライン意思決定における決定論的政策よりも,‘emph{stochastic Policy’の方がはるかに優れていることがわかった。 我々は,オフラインのマルチアームバンディットに着目し,確率的政策強化(trust)のための信頼領域と呼ばれるアルゴリズムを設計した。 そのデザインはローカライゼーションの法則、臨界半径、相対的悲観主義によって実現されている。 サンプルの複雑さはminimax問題におけるlcbのそれと同等であるが、サンプルがごく少ない問題では大幅に低下することが証明される。 最後に、ロギングポリシーが知られている特別な場合におけるオフライン強化学習への応用について考察する。

What can an agent learn in a stochastic Multi-Armed Bandit (MAB) problem from a dataset that contains just a single sample for each arm? Surprisingly, in this work, we demonstrate that even in such a data-starved setting it may still be possible to find a policy competitive with the optimal one. This paves the way to reliable decision-making in settings where critical decisions must be made by relying only on a handful of samples. Our analysis reveals that \emph{stochastic policies can be substantially better} than deterministic ones for offline decision-making. Focusing on offline multi-armed bandits, we design an algorithm called Trust Region of Uncertainty for Stochastic policy enhancemenT (TRUST) which is quite different from the predominant value-based lower confidence bound approach. Its design is enabled by localization laws, critical radii, and relative pessimism. We prove that its sample complexity is comparable to that of LCB on minimax problems while being substantially lower on problems with very few samples. Finally, we consider an application to offline reinforcement learning in the special case where the logging policies are known.
翻訳日:2024-02-27 17:20:22 公開日:2024-02-24
# 導波路散逸によるリモート絡み合いの安定化

Stabilizing remote entanglement via waveguide dissipation ( http://arxiv.org/abs/2402.15701v1 )

ライセンス: Link先を確認
Parth S. Shah, Frank Yang, Chaitali Joshi, Mohammad Mirhosseini(参考訳) 遠隔地間の絡み合いの分散は量子ネットワークにとって不可欠である。 ここでは、チップ上のオープン導波路で接続された一対の非相互作用超伝導量子ビット間のリモート絡み合いの自律安定化を示す。 この設定では、導波路を介して供給される古典的な連続駆動と導波路への散逸との相互作用は、暗黒状態のキュービット対を安定化させ、漸近的にベル状態の形式をとる。 我々は、導波路から放射される光子の場量子測定を用いて安定化状態の量子状態トモグラフィーを行い、最適な設定において56$\pm$ 4 nsの安定化時間定数で0.504^{+0.007}_{-0.029}$の共起を見出した。 我々は,システム内の不完全性を検証し,将来の作業におけるフィダリティ向上とスケーラビリティの実現に向けた道筋について考察する。 分散安定化によって提供される非一貫性保護、定常的遠隔絡み合いは、分散量子コンピューティング、センシング、通信に応用される可能性がある。

Distributing entanglement between remote sites is integral to quantum networks. Here, we demonstrate the autonomous stabilization of remote entanglement between a pair of non-interacting superconducting qubits connected by an open waveguide on a chip. In this setting, the interplay between a classical continuous drive - supplied through the waveguide - and dissipation into the waveguide stabilizes the qubit pair in a dark state, which, asymptotically, takes the form of a Bell state. We use field-quadrature measurements of the photons emitted to the waveguide to perform quantum state tomography on the stabilized states, where we find a concurrence of $0.504^{+0.007}_{-0.029}$ in the optimal setting with a stabilization time constant of 56 $\pm$ 4 ns. We examine the imperfections within our system and discuss avenues for enhancing fidelities and achieving scalability in future work. The decoherence-protected, steady-state remote entanglement offered via dissipative stabilization may find applications in distributed quantum computing, sensing, and communication.
翻訳日:2024-02-27 17:20:03 公開日:2024-02-24
# Corelation: コンテキスト付きコード関係学習による自動ICD符号化の強化

CoRelation: Boosting Automatic ICD Coding Through Contextualized Code Relation Learning ( http://arxiv.org/abs/2402.15700v1 )

ライセンス: Link先を確認
Junyu Luo, Xiaochen Wang, Jiaqi Wang, Aofei Chang, Yaqing Wang, Fenglong Ma(参考訳) 疾患の自動分類(ICD)コーディングは、適切な記録と請求のために臨床記録から関連情報を抽出する上で重要な役割を果たす。 自動ICD符号化の性能を高める上で最も重要な方向の1つは、ICD符号関係をモデル化することである。 しかし、現在の手法ではICD符号間の複雑な関係を十分にモデル化できず、臨床ノートにおける文脈の重要性を見落としていることが多い。 本稿では,ICDコード表現の学習を促進するために,文脈化・柔軟なフレームワークである新しい手法を提案する。 既存の手法とは異なり,本手法では,すべての可能なコード関係をモデル化する際の臨床ノートの文脈を考慮した依存学習パラダイムを採用している。 提案手法を6つの公開icd符号化データセット上で評価し,本手法の有効性を実験により実証した。

Automatic International Classification of Diseases (ICD) coding plays a crucial role in the extraction of relevant information from clinical notes for proper recording and billing. One of the most important directions for boosting the performance of automatic ICD coding is modeling ICD code relations. However, current methods insufficiently model the intricate relationships among ICD codes and often overlook the importance of context in clinical notes. In this paper, we propose a novel approach, a contextualized and flexible framework, to enhance the learning of ICD code representations. Our approach, unlike existing methods, employs a dependent learning paradigm that considers the context of clinical notes in modeling all possible code relations. We evaluate our approach on six public ICD coding datasets and the experimental results demonstrate the effectiveness of our approach compared to state-of-the-art baselines.
翻訳日:2024-02-27 17:19:44 公開日:2024-02-24
# 多ビット絡みの理解と異方性絡み状態の設計のための量子情報論理理論

The qubit information logic theory for understanding multi-qubit entanglement and designing exotic entangled states ( http://arxiv.org/abs/2402.15699v1 )

ライセンス: Link先を確認
Zixuan Hu and Sabre Kais(参考訳) 我々は,マルチキュービット絡み合いの相関挙動を記述するために,量子情報方程式 (qie) と論理を用いた量子情報論理 (qil) 理論を開発した。 グローバル情報ステータス」と「ローカル情報可用性」を導入し、QILは「スポーキーアクション」と量子通信定理の代替的で自然な解釈を与える。 従来のエントロピーに基づく絡み合い理論と比較して、QILはそれぞれの可能な量子ビットの相関と、他の量子ビットが測定されたときにどのように相関が変化するかを直接記述する。 これにより、QILは、休眠エンタングルメント現象を研究することにより、マルチキュービットエンタングルメントの相関特性を記述するのに有利である。 qil理論の有用性は、2つの量子ビットが絡み合うことができるが任意の基底では相関しないエキゾチックな量子状態を設計することによってさらに証明される。 全体としてqilは、従来の理論と比較して量子ビット間の相関挙動に直接焦点をあて、量子アルゴリズムで使われるエキゾチックな量子状態を設計するのにより適しているマルチ量子ビットの絡み合いに対する代替的で直感的な理解を提供する。

We develop a "qubit information logic" (QIL) theory that uses the "qubit information equation" (QIE) and logic to describe the correlation behaviors of multi-qubit entanglement. Introducing the "global information status" and "local information availability", the QIL gives an alternative and natural interpretation of the "spooky action" and the quantum no-communication theorem. Compared to the conventional entropy-based entanglement theories, the QIL directly describes the correlation of each possible pair of qubits and how the correlation changes when other qubits are measured. This makes the QIL more advantageous in describing the correlation properties of multi-qubit entanglement, which is illustrated by studying the dormant entanglement phenomenon. The QIL theory's usefulness is further demonstrated by designing an exotic quantum state where two qubits can be entangled but not correlated in any arbitrary basis. Overall the QIL provides an alternative and intuitive understanding of multi-qubit entanglement that is, compared to the conventional theories, directly focused on the correlation behaviors between qubits and thus more suitable for designing exotic quantum states that may be used in quantum algorithms.
翻訳日:2024-02-27 17:19:32 公開日:2024-02-24
# より単純な付加規則アンサンブルのための直交勾配ブースティング

Orthogonal Gradient Boosting for Simpler Additive Rule Ensembles ( http://arxiv.org/abs/2402.15691v1 )

ライセンス: Link先を確認
Fan Yang, Pierre Le Bodic, Michael Kamp, Mario Boley(参考訳) 予測規則のグラディエント向上は、潜在的に解釈可能で正確な確率モデルを学ぶための効率的なアプローチである。 しかし、実際の解釈可能性には生成されたルールの数とサイズを制限する必要があり、既存のブースティング変種はこの目的のために設計されていない。 修正的強化は、予測リスクを最小限に抑えるために各イテレーションにおける全てのルールウェイトを補正するが、一般的に使用される目的関数はこの修正を予想できないため、含まれるルール条件は準最適である傾向がある。 本稿では, リスク勾配ベクトルと条件出力ベクトルとの角度を, 既に選択された条件の直交補集合に投影する新たな目的関数によってこの問題に対処する。 このアプローチは、リスク勾配自体をモデルに追加する理想的な更新を正しく近似し、より一般的でより短いルールを含めることを好んでいる。 幅広い予測タスクを用いて示すように、この手法は適合したアンサンブルの理解/正確性のトレードオフを大幅に改善する。 さらに,新しい手法の計算オーバーヘッドを回避するために,関連するルール条件の客観的値を段階的に計算する方法を示す。

Gradient boosting of prediction rules is an efficient approach to learn potentially interpretable yet accurate probabilistic models. However, actual interpretability requires to limit the number and size of the generated rules, and existing boosting variants are not designed for this purpose. Though corrective boosting refits all rule weights in each iteration to minimise prediction risk, the included rule conditions tend to be sub-optimal, because commonly used objective functions fail to anticipate this refitting. Here, we address this issue by a new objective function that measures the angle between the risk gradient vector and the projection of the condition output vector onto the orthogonal complement of the already selected conditions. This approach correctly approximate the ideal update of adding the risk gradient itself to the model and favours the inclusion of more general and thus shorter rules. As we demonstrate using a wide range of prediction tasks, this significantly improves the comprehensibility/accuracy trade-off of the fitted ensemble. Additionally, we show how objective values for related rule conditions can be computed incrementally to avoid any substantial computational overhead of the new method.
翻訳日:2024-02-27 17:19:07 公開日:2024-02-24
# 検出と追跡 - point cloud multi-sweepディープラーニングモデルの再検討

Detection Is Tracking: Point Cloud Multi-Sweep Deep Learning Models Revisited ( http://arxiv.org/abs/2402.15756v1 )

ライセンス: Link先を確認
Lingji Chen(参考訳) 従来のトラッキングパラダイムは、範囲やベアリングなどの瞬時に測定を行い、時間をかけてオブジェクトトラックを生成する。 自動運転などのアプリケーションでは、ポイントクラウド形式のライダー計測は通常、ディープラーニングモデルによって実現された"仮想センサー"を通じて、境界ボックスなどの"測定"を生成し、それが追跡モジュールによって取り込まれてオブジェクトのトラックを生成する。 しばしば複数のライダースイープがバッファに蓄積されてマージされ、仮想センサへの入力となる。 本稿では,このような入力には既に時間情報が含まれていることを論じる。そのため,仮想センサ出力にはバッファの終端に対応する時点の瞬時値だけでなく,時間情報も含まなければならない。 特に,マルチスウィープ対検出器(mulspad)と呼ばれるディープラーニングモデルを提案し,各検出対象に対して,入力バッファの終了時刻と開始時刻の両方に一対のバウンディングボックスを生成する。 これは、一般的なlidar検出モデルでかなり単純な変更で実現され、余分な処理しか行わないが、結果として得られる対称性は満足できる。 このようなペア検出により、初歩的なトラッカーを比較的容易に構築できるだけでなく、ペアが伝達する余分な情報を利用して、モーションモデルやオブジェクトの生死モデルの選択に堅牢な、より洗練されたトラッカーを構築することができる。 提案手法の有効性を示すWaymo Open Datasetを用いて,予備訓練および実験を行った。

Conventional tracking paradigm takes in instantaneous measurements such as range and bearing, and produces object tracks across time. In applications such as autonomous driving, lidar measurements in the form of point clouds are usually passed through a "virtual sensor" realized by a deep learning model, to produce "measurements" such as bounding boxes, which are in turn ingested by a tracking module to produce object tracks. Very often multiple lidar sweeps are accumulated in a buffer to merge and become the input to the virtual sensor. We argue in this paper that such an input already contains temporal information, and therefore the virtual sensor output should also contain temporal information, not just instantaneous values for the time corresponding to the end of the buffer. In particular, we present the deep learning model called MULti-Sweep PAired Detector (MULSPAD) that produces, for each detected object, a pair of bounding boxes at both the end time and the beginning time of the input buffer. This is achieved with fairly straightforward changes in commonly used lidar detection models, and with only marginal extra processing, but the resulting symmetry is satisfying. Such paired detections make it possible not only to construct rudimentary trackers fairly easily, but also to construct more sophisticated trackers that can exploit the extra information conveyed by the pair and be robust to choices of motion models and object birth/death models. We have conducted preliminary training and experimentation using Waymo Open Dataset, which shows the efficacy of our proposed method.
翻訳日:2024-02-27 17:15:18 公開日:2024-02-24
# Few-shot LearningとSBERTファインチューニングによる歯の重症度評価

Dental Severity Assessment through Few-shot Learning and SBERT Fine-tuning ( http://arxiv.org/abs/2402.15755v1 )

ライセンス: Link先を確認
Mohammad Dehghani(参考訳) 歯科疾患は人口のかなりの部分に大きな影響を与え、個人の全体的な幸福に有害な影響を及ぼす様々な健康問題に繋がる。 口腔医療における自動化システムの統合はますます重要になっている。 機械学習のアプローチは、診断の困難、非効率性、口腔疾患の診断におけるエラーなどに対処するための有効なソリューションを提供する。 これらの方法は、医師が早期に疾患の予測や診断に苦労する場合に特に有用である。 本研究では,13種類の機械学習,深層学習,大規模言語モデルを用いて,放射線科医の報告に基づいて口腔疾患の重症度を判定した。 その結果、SBERTとMulti-Layer PerceptronモデルによるFew-shot学習は、様々な実験で他のモデルよりも優れており、94.1%の精度が最高の結果となった。 その結果, 本モデルは口腔疾患の重症度を評価するための信頼性の高いツールとして期待でき, 患者がより効果的な治療を受け, 医療従事者を支援し, 資源配分やリスクの高い患者の管理に関するインフォームドな意思決定を行うことができる。

Dental diseases have a significant impact on a considerable portion of the population, leading to various health issues that can detrimentally affect individuals' overall well-being. The integration of automated systems in oral healthcare has become increasingly crucial. Machine learning approaches offer a viable solution to address challenges such as diagnostic difficulties, inefficiencies, and errors in oral disease diagnosis. These methods prove particularly useful when physicians struggle to predict or diagnose diseases at their early stages. In this study, thirteen different machine learning, deep learning, and large language models were employed to determine the severity level of oral health issues based on radiologists' reports. The results revealed that the Few-shot learning with SBERT and Multi-Layer Perceptron model outperformed all other models across various experiments, achieving an impressive accuracy of 94.1% as the best result. Consequently, this model exhibits promise as a reliable tool for evaluating the severity of oral diseases, enabling patients to receive more effective treatment and aiding healthcare professionals in making informed decisions regarding resource allocation and the management of high-risk patients.
翻訳日:2024-02-27 17:14:48 公開日:2024-02-24
# HD-Eval:階層的基準分解による大規模言語モデル評価器の調整

HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition ( http://arxiv.org/abs/2402.15754v1 )

ライセンス: Link先を確認
Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang(参考訳) 大きな言語モデル(LLM)は、高価な人間の評価に代わる有望な代替品として登場した。 しかしながら、llmに基づく評価の調整とカバレッジは、しばしば評価プロンプトと基準の範囲と潜在的なバイアスによって制限される。 この課題に対処するため,我々は,llmに基づく評価器を階層的基準分解による人間の嗜好に合わせて反復的に調整する新しいフレームワーク hd-eval を提案する。 HD-Evalは、人間の専門家評価の考え方から本質を継承し、与えられた評価タスクをよりきめ細かい基準に分解し、推定された人間の嗜好に応じてそれらを集約し、帰属を伴う重要基準を抽出し、さらに重要な基準を分解することで、LLMに基づく評価者のアライメントを強化する。 これらのステップを反復的なアライメントトレーニングプロセスに統合することにより、自然言語の側面を多段階の粒度で包括的に捉えた基準を階層的に分解する。 ホワイトボックスとして実装されたヒトの嗜好誘導アグリゲータは、プロンプトのみに依存するよりも、訓練が効率的で説明しやすいものであり、モデルパラメータからの独立性により、クローズドソースのLCMに適用できる。 3つの評価領域に関する大規模な実験は、HD-Evalの優位性を示し、評価結果とタスク自体の説明について深い洞察を提供する。

Large language models (LLMs) have emerged as a promising alternative to expensive human evaluations. However, the alignment and coverage of LLM-based evaluations are often limited by the scope and potential bias of the evaluation prompts and criteria. To address this challenge, we propose HD-Eval, a novel framework that iteratively aligns LLM-based evaluators with human preference via Hierarchical Criteria Decomposition. HD-Eval inherits the essence from the evaluation mindset of human experts and enhances the alignment of LLM-based evaluators by decomposing a given evaluation task into finer-grained criteria, aggregating them according to estimated human preferences, pruning insignificant criteria with attribution, and further decomposing significant criteria. By integrating these steps within an iterative alignment training process, we obtain a hierarchical decomposition of criteria that comprehensively captures aspects of natural language at multiple levels of granularity. Implemented as a white box, the human preference-guided aggregator is efficient to train and more explainable than relying solely on prompting, and its independence from model parameters makes it applicable to closed-source LLMs. Extensive experiments on three evaluation domains demonstrate the superiority of HD-Eval in further aligning state-of-the-art evaluators and providing deeper insights into the explanation of evaluation results and the task itself.
翻訳日:2024-02-27 17:14:28 公開日:2024-02-24
# Sparse MeZO: ゼロ次LDMファインチューニングにおける性能向上のための少ないパラメータ

Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM Fine-Tuning ( http://arxiv.org/abs/2402.15751v1 )

ライセンス: Link先を確認
Yong Liu, Zirui Zhu, Chaoyu Gong, Minhao Cheng, Cho-Jui Hsieh and Yang You(参考訳) 特定のタスクのための微調整された大きな言語モデル(LLM)は、しばしば印象的な結果をもたらすが、勾配ベースのトレーニングのバックプロパゲーションによるメモリ非効率のコストが伴う。 メモリ効率のよいゼロthorder(mezo)オプティマイザは、この問題に対処するために最近提案されたもので、トレーニング中の前方パスのみを必要とするため、メモリフレンドリになる。 しかしながら、ゼロ階最適化における勾配推定の質は、データ次元に依存することが多く、MeZOが様々なタスクをまたいだ標準的な微調整に比べて大きな性能低下を示す理由を説明している。 本稿では,パラメータ効率の良いファインチューニング(PEFT)の成功に触発されて,ZOを慎重に選択したパラメータのサブセットにのみ適用する新しいメモリ効率ゼロ階最適化手法であるSparse MeZOを紹介する。 そこで本研究では,スパースメゾを用いた簡易かつ効果的なパラメータ選択スキームを提案する。 さらに,sparse-mezoが単一のa100 gpu上でllama-30bを微調整できるように,sparse maskingのメモリ最適化実装を開発した。 実験結果から,Sparse-MeZOはオーバーヘッドを伴わずにMeZO上での性能と収束速度を安定的に向上することが示された。 例えば、RTEタスクにおけるMeZOの9倍の精度向上と3.5倍のスピードアップを実現している。

While fine-tuning large language models (LLMs) for specific tasks often yields impressive results, it comes at the cost of memory inefficiency due to back-propagation in gradient-based training. Memory-efficient Zeroth-order (MeZO) optimizers, recently proposed to address this issue, only require forward passes during training, making them more memory-friendly. However, the quality of gradient estimates in zeroth order optimization often depends on the data dimensionality, potentially explaining why MeZO still exhibits significant performance drops compared to standard fine-tuning across various tasks. Inspired by the success of Parameter-Efficient Fine-Tuning (PEFT), this paper introduces Sparse MeZO, a novel memory-efficient zeroth-order optimization approach that applies ZO only to a carefully chosen subset of parameters. We propose a simple yet effective parameter selection scheme that yields significant performance gains with Sparse-MeZO. Additionally, we develop a memory-optimized implementation for sparse masking, ensuring the algorithm requires only inference-level memory consumption, allowing Sparse-MeZO to fine-tune LLaMA-30b on a single A100 GPU. Experimental results illustrate that Sparse-MeZO consistently improves both performance and convergence speed over MeZO without any overhead. For example, it achieves a 9\% absolute accuracy improvement and 3.5x speedup over MeZO on the RTE task.
翻訳日:2024-02-27 17:14:00 公開日:2024-02-24
# 圧縮センシング光音響投影イメージングシステムの設計・実装・解析

Design, Implementation and Analysis of a Compressed Sensing Photoacoustic Projection Imaging System ( http://arxiv.org/abs/2402.15750v1 )

ライセンス: Link先を確認
Markus Haltmeier, Matthias Ye, Karoline Felbermayer, Florian Hinterleitner, Peter Burgholzer(参考訳) 意義:圧縮センシング(CS)は、画像の品質を維持しながら収集するデータの量を減らすために、強力な数学的アルゴリズムと組み合わせた特別な計測設計を使用する。 本報告では,光音響投影画像(PAPI)におけるCSとライン検出器(ILD)の統合に焦点をあてる。 目的: これまでの研究では,各 ild が任意の測定に寄与できる,一般的な cs 測定に関わっていました。 しかし,実世界では,CS測定の設計は現実的な制約の対象となっている。 本研究では,各測定値が ild のサブセットのみを含むcs-papi システムを対象として,コスト効率のよい手法で実装することを目的とした。 アプローチ: 既存のPAPIを自己開発CSユニットで拡張する。 このシステムは、既存の回復理論を直接適用できない構造化cs行列を提供する。 このクラス内でのCS測定行列の選択にランダムな探索戦略を適用し,正確なスパースリカバリを得る。 結果: CS PAPI システムは圧縮係数 4:3$ で実装され, 16 ILD の異なるグループに対して特定の測定を行う。 我々は,スパースCS能力を証明した最適CS測定をアルゴリズム的に設計する。 数値実験は我々の結果を支えるために用いられる。 結論: スパースリカバリ機能が証明されたCSはPAPIに統合でき、数値的な結果がこの設定をサポートする。 今後の作業では、実験データに適用し、圧縮係数を高め、信号クラスを一般化するためにデータ駆動アプローチを活用することに重点を置く。

Significance: Compressed sensing (CS) uses special measurement designs combined with powerful mathematical algorithms to reduce the amount of data to be collected while maintaining image quality. This is relevant to almost any imaging modality, and in this paper we focus on CS in photoacoustic projection imaging (PAPI) with integrating line detectors (ILDs). Aim: Our previous research involved rather general CS measurements, where each ILD can contribute to any measurement. In the real world, however, the design of CS measurements is subject to practical constraints. In this research, we aim at a CS-PAPI system where each measurement involves only a subset of ILDs, and which can be implemented in a cost-effective manner. Approach: We extend the existing PAPI with a self-developed CS unit. The system provides structured CS matrices for which the existing recovery theory cannot be applied directly. A random search strategy is applied to select the CS measurement matrix within this class for which we obtain exact sparse recovery. Results: We implement a CS PAPI system for a compression factor of $4:3$, where specific measurements are made on separate groups of 16 ILDs. We algorithmically design optimal CS measurements that have proven sparse CS capabilities. Numerical experiments are used to support our results. Conclusions: CS with proven sparse recovery capabilities can be integrated into PAPI, and numerical results support this setup. Future work will focus on applying it to experimental data and utilizing data-driven approaches to enhance the compression factor and generalize the signal class.
翻訳日:2024-02-27 17:13:34 公開日:2024-02-24
# ダイヤモンドのアンサンブル窒素空洞中心を用いた高ダイナミックレンジ・ポータブル磁力計

High dynamic-range and portable magnetometer using ensemble nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2402.15748v1 )

ライセンス: Link先を確認
Himanshu Kumar, Dasika Shishir, Maheshwar Mangat, Siddharth Tallur, and Kasturi Saha(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、その特異な量子的性質のため、過去10年間に広範囲のセンシング応用を実現するために研究されてきた。 ここでは、nv中心のアンサンブルを持つコンパクトで携帯性のある磁力計を、量子マグパイ(比例積分制御を持つ量子磁力計)と呼ぶ。 センサヘッドと関連する電子機器を含め、センサアセンブリは10cm×10cm×7cmのボックス内に収まり、30cm×25cm×5cmの箱で電子機器を制御することができます。 10nT/sqrt(Hz)の帯域幅正規化感度を実現する。 共振周波数のロックに閉ループフィードバックを用いることで、感度を損なうことなく、線形ダイナミックレンジを200マイクロT(固有ダイナミックレンジよりも20倍改善)まで拡張する。 本報告では, ノイズスペクトル, アラン偏差, およびnTレベルの磁場をリアルタイムに追跡することで, 磁気センサの詳細な性能解析を行う。 また,nv軸に沿った磁界の投影を環境温度および湿度下で測定し,エレベータカーとドア開口部の動きをリアルタイムに追跡することで,磁力計の有用性を実証する。

Nitrogen vacancy (NV) centers in diamonds have been explored for realizing a wide range of sensing applications in the last decade due to their unique quantum properties. Here we realize a compact and portable magnetometer with an ensemble of NV centers which we call the Quantum MagPI (Quantum Magnetometer with Proportional Integral control). Including the sensor head and associated electronics, our sensor assembly can fit inside 10 cm x 10 cm x 7 cm box and control electronics in 30 cm x 25 cm x 5 cm box. We achieve a bandwidth normalized sensitivity of ~ 10 nT/sqrt(Hz). Using closed-loop feedback for locking to the resonance frequency, we extend the linear dynamic range to 200 microT (20x improvement compared to the intrinsic dynamic range) without compromising the sensitivity. We report a detailed performance analysis of the magnetometer through measurements of noise spectra, Allan deviation, and tracking of nT-level magnetic fields in real-time. Additionally, we demonstrate the utility of such a magnetometer by real-time tracking the movement of the elevator car and door opening by measuring the projection of the magnetic field along one of the NV-axes under ambient temperature and humidity.
翻訳日:2024-02-27 17:13:09 公開日:2024-02-24
# Intelligent Director: ChatGPTを用いた動的視覚合成のためのフレームワーク

Intelligent Director: An Automatic Framework for Dynamic Visual Composition using ChatGPT ( http://arxiv.org/abs/2402.15746v1 )

ライセンス: Link先を確認
Sixiao Zheng, Jingyang Huo, Yu Wang, Yanwei Fu(参考訳) TikTokが代表する短いビデオプラットフォームの増加に伴い、写真やビデオによるクリエイティビティ表現の傾向が劇的に高まっている。 しかし、一般ユーザーはプロの制作ソフトを使って高品質な動画を制作する専門的なスキルを欠いている。 知的でユーザフレンドリなビデオ作成ツールの需要に応えるため,ユーザ要求に基づいて様々なメディア要素を自動的に統合し,ストーリーテリングビデオを作成することを目的とした,動的ビジュアルコンポジション(DVC)タスクを提案する。 我々は、LENSを利用して画像やビデオフレームの記述を生成し、ChatGPTを組み合わせてコヒーレントなキャプションを生成し、適切な音楽名を推薦するIntelligent Directorフレームワークを提案する。 そして、音楽検索により、ベストマッチ音楽を得る。 そして、キャプション、画像、ビデオ、音楽などの素材を一体化して映像をシームレスに合成する。 最後に、スタイル転送にAnimeGANv2を適用する。 UCF101-DVCとPersonal Albumデータセットを構築し,質的,定量的な比較によってDVCを解く上でのフレームワークの有効性を検証した。

With the rise of short video platforms represented by TikTok, the trend of users expressing their creativity through photos and videos has increased dramatically. However, ordinary users lack the professional skills to produce high-quality videos using professional creation software. To meet the demand for intelligent and user-friendly video creation tools, we propose the Dynamic Visual Composition (DVC) task, an interesting and challenging task that aims to automatically integrate various media elements based on user requirements and create storytelling videos. We propose an Intelligent Director framework, utilizing LENS to generate descriptions for images and video frames and combining ChatGPT to generate coherent captions while recommending appropriate music names. Then, the best-matched music is obtained through music retrieval. Then, materials such as captions, images, videos, and music are integrated to seamlessly synthesize the video. Finally, we apply AnimeGANv2 for style transfer. We construct UCF101-DVC and Personal Album datasets and verified the effectiveness of our framework in solving DVC through qualitative and quantitative comparisons, along with user studies, demonstrating its substantial potential.
翻訳日:2024-02-27 17:12:31 公開日:2024-02-24
# ガオカオMM:中国のマルチモーダルモデル評価のための人間レベルベンチマーク

GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation ( http://arxiv.org/abs/2402.15745v1 )

ライセンス: Link先を確認
Yi Zong, Xipeng Qiu(参考訳) LVLM(Large Vision-Language Models)は画像認識と言語理解に優れた能力を示す。 しかし、既存のマルチモーダルベンチマークでは、LVLMの包括的な能力を反映するには不十分な一次認識能力と常識知識に焦点が当てられている。 本研究では,中国の大学入学試験(gaokao)に基づくマルチモーダルベンチマークであるgaokao-mmを提案する。 GAokaO-MMは中国固有の文脈から派生し、知覚、理解、知識、推論を含むモデルの能力に対する人間レベルの要件を設定する。 10のlvlmを評価し,gpt-4-vison (48.1%), qwen-vl-plus (41.2%), gemini-pro-vision (35.1%) を上位3位に挙げた。 多次元解析の結果,LVLMはAI(Artificial General Intelligence, AGI)に適度な距離を持ち,多言語LVLMの開発を促進する知見が得られた。

The Large Vision-Language Models (LVLMs) have demonstrated great abilities in image perception and language understanding. However, existing multimodal benchmarks focus on primary perception abilities and commonsense knowledge which are insufficient to reflect the comprehensive capabilities of LVLMs. We propose GAOKAO-MM, a multimodal benchmark based on the Chinese College Entrance Examination (GAOKAO), comprising of 8 subjects and 12 types of images, such as diagrams, function graphs, maps and photos. GAOKAO-MM derives from native Chinese context and sets human-level requirements for the model's abilities, including perception, understanding, knowledge and reasoning. We evaluate 10 LVLMs and find that the accuracies of all of them are lower than 50%, with GPT-4-Vison (48.1%), Qwen-VL-Plus (41.2%) and Gemini-Pro-Vision (35.1%) ranking in the top three positions. The results of our multi-dimension analysis indicate that LVLMs have moderate distance towards Artificial General Intelligence (AGI) and provide insights facilitating the development of multilingual LVLMs.
翻訳日:2024-02-27 17:11:58 公開日:2024-02-24
# 学習画像圧縮のための従来の変換理論ガイドモデル

Traditional Transformation Theory Guided Model for Learned Image Compression ( http://arxiv.org/abs/2402.15744v1 )

ライセンス: Link先を確認
Zhiyuan Li, Chenyang Ge, Shun Li(参考訳) 近年,多くの深部画像圧縮手法が提案され,性能が向上している。 しかし、これらの手法は中・高ビットレートでの圧縮性能と速度の最適化に特化しており、超低ビットレートの研究は限られている。 本研究では,従来の変換理論で導かれる超低ビットレート拡張可逆符号化ネットワークを提案する。 具体的には,特徴のスパーシティをモデル化するためにブロック離散コサイン変換を導入し,従来のハール変換を用いて,ビットストリームコストを増加させずにモデルの再構成性能を向上させる。

Recently, many deep image compression methods have been proposed and achieved remarkable performance. However, these methods are dedicated to optimizing the compression performance and speed at medium and high bitrates, while research on ultra low bitrates is limited. In this work, we propose a ultra low bitrates enhanced invertible encoding network guided by traditional transformation theory, experiments show that our codec outperforms existing methods in both compression and reconstruction performance. Specifically, we introduce the Block Discrete Cosine Transformation to model the sparsity of features and employ traditional Haar transformation to improve the reconstruction performance of the model without increasing the bitstream cost.
翻訳日:2024-02-27 17:11:22 公開日:2024-02-24
# 2-infinity Singular Subspaceリカバリによる低域帯域化

Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery ( http://arxiv.org/abs/2402.15739v1 )

ライセンス: Link先を確認
Yassir Jedra, William R\'eveillard, Stefan Stojanovic, Alexandre Proutiere(参考訳) 各ラウンドにおいて(コンテキスト,arm)ペア$(i,j)\in [m]\times [n]$が選択された場合、学習者は未知の低ランク報酬行列の$(i,j)$-thのノイズのサンプルを観察する。 逐次的文脈はi.d.方法でランダムに生成され、学習者に開示される。 そこで我々は,政策評価,最良政策識別,後悔の最小化のための効率的なアルゴリズムを提案する。 政策評価と最良の政策識別のために,我々のアルゴリズムは最小限に最適であることを示す。 例えば、少なくとも1-\delta$の確率で$\varepsilon$-optimalポリシーを返すために必要なサンプルの数は、通常${m+n\over \varepsilon^2}\log(1/\delta)$となる。 我々の後悔の最小化アルゴリズムは、r^{7/4}(m+n)^{3/4}\sqrt{T}$のスケーリングを保証し、既存のアルゴリズムよりも改善する。 提案されたすべてのアルゴリズムは2つのフェーズから構成されており、まずスペクトル法を利用して低ランクの報酬行列の左右の特異部分空間を推定する。 これらの推定値が2対無限ノルムにおいて厳密な誤差保証を享受していることを示す。 これにより、約$r(m+n)$の誤特定された線形バンディット問題とサブスペースリカバリエラーによって制御される誤特定問題と、アルゴリズムの第2フェーズを効率的に設計できるようになりました。

We study contextual bandits with low-rank structure where, in each round, if the (context, arm) pair $(i,j)\in [m]\times [n]$ is selected, the learner observes a noisy sample of the $(i,j)$-th entry of an unknown low-rank reward matrix. Successive contexts are generated randomly in an i.i.d. manner and are revealed to the learner. For such bandits, we present efficient algorithms for policy evaluation, best policy identification and regret minimization. For policy evaluation and best policy identification, we show that our algorithms are nearly minimax optimal. For instance, the number of samples required to return an $\varepsilon$-optimal policy with probability at least $1-\delta$ typically scales as ${m+n\over \varepsilon^2}\log(1/\delta)$. Our regret minimization algorithm enjoys minimax guarantees scaling as $r^{7/4}(m+n)^{3/4}\sqrt{T}$, which improves over existing algorithms. All the proposed algorithms consist of two phases: they first leverage spectral methods to estimate the left and right singular subspaces of the low-rank reward matrix. We show that these estimates enjoy tight error guarantees in the two-to-infinity norm. This in turn allows us to reformulate our problems as a misspecified linear bandit problem with dimension roughly $r(m+n)$ and misspecification controlled by the subspace recovery error, as well as to design the second phase of our algorithms efficiently.
翻訳日:2024-02-27 17:11:04 公開日:2024-02-24
# unsupervised pretrainingとin-context learningによるデータ効率のよいオペレータラーニング

Data-Efficient Operator Learning via Unsupervised Pretraining and In-Context Learning ( http://arxiv.org/abs/2402.15734v1 )

ライセンス: Link先を確認
Wuyang Chen, Jialin Song, Pu Ren, Shashank Subramanian, Dmitriy Morozov, Michael W. Mahoney(参考訳) 近年、偏微分方程式(PDE)に基づく科学的問題の解法として、機械学習手法と物理領域固有の洞察の結合が期待されている。 しかし、データ集約的でありながら、これらの方法は大量のpdeデータを必要とする。 これにより、高価な数値PDEソリューションの必要性を再導入し、こうした高価なシミュレーションを避けるという当初の目標を部分的に損なうことになる。 本研究では,PDE演算子学習のための教師なし事前学習とコンテキスト学習を設計する。 シミュレーションソリューションによるトレーニングデータの必要性を低減するため、リコンストラクションベースのプロキシタスクを用いて、ラベルなしPDEデータ上でニューラルネットワークを事前訓練する。 分散性能を向上させるため、追加のトレーニングコストや設計を伴わずに、ニューラルネットワークがコンテキスト内学習手法を柔軟に活用できるように支援する。 PDEの多種多様な集合に対する大規模な実験評価により,本手法はデータ効率が高く,より一般化可能であり,従来の視覚予測モデルよりも優れていた。

Recent years have witnessed the promise of coupling machine learning methods and physical domain-specific insight for solving scientific problems based on partial differential equations (PDEs). However, being data-intensive, these methods still require a large amount of PDE data. This reintroduces the need for expensive numerical PDE solutions, partially undermining the original goal of avoiding these expensive simulations. In this work, seeking data efficiency, we design unsupervised pretraining and in-context learning methods for PDE operator learning. To reduce the need for training data with simulated solutions, we pretrain neural operators on unlabeled PDE data using reconstruction-based proxy tasks. To improve out-of-distribution performance, we further assist neural operators in flexibly leveraging in-context learning methods, without incurring extra training costs or designs. Extensive empirical evaluations on a diverse set of PDEs demonstrate that our method is highly data-efficient, more generalizable, and even outperforms conventional vision-pretrained models.
翻訳日:2024-02-27 17:10:10 公開日:2024-02-24
# ArEEG_Chars: アラビア文字の脳波を用いた音声認識のためのデータセット

ArEEG_Chars: Dataset for Envisioned Speech Recognition using EEG for Arabic Characters ( http://arxiv.org/abs/2402.15733v1 )

ライセンス: Link先を確認
Hazem Darwish, Abdalrahman Al Malah, Khloud Al Jallad, Nada Ghneim(参考訳) Brain-Computer-Interface(BCI)は、ここ数年、生活の中で麻痺する人々を助けるホットな研究トピックだ。 脳波(EEG)信号を英語の文字と単語に自動的に分類するために、いくつかの研究が行われた。 アラビア語は世界で最もよく使われる言語の1つである。 しかし、私たちの知る限りでは、アラビア文字EEG信号のデータセットは存在しない。 本稿では、アラビア文字のためのEEGデータセットを作成し、それをArEEG_Charsと命名した。 さらに、ディープラーニングを用いてArEEG_Chars上でいくつかの実験を行った。 LSTMで最良の結果が得られ、精度は97%に達した。 ArEEG_Charsデータセットは研究者向けに公開されている。

Brain-Computer-Interface (BCI) has been a hot research topic in the last few years that could help paralyzed people in their lives. Several researches were done to classify electroencephalography (EEG) signals automatically into English characters and words. Arabic language is one of the most used languages around the world. However, to the best of our knowledge, there is no dataset for Arabic characters EEG signals. In this paper, we have created an EEG dataset for Arabic characters and named it ArEEG_Chars. Moreover, several experiments were done on ArEEG_Chars using deep learning. Best results were achieved using LSTM and reached an accuracy of 97%. ArEEG_Chars dataset will be public for researchers.
翻訳日:2024-02-27 17:09:34 公開日:2024-02-24
# 動的環境におけるクラスタリング:不均一な変更を伴うベンチマークデータセット生成のためのフレームワーク

Clustering in Dynamic Environments: A Framework for Benchmark Dataset Generation With Heterogeneous Changes ( http://arxiv.org/abs/2402.15731v1 )

ライセンス: Link先を確認
Danial Yazdani, Juergen Branke, Mohammad Sadegh Khorshidi, Mohammad Nabi Omidvar, Xiaodong Li, Amir H. Gandomi and Xin Yao(参考訳) 動的環境におけるクラスタリングは重要性を増しており、リアルタイムデータ分析やオンライン教師なし学習から動的施設配置問題まで幅広いアプリケーションがある。 メタヒューリスティックスは静的クラスタリングタスクにおいて有望な効果を示しているが、動的環境での最適なクラスタリングソリューションや堅牢なクラスタリングを追跡するための彼らのアプリケーションは、ほとんど未検討のままである。 これは、様々な動的シナリオにおけるクラスタリングアルゴリズムの体系的性能評価を妨げる、多様で制御可能で現実的な動的特性を持つ動的データセットの欠如による部分である。 この不足は、動的環境におけるクラスタリングのアルゴリズムを効果的に設計する理解と能力のギャップをもたらします。 このギャップを埋めるために,本稿では動的データセットジェネレータ(ddg)を紹介する。 DDGは複数の動的ガウス成分を多種多様、局所的、グローバルな変化と統合している。 これらの変化は、空間的および時間的重大性、パターン、影響領域によって異なり、幅広い動的シナリオをシミュレートするための包括的なツールを提供する。

Clustering in dynamic environments is of increasing importance, with broad applications ranging from real-time data analysis and online unsupervised learning to dynamic facility location problems. While meta-heuristics have shown promising effectiveness in static clustering tasks, their application for tracking optimal clustering solutions or robust clustering over time in dynamic environments remains largely underexplored. This is partly due to a lack of dynamic datasets with diverse, controllable, and realistic dynamic characteristics, hindering systematic performance evaluations of clustering algorithms in various dynamic scenarios. This deficiency leads to a gap in our understanding and capability to effectively design algorithms for clustering in dynamic environments. To bridge this gap, this paper introduces the Dynamic Dataset Generator (DDG). DDG features multiple dynamic Gaussian components integrated with a range of heterogeneous, local, and global changes. These changes vary in spatial and temporal severity, patterns, and domain of influence, providing a comprehensive tool for simulating a wide range of dynamic scenarios.
翻訳日:2024-02-27 17:09:25 公開日:2024-02-24
# 個人化表現のための時系列電子健康記録の欠落の理解

Understanding Missingness in Time-series Electronic Health Records for Individualized Representation ( http://arxiv.org/abs/2402.15730v1 )

ライセンス: Link先を確認
Ghadeer O. Ghosheh, Jin Li, and Tingting Zhu(参考訳) 医療応用のための機械学習モデルの普及に伴い、パーソナライズされた医療のためのアプリケーション構築への関心が高まっている。 パーソナライズされた医療のための研究が数多く提案されているにもかかわらず、時系列Electronic Health Records(EHR)データにおける欠如と欠如パターンから学ぶことへの焦点はほとんどない。 個別化された方法での不足表現に焦点が当てられていないことは、真のパーソナライゼーションに向けた機械学習アプリケーションの完全な利用を制限する。 本報告では, 現実の事例による欠落パターンの新たな洞察と, EHRにおける欠落の影響について述べる。 この研究の洞察は、理論的な仮定と現実の EHR における実践的な観察のギャップを埋めることを目的としている。 この研究が、真のパーソナライゼーションのための予測モデリングにおけるより良い表現のための方向を探究する新たな扉を開くことを願っている。

With the widespread of machine learning models for healthcare applications, there is increased interest in building applications for personalized medicine. Despite the plethora of proposed research for personalized medicine, very few focus on representing missingness and learning from the missingness patterns in time-series Electronic Health Records (EHR) data. The lack of focus on missingness representation in an individualized way limits the full utilization of machine learning applications towards true personalization. In this brief communication, we highlight new insights into patterns of missingness with real-world examples and implications of missingness in EHRs. The insights in this work aim to bridge the gap between theoretical assumptions and practical observations in real-world EHRs. We hope this work will open new doors for exploring directions for better representation in predictive modelling for true personalization.
翻訳日:2024-02-27 17:09:06 公開日:2024-02-24
# 人間はどのようにコードを書くのか? 大型モデルも同じことをする

How Do Humans Write Code? Large Models Do It the Same Way Too ( http://arxiv.org/abs/2402.15729v1 )

ライセンス: Link先を確認
Long Li(参考訳) 大規模言語モデル(LLM)は数値計算を行う際にしばしば誤りを犯す。 従来の連鎖推論とは対照的に、プログラム・オブ・思想のアプローチでは、問題を解決するために実行可能なコードを生成する。 このコードを実行することで、より正確な結果が得られる。 自然言語の代わりに生成された実行可能なコードを使用することで、計算エラーを低減できる。 しかし、LLMがコードを用いて数学的問題を解くと、自然言語を使う場合よりも誤った推論が生じる傾向がある。 この問題に対処するために、人間のコーディングプラクティスに触発された、単純かつ高効率なアプローチであるHTL(Human-Think Language)を提案する。 このアプローチはまず、モデルによって自然言語で記述された問題解決メソッドを生成し、次にそれらをコードに変換して、人々が自然言語でロジックを通して考えるプロセスをコードとして記述する。 さらに、近位政策最適化(proximal policy optimization, ppo)アルゴリズムを使用して、人間と同じように、数学的回答の正確性に基づいたフィードバックを提供する。 最後に,問題セグメントを隠蔽し,コード生成時の自然言語推論ソリューションへの依存度を高めたフォーカスアテンション機構を導入する。 追加情報を導入することなく実験を行い,5つの数理計算データセットにまたがる結果から,本手法の有効性を示す。 特に、NumGLUEデータセットでは、LlaMA-2-7Bベースのモデルは、以前のLlaMA-2-70Bモデル(74.4%)と比較して、より優れたパフォーマンス(75.1%)を達成する。

Large Language Models (LLMs) often make errors when performing numerical calculations. In contrast to traditional chain-of-thought reasoning, the program-of-thoughts approach involves generating executable code to solve problems. By executing this code, it achieves more precise results. Using generated executable code instead of natural language can reduce computational errors. However, we observe that when LLMs solve mathematical problems using code, they tend to generate more incorrect reasoning than when using natural language. To address this issue, we propose Human-Think Language (HTL), a straightforward yet highly efficient approach inspired by human coding practices. The approach first generates problem-solving methods described in the natural language by the model, then converts them into code, mirroring the process where people think through the logic in natural language before writing it as code. Additionally, it utilizes the Proximal Policy Optimization (PPO) algorithm, enabling it to provide feedback to itself based on the correctness of mathematical answers, much like humans do. Finally, we introduce a focus-attention mechanism that masks the question segment, enhancing its reliance on natural language inference solutions during code generation. We conduct our experiments without introducing any additional information, and the results across five mathematical calculation datasets showcase the effectiveness of our approach. Notably, on the NumGLUE dataset, the LlaMA-2-7B-based model achieves a superior performance rate (75.1%) compared to the previous best performance with the LlaMA-2-70B model (74.4%).
翻訳日:2024-02-27 17:08:52 公開日:2024-02-24
# 飽和非線形性を用いた例外点の調整

Adjusting exceptional points using saturable nonlinearities ( http://arxiv.org/abs/2402.15792v1 )

ライセンス: Link先を確認
Qingxin Gu, Chunlei Qu, and Yongping Zhang(参考訳) 飽和非線形性が非エルミート二量体系における例外点の存在と位置に及ぼす影響について検討した。 飽和非線形性の包含は複数の固有値の出現につながり、線形な値の典型的な2つを超える。 例外点を同定するために、定義された人口不均衡に対する多項式方程式と完全に数値的な方法の両方から非線形固有値を算出する。 この結果から,非等質な飽和非線形性を調整することで,例外点の正確な位置を推定できることがわかった。

We study the impact of saturable nonlinearity on the presence and location of exceptional points in a non-Hermitian dimer system. The inclusion of the saturable nonlinearity leads to the emergence of multiple eigenvalues, exceeding the typical two found in the linear counterpart. To identify the exceptional points, we calculate the nonlinear eigenvalues both from a polynomial equation for the defined population imbalance and through a fully numerical method. Our results reveal that exceptional points can be precisely located by adjusting the non-equal saturable nonlinearities in the detuning space.
翻訳日:2024-02-27 17:03:56 公開日:2024-02-24
# マルチモードスクイージングの同時測定

Simultaneous measurement of multimode squeezing ( http://arxiv.org/abs/2402.15786v1 )

ライセンス: Link先を確認
Ismail Barakat, Mahmoud Kalash, Dennis Scharwald, Polina Sharapova, Norbert Lindlein, Maria Chekhova(参考訳) マルチモード圧縮光は、センシング、イメージング、計算など、フォトニック量子技術でますます普及しているツールである。 一方、既存の特徴付け手法は技術的に複雑であり、最良の場合、一度に1つのモードを扱う。 本稿では,光パラメトリック増幅法と直接検出法を用いて,複数の空間モードで同時にスクイーズを計測し,空間強度相関に基づくモーダル分解を行った。 本手法を高利得パラメトリックダウンコンバージョンによるマルチモード圧縮真空に適用する。 本研究では,8つの最強空間モードにおいて,最大5.2 pm 0.2$dBおよび8.6 pm 0.3$dBのスクイーズ値と反スクイーズ値を求める。

Multimode squeezed light is an increasingly popular tool in photonic quantum technologies, including sensing, imaging, and computation. Meanwhile, the existing methods of its characterization are technically complicated, and in the best case, deal with a single mode at a time. Here, we demonstrate experimentally how the squeezing can be measured in multiple spatial modes simultaneously, using optical parametric amplification and direct detection followed by modal decomposition based on spatial intensity correlations. We apply this method to a multimode squeezed vacuum generated via high-gain parametric down-conversion. We measure the degrees of squeezing and anti-squeezing for eight strongest spatial modes, obtaining highest squeezing and anti-squeezing values of $-5.2 \pm 0.2$ dB and $8.6 \pm 0.3$ dB, respectively.
翻訳日:2024-02-27 17:03:47 公開日:2024-02-24
# IRConStyle:コントラスト学習とスタイル伝達を用いた画像復元フレームワーク

IRConStyle: Image Restoration Framework Using Contrastive Learning and Style Transfer ( http://arxiv.org/abs/2402.15784v1 )

ライセンス: Link先を確認
Dongqi Fan, Xin Zhao, Liang Chang(参考訳) 近年, 比較学習パラダイムは, 分類, 検出, セグメンテーションといった高度なタスクにおいて顕著な成功を収めている。 しかし、画像復元のような低レベルのタスクに適用される対照的な学習は限られており、その効果は不確かである。 なぜコントラスト学習パラダイムは、画像復元に十分な結果をもたらすのか? 本稿では,詳細な分析を行い,上記の問題に対処するための3つのガイドラインを提案する。 さらに, スタイル伝達に着想を得て, コントラスト学習に基づいて, 任意の u-net 構造ネットワークに効率的に統合可能な \textbf{constyle} と呼ばれる画像復元のための新しいモジュールを提案する。 ConStyle の柔軟性を活用し,画像復元のための \textbf{ General restoration network} を開発した。 ConStyleと一般的な復元ネットワークは、画像復元フレームワーク、つまり \textbf{IRConStyle}を形成する。 ConStyle の機能と互換性を実証するため, 汎用復元ネットワークをトランスフォーマーベース, CNNベース, MLPベースネットワークに置き換える。 我々は, 脱臭, 脱臭, 脱臭, 脱湿など, 様々な画像修復作業について広範囲にわたる実験を行った。 19のベンチマークの結果は、ConStyleが任意のU-Netネットワークと統合でき、性能を大幅に向上できることを示している。 例えば、ConStyle NAFNetは、オリジナルのNAFNetをSOTSの屋外(脱毛)とRain100Hのデータセットで大幅に上回り、PSNRの4.16dBと3.58dBのパラメータが85%少ない。

Recently, the contrastive learning paradigm has achieved remarkable success in high-level tasks such as classification, detection, and segmentation. However, contrastive learning applied in low-level tasks, like image restoration, is limited, and its effectiveness is uncertain. This raises a question: Why does the contrastive learning paradigm not yield satisfactory results in image restoration? In this paper, we conduct in-depth analyses and propose three guidelines to address the above question. In addition, inspired by style transfer and based on contrastive learning, we propose a novel module for image restoration called \textbf{ConStyle}, which can be efficiently integrated into any U-Net structure network. By leveraging the flexibility of ConStyle, we develop a \textbf{general restoration network} for image restoration. ConStyle and the general restoration network together form an image restoration framework, namely \textbf{IRConStyle}. To demonstrate the capability and compatibility of ConStyle, we replace the general restoration network with transformer-based, CNN-based, and MLP-based networks, respectively. We perform extensive experiments on various image restoration tasks, including denoising, deblurring, deraining, and dehazing. The results on 19 benchmarks demonstrate that ConStyle can be integrated with any U-Net-based network and significantly enhance performance. For instance, ConStyle NAFNet significantly outperforms the original NAFNet on SOTS outdoor (dehazing) and Rain100H (deraining) datasets, with PSNR improvements of 4.16 dB and 3.58 dB with 85% fewer parameters.
翻訳日:2024-02-27 17:03:32 公開日:2024-02-24
# 線形関数近似を用いたオフライン多段階TD学習の解析

Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation ( http://arxiv.org/abs/2402.15781v1 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では,線形関数近似,オフポリシー学習,ブートストラップを特徴とする,deadly triadシナリオにおける多段階td学習アルゴリズムを分析する。 特に,サンプリングホライズンnが十分に増加すると,nステップtd学習アルゴリズムが解に収束することを示す。 その紙は2つに分かれている。 第一部では、予測値反復、勾配降下アルゴリズム、制御理論アプローチなど、モデルに基づく決定論的アルゴリズムの基本的特性を総合的に検討し、モデルフリー強化学習アルゴリズムの理解と開発において重要な役割を担っている原型決定論的アルゴリズムとみなすことができる。 特に、これらのアルゴリズムが n が十分に大きいときに有意義な解に収束することが証明される。 これらの結果に基づき、2つのn段階のTD学習アルゴリズムが提案され分析され、このアルゴリズムは勾配と制御理論のモデルなし強化学習アルゴリズムと見なすことができる。

This paper analyzes multi-step TD-learning algorithms within the `deadly triad' scenario, characterized by linear function approximation, off-policy learning, and bootstrapping. In particular, we prove that n-step TD-learning algorithms converge to a solution as the sampling horizon n increases sufficiently. The paper is divided into two parts. In the first part, we comprehensively examine the fundamental properties of their model-based deterministic counterparts, including projected value iteration, gradient descent algorithms, and the control theoretic approach, which can be viewed as prototype deterministic algorithms whose analysis plays a pivotal role in understanding and developing their model-free reinforcement learning counterparts. In particular, we prove that these algorithms converge to meaningful solutions when n is sufficiently large. Based on these findings, two n-step TD-learning algorithms are proposed and analyzed, which can be seen as the model-free reinforcement learning counterparts of the gradient and control theoretic algorithms.
翻訳日:2024-02-27 17:03:04 公開日:2024-02-24
# 機械学習システムによるマルチモーダルデータ暗号化のクリプトアナリシスと改善

Cryptanalysis and improvement of multimodal data encryption by machine-learning-based system ( http://arxiv.org/abs/2402.15779v1 )

ライセンス: Link先を確認
Zakaria Tolba(参考訳) インターネットの普及と、クラウドやデータセンターを通じたネットワークや情報システムの広範な利用により、個人や組織のプライバシーとセキュリティは極めて重要になっている。 この観点から、暗号化は、公開情報交換を保護してこれらの要求を効果的に満たせる効果的な技術を統合する。 これらの目的を達成するため、研究者らは、暗号化通信機構を実質的に複雑化するために、この分野の様々な要件を満たすために、幅広い暗号アルゴリズムを用いた。 個人情報を保存できる限り 攻撃の可能性を大幅に減らすことができます これらの様々なアプリケーションによって確立された要件がいかに複雑かつ異なるかによって、それらを壊そうとする可能性は引き続きあり、実装された暗号アルゴリズムを評価し検証するシステムが必要である。 暗号化アルゴリズムを分析するための最良のアプローチは、それを壊すための実用的で効率的なテクニックを特定したり、アルゴリズムの弱い側面を検出して修復する方法を学ぶことである。 暗号解析の専門家は、秘密鍵を導出する数学的方程式の重大な脆弱性を発見したり、暗号文から平文を決定するなど、暗号を破るいくつかの方法を発見した。 文献には、セキュアな暗号アルゴリズムに対する様々な攻撃があり、戦略と数学的解決策は、その発見を実証し、弱点を特定し、アルゴリズムの保守の失敗を診断するために、広く暗号分析者を利用した。

With the rising popularity of the internet and the widespread use of networks and information systems via the cloud and data centers, the privacy and security of individuals and organizations have become extremely crucial. In this perspective, encryption consolidates effective technologies that can effectively fulfill these requirements by protecting public information exchanges. To achieve these aims, the researchers used a wide assortment of encryption algorithms to accommodate the varied requirements of this field, as well as focusing on complex mathematical issues during their work to substantially complicate the encrypted communication mechanism. as much as possible to preserve personal information while significantly reducing the possibility of attacks. Depending on how complex and distinct the requirements established by these various applications are, the potential of trying to break them continues to occur, and systems for evaluating and verifying the cryptographic algorithms implemented continue to be necessary. The best approach to analyzing an encryption algorithm is to identify a practical and efficient technique to break it or to learn ways to detect and repair weak aspects in algorithms, which is known as cryptanalysis. Experts in cryptanalysis have discovered several methods for breaking the cipher, such as discovering a critical vulnerability in mathematical equations to derive the secret key or determining the plaintext from the ciphertext. There are various attacks against secure cryptographic algorithms in the literature, and the strategies and mathematical solutions widely employed empower cryptanalysts to demonstrate their findings, identify weaknesses, and diagnose maintenance failures in algorithms.
翻訳日:2024-02-27 17:02:44 公開日:2024-02-24
# 定常系におけるパワースペクトルテンソルとその量子摩擦における役割

The power-spectrum tensor in steady-state systems and its role in quantum friction ( http://arxiv.org/abs/2402.15777v1 )

ライセンス: Link先を確認
F. Intravaia and K. Busch(参考訳) 平衡系の系について、量子統計物理学は、いくつかの一般的な定理と関係を提供し、特定の顕微鏡モデルとは結びついていない。 非平衡状態についてはあまり知られていない。 本研究では,一般定常状態における系に対するパワースペクトルテンソルの性質,すなわち平衡配置に必ずしも対応しない定常状態について論じる。 我々の分析では、基礎となる微視的ダイナミクスに対する特定のモデルへの直接的な接続は行わず、その結果を多種多様なシステムに適用することができる。 また、これらの系を特徴づける他の量とパワースペクトルテンソルを接続し、適切な場合には平衡テンソルと比較する。 応用例として、非接触の量子-電気力学的抗力が物質体の配置に近接して動く粒子に作用する量子摩擦の特定の問題を考える。 具体的には、システムの物理に関する追加情報によって、パワースペクトルとその機能的依存関係に関するより正確な制約が導出されるかを示す。

For systems in equilibrium, quantum statistical physics provides a number of general theorems and relations that are not tied to specific microscopic models, one example being the fluctuation-dissipation theorem. Much less is known for nonequilibrium situations. In this work, we discuss certain properties of the power-spectrum tensor for systems in general steady-states, i.e. stationary states not necessarily corresponding to equilibrium configurations. In our analyses, we do not make any direct connection to specific models for the underlying microscopic dynamics and, therefore, our results can be applied to a large variety of systems. We also connect the power-spectrum tensor to other quantities that characterize these systems and, where appropriate, compare with the equilibrium counterparts. As an application, we consider the specific problem of quantum friction, where, at zero temperature, a contactless quantum-electrodynamic drag force acts on a particle that moves in close proximity to an arrangement of material bodies. Specifically, we show how the additional information about the system's physics facilitates the derivation of more precise constraints on the power spectrum and its functional dependencies.
翻訳日:2024-02-27 17:02:19 公開日:2024-02-24
# 拘束型MDPにおける完全非回帰学習

Truly No-Regret Learning in Constrained MDPs ( http://arxiv.org/abs/2402.15776v1 )

ライセンス: Link先を確認
Adrian M\"uller, Pragnya Alatur, Volkan Cevher, Giorgia Ramponi, Niao He(参考訳) CMDP(Constrained Markov decision process)は、強化学習における安全性制約をモデル化する一般的な方法である。 CMDPを効率的に解くための最先端の手法は、原始双対アルゴリズムに基づいている。 これらのアルゴリズムでは、現在知られているすべての後悔のバウンダリがエラーのキャンセルを許す - 1ラウンドで制約違反を補うことができ、もう1ラウンドで厳格な制約満足度を補うことができる。 これにより、オンライン学習プロセスは、最終(混合)ポリシーの安全性のみを保証するが、学習中は安全ではない。 Efroni et al. (2020) が指摘しているように、原始双対アルゴリズムが誤りのキャンセルを許さない場合、確実にサブ線形後悔を達成できるかどうかという未解決の問題である。 本稿では,最初の肯定的な回答を与える。 まず、複数の制約を持つCMDPに対する正規化原始双対スキームの終点収束に関する結果を一般化する。 この知見に基づいて、未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。 提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。

Constrained Markov decision processes (CMDPs) are a common way to model safety constraints in reinforcement learning. State-of-the-art methods for efficiently solving CMDPs are based on primal-dual algorithms. For these algorithms, all currently known regret bounds allow for error cancellations -- one can compensate for a constraint violation in one round with a strict constraint satisfaction in another. This makes the online learning process unsafe since it only guarantees safety for the final (mixture) policy but not during learning. As Efroni et al. (2020) pointed out, it is an open question whether primal-dual algorithms can provably achieve sublinear regret if we do not allow error cancellations. In this paper, we give the first affirmative answer. We first generalize a result on last-iterate convergence of regularized primal-dual schemes to CMDPs with multiple constraints. Building upon this insight, we propose a model-based primal-dual algorithm to learn in an unknown CMDP. We prove that our algorithm achieves sublinear regret without error cancellations.
翻訳日:2024-02-27 17:02:02 公開日:2024-02-24
# COBITからISO 42001:大規模言語モデルの商業化における機会・リスク・規制コンプライアンスのためのサイバーセキュリティフレームワークの評価

From COBIT to ISO 42001: Evaluating Cybersecurity Frameworks for Opportunities, Risks, and Regulatory Compliance in Commercializing Large Language Models ( http://arxiv.org/abs/2402.15770v1 )

ライセンス: Link先を確認
Timothy R. McIntosh, Teo Susnjak, Tong Liu, Paul Watters, Raza Nowrozy, Malka N. Halgamuge(参考訳) 本研究は,大規模言語モデル(LLM)を採用する際の機会,リスク,規制コンプライアンスについて,質的コンテンツ分析と専門家による検証を用いて,主要なサイバーセキュリティガバナンス・リスク・コンプライアンス(GRC)フレームワーク(NIST CSF 2.0,COBIT 2019,ISO 27001:2022,ISO 42001:2023)の統合性を検討した。 LLMと人的専門家の両方のループで分析した結果、LLM統合の可能性とLLMのリスク監視の不備が明らかになった。 ISO 42001:2023は、人工知能(AI)管理システム用に特別に設計されたもので、LCMの機会に対する最も包括的なファシリテーションを提供する一方、COBIT 2019は、迫り来る欧州連合のAI法と最も密接に一致している。 いずれにせよ, 評価されたフレームワークはすべて, LLMに関連する多面的リスクに対して, より効果的かつ包括的に対処するための拡張の恩恵を受けることが示唆された。 我々は,セキュアかつコンプライアンスの高いLCM統合をサポートするためのサイバーセキュリティフレームワークの強化に不可欠な,人間の専門知識による検証プロセスの統合を提案する。

This study investigated the integration readiness of four predominant cybersecurity Governance, Risk and Compliance (GRC) frameworks - NIST CSF 2.0, COBIT 2019, ISO 27001:2022, and the latest ISO 42001:2023 - for the opportunities, risks, and regulatory compliance when adopting Large Language Models (LLMs), using qualitative content analysis and expert validation. Our analysis, with both LLMs and human experts in the loop, uncovered potential for LLM integration together with inadequacies in LLM risk oversight of those frameworks. Comparative gap analysis has highlighted that the new ISO 42001:2023, specifically designed for Artificial Intelligence (AI) management systems, provided most comprehensive facilitation for LLM opportunities, whereas COBIT 2019 aligned most closely with the impending European Union AI Act. Nonetheless, our findings suggested that all evaluated frameworks would benefit from enhancements to more effectively and more comprehensively address the multifaceted risks associated with LLMs, indicating a critical and time-sensitive need for their continuous evolution. We propose integrating human-expert-in-the-loop validation processes as crucial for enhancing cybersecurity frameworks to support secure and compliant LLM integration, and discuss implications for the continuous evolution of cybersecurity GRC frameworks to support the secure integration of LLMs.
翻訳日:2024-02-27 17:01:46 公開日:2024-02-24
# ニューラルベースコード理解のための重要度誘導データ拡張

Importance Guided Data Augmentation for Neural-Based Code Understanding ( http://arxiv.org/abs/2402.15769v1 )

ライセンス: Link先を確認
Zeming Dong, Qiang Hu, Xiaofei Xie, Maxime Cordy, Mike Papadakis, Jianjun Zhao(参考訳) 事前訓練されたコードモデルは、コードインテリジェンスの時代を導く。 近年、多くのモデルが印象的な性能で設計されている。 しかし、重要な問題のひとつとして、開発者がトレーニングデータの準備を支援するコードデータの拡張が、コード学習の分野での学習不足を解消する。 本稿では,コード理解モデルのトレーニングを強化するための汎用データ拡張フレームワークであるGenCodeを紹介する。 GenCodeは、有用なトレーニングコードを作成するために、ジェネレーション・アンド・セレクションのパラダイムに従っている。 具体的には、コード変換技術を使用して、まず新しいコード候補を生成し、次に重要なメトリクスによってトレーニングデータとして重要なものを選択する。 一般的な重要度 --損失値 -- でGenCodeの有効性を評価するために、4つのコード理解タスク(コードクローン検出など)と3つの事前訓練されたコードモデル(CodeT5など)で実験を行った。 最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。

Pre-trained code models lead the era of code intelligence. Many models have been designed with impressive performance recently. However, one important problem, data augmentation for code data that automatically helps developers prepare training data lacks study in the field of code learning. In this paper, we introduce a general data augmentation framework, GenCode, to enhance the training of code understanding models. GenCode follows a generation-and-selection paradigm to prepare useful training codes. Specifically, it uses code transformation techniques to generate new code candidates first and then selects important ones as the training data by importance metrics. To evaluate the effectiveness of GenCode with a general importance metric -- loss value, we conduct experiments on four code understanding tasks (e.g., code clone detection) and three pre-trained code models (e.g., CodeT5). Compared to the state-of-the-art (SOTA) code augmentation method, MixCode, GenCode produces code models with 2.92% higher accuracy and 4.90% robustness on average.
翻訳日:2024-02-27 17:01:18 公開日:2024-02-24
# PhyPlan:ロボットマニピュレータのための物理インフォームドスキルネットワークによる構成的・適応的物理タスク推論

PhyPlan: Compositional and Adaptive Physical Task Reasoning with Physics-Informed Skill Networks for Robot Manipulators ( http://arxiv.org/abs/2402.15767v1 )

ライセンス: Link先を確認
Harshil Vagadia and Mudit Chopra and Abhinav Barnawal and Tamajit Banerjee and Shreshth Tuli and Souvik Chakraborty and Rohan Paul(参考訳) ボールのような物体を、直接到達範囲を超えてゴール領域に配置するタスクを考えると、人間はしばしば、目標を達成するために壁に投げたり、滑ったり、リバウンドしたりすることができる。 しかし、ロボットが同じような理性を持つことは自明ではない。 物理推論の既存の手法は、実世界固有の複雑さと不確実性に苦慮している。 本稿では,物理に変形したニューラルネットワーク (pinns) と修正されたモンテカルロ木探索 (mcts) を組み合わせた新しい物理に変形した計画フレームワークphyplanを提案する。 PhyPlanはPINNを活用して、迅速かつ正確な方法でアクションの結果をシミュレートし、予測し、計画にMCTSを使用する。 PINNベースのシミュレータ(粗いが速い)を参照するか、あるいは実際の環境(細いが遅い)に直接関与して最適なポリシーを決定するかを動的に決定する。 シミュレーション3次元環境におけるロボットによる評価は,ダイナミックスキルの構成を含む3次元物理推論課題を解決するためのアプローチの能力を示す。 PhyPlanはいくつかの点で優れている。 (i)新しい仕事を学ぶときの後悔度を最先端と比べて低くする。 (ii)技能学習を促進させ、理学の速さを高める。 (iii)物理の非インフォームドアプローチに比べて高いデータ効率を示す。

Given the task of positioning a ball-like object to a goal region beyond direct reach, humans can often throw, slide, or rebound objects against the wall to attain the goal. However, enabling robots to reason similarly is non-trivial. Existing methods for physical reasoning are data-hungry and struggle with complexity and uncertainty inherent in the real world. This paper presents PhyPlan, a novel physics-informed planning framework that combines physics-informed neural networks (PINNs) with modified Monte Carlo Tree Search (MCTS) to enable embodied agents to perform dynamic physical tasks. PhyPlan leverages PINNs to simulate and predict outcomes of actions in a fast and accurate manner and uses MCTS for planning. It dynamically determines whether to consult a PINN-based simulator (coarse but fast) or engage directly with the actual environment (fine but slow) to determine optimal policy. Evaluation with robots in simulated 3D environments demonstrates the ability of our approach to solve 3D-physical reasoning tasks involving the composition of dynamic skills. Quantitatively, PhyPlan excels in several aspects: (i) it achieves lower regret when learning novel tasks compared to state-of-the-art, (ii) it expedites skill learning and enhances the speed of physical reasoning, (iii) it demonstrates higher data efficiency compared to a physics un-informed approach.
翻訳日:2024-02-27 17:01:02 公開日:2024-02-24
# look before you leap: 大規模言語モデルの数学的推論を改善する問題解決

Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models ( http://arxiv.org/abs/2402.15764v1 )

ライセンス: Link先を確認
Haoran Liao, Jidong Tian, Shaohua Hu, Hao He, Yaohui Jin(参考訳) 大きな言語モデル~(LLM)は、NLPタスク全体で素晴らしいパフォーマンスを示している。 今のところ、複雑な推論タスクの課題に直面しており、入力コンテキストに敏感である。 推論プロセスの強化やプレフィックス・プロンプトの堅牢性向上に多大な努力が注がれているが、問題コンテキストの重要な役割は見過ごされている。 本研究では,LLMの数学的能力向上のための新しい手法を提案する。 具体的には、PEPは推論の前に問題コンテキストを分解、解明し、グローバルなコンテキストモデリングを強化し、解析の難しさを軽減する。 データセットの実験は、複雑な推論における有望なパフォーマンスを示し、不整合問題に対する有益な影響を示す。 例えば、GPT-3.5モデル~(\texttt{text-davinci-003})では、greedyデコードによる9.93\%の改善と、標準のCoTと比較してGSM8kでの自己整合性による8.80\%の改善が観察された。 ChatGPT~(\texttt{turbo})とPEPでは、SVAMPで86.2\%、GSM8kで90.98\%のSOTA性能を達成する。

Large language models~(LLMs) have exhibited impressive performance across NLP tasks. So far they still face challenges in complex reasoning tasks and can be sensitive to input context. Despite significant efforts have been invested in enhancing reasoning process and improving prefix-prompts robustness, the crucial role of problem context has been overlooked. In this study, we propose a new approach to improve the mathematical capacities of LLMs, named Problem Elaboration Prompting~(PEP). Specifically, PEP decomposes and elucidates the problem context before reasoning, thus enhancing the global context modeling and reducing the parsing difficulties. Experiments on datasets demonstrate promising performances on complex reasoning and indicate the beneficial impact for ill-formed problems. For instance, with the GPT-3.5 model~(\texttt{text-davinci-003}), we observed a 9.93\% improvement with greedy decoding and 8.80\% improvement with self-consistency on GSM8k compared to the standard CoT. With ChatGPT~(\texttt{turbo}) and PEP, we achieve SOTA performances on SVAMP with 86.2\% and GSM8k with 90.98\%.
翻訳日:2024-02-27 17:00:40 公開日:2024-02-24
# res-vmamba:深層学習を伴う選択的状態空間モデルを用いた食品分類

Res-VMamba: Fine-Grained Food Category Visual Classification Using Selective State Space Models with Deep Residual Learning ( http://arxiv.org/abs/2402.15761v1 )

ライセンス: Link先を確認
Chi-Sheng Chen, Guan-Ying Chen, Dong Zhou, Di Jiang, Dai-Shi Chen(参考訳) 食品分類は食品ビジョンタスクの基盤であり、計算栄養の急成長において重要な役割を担っている。 食品の細粒度分類が複雑であるため、近年の研究では主に畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマー(vits)を修飾して食品の分類を行った。 しかしながら、きめ細かな特徴を学ぶために、cnnバックボーンはさらなる構造設計を必要とするが、vitは自己完結モジュールを含み、計算の複雑さが増大する。 近年、新しいシーケンス状態空間(s4)モデルは、選択機構とスキャンによる計算(s6)を通じて、口語でmambaと呼ばれ、トランスフォーマアーキテクチャよりも優れた性能と計算効率を示している。 Mambaメカニズムをイメージタスク(分類など)に組み込んだVMambaモデルは、現在、ImageNetデータセット上の最先端(SOTA)を確立している。 本研究では,学術的に過小評価された食品データセットCNFOOD-241を導入するとともに,元のVMambaアーキテクチャ設計に固有のグローバルおよびローカル両方の特徴を同時に活用するために,VMambaモデル内の残差学習フレームワークの統合を開拓する。 その結果,VMambaは細粒度および食品の分類において,現在のSOTAモデルを上回ることがわかった。 res-vmambaの分類精度はさらに79.54\%に向上した。 提案手法は,CNFOOD-241データセットを用いた食品認識におけるSOTA性能の新たな評価基準を確立した。 GitHubでは、https://github.com/ChiShengChen/ResVMamba.comでコードが取得できる。

Food classification is the foundation for developing food vision tasks and plays a key role in the burgeoning field of computational nutrition. Due to the complexity of food requiring fine-grained classification, recent academic research mainly modifies Convolutional Neural Networks (CNNs) and/or Vision Transformers (ViTs) to perform food category classification. However, to learn fine-grained features, the CNN backbone needs additional structural design, whereas ViT, containing the self-attention module, has increased computational complexity. In recent months, a new Sequence State Space (S4) model, through a Selection mechanism and computation with a Scan (S6), colloquially termed Mamba, has demonstrated superior performance and computation efficiency compared to the Transformer architecture. The VMamba model, which incorporates the Mamba mechanism into image tasks (such as classification), currently establishes the state-of-the-art (SOTA) on the ImageNet dataset. In this research, we introduce an academically underestimated food dataset CNFOOD-241, and pioneer the integration of a residual learning framework within the VMamba model to concurrently harness both global and local state features inherent in the original VMamba architectural design. The research results show that VMamba surpasses current SOTA models in fine-grained and food classification. The proposed Res-VMamba further improves the classification accuracy to 79.54\% without pretrained weight. Our findings elucidate that our proposed methodology establishes a new benchmark for SOTA performance in food recognition on the CNFOOD-241 dataset. The code can be obtained on GitHub: https://github.com/ChiShengChen/ResVMamba.
翻訳日:2024-02-27 17:00:17 公開日:2024-02-24
# GPT-4生成記述プロンプトによるマルチモーダル医用画像のSAMゼロショット性能の向上

Increasing SAM Zero-Shot Performance on Multimodal Medical Images Using GPT-4 Generated Descriptive Prompts Without Human Annotation ( http://arxiv.org/abs/2402.15759v1 )

ライセンス: Link先を確認
Zekun Jiang, Dongjie Cheng, Ziyuan Qin, Jun Gao, Qicheng Lao, Kang Li, Le Zhang(参考訳) 本研究は,手動アノテーションを使わずに,新しいマルチモーダル医用画像ゼロショットセグメンテーションアルゴリズムであるText-Visual-Prompt SAM(TV-SAM)を開発し,評価する。 TV-SAMは大規模言語モデルGPT-4、ビジョン言語モデルGLIP、Segment Anything Model(SAM)を統合し、医療画像から記述的テキストプロンプトと視覚的バウンディングボックスプロンプトを自律的に生成する。 総合的な評価は、8つの画像モダリティを含む7つのパブリックデータセット上で実施され、TV-SAMが、追加のトレーニングをすることなく、様々なモダリティにわたって効果的に未確認のターゲットを分割できること、SAM AUTOとGSAMを著しく上回り、SAM BBOXとゴールド標準バウンディングボックスプロンプトのパフォーマンスを密に一致させ、ISICやWBCのような特定のデータセットで最先端の技術を超えることを示す。 本研究は,マルチモーダル医用画像ゼロショットセグメンテーションアルゴリズムとしてtv-samが有効であることを示し,gpt-4のゼロショットセグメンテーションへの有意な寄与を強調する。 GPT-4、GLIP、SAMといった基礎モデルを統合することで、特殊なドメインにおける複雑な問題に対処する能力を高めることができる。 コードは、https://github.com/JZK00/TV-SAMで入手できる。

This study develops and evaluates a novel multimodal medical image zero-shot segmentation algorithm named Text-Visual-Prompt SAM (TV-SAM) without any manual annotations. TV-SAM incorporates and integrates large language model GPT-4, Vision Language Model GLIP, and Segment Anything Model (SAM), to autonomously generate descriptive text prompts and visual bounding box prompts from medical images, thereby enhancing SAM for zero-shot segmentation. Comprehensive evaluations are implemented on seven public datasets encompassing eight imaging modalities to demonstrate that TV-SAM can effectively segment unseen targets across various modalities without additional training, significantly outperforming SAM AUTO and GSAM, closely matching the performance of SAM BBOX with gold standard bounding box prompts, and surpassing the state-of-the-art on specific datasets like ISIC and WBC. The study indicates that TV-SAM serves as an effective multimodal medical image zero-shot segmentation algorithm, highlighting the significant contribution of GPT-4 to zero-shot segmentation. By integrating foundational models such as GPT-4, GLIP, and SAM, it could enhance the capability to address complex problems in specialized domains. The code is available at: https://github.com/JZK00/TV-SAM.
翻訳日:2024-02-27 16:59:47 公開日:2024-02-24
# Chimera: すべてのトークンを融合して大規模言語モデル推論を高速化するロスレスデコーディング手法

Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens ( http://arxiv.org/abs/2402.15758v1 )

ライセンス: Link先を確認
Ziqian Zeng, Jiahong Yu, Qianshi Pang, Zihao Wang, Huiping Zhuang, Cen Chen(参考訳) 大規模言語モデル(llm)は様々なタスクにまたがる顕著な能力を示している。 しかし、それらの応用はリソース集約的な復号処理によって妨げられる。 この課題に対処するため、現在のアプローチでは、複数の後続トークンの並列予測を可能にするために、追加の復号ヘッドが組み込まれている。 それでも、これらの復号ヘッドの精度は自己回帰復号法に劣る。 これらの制約を考慮して,投機的サンプリングに特化した新しいフレームワークであるChimeraを提案する。 このフレームワークでは、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入します。 精度と効率の両立を図るため,軽量ドラフトモデルに2つの戦略を提案する。 まず、下位層での短距離依存関係のキャプチャに焦点を当てます。 次に、Vicuna と LlaMA-2 シリーズでの実証的な評価から、Chimera は、Vicuna と LlaMA-2 シリーズにおいて、バニラ自己回帰復号法と比較して平均2.7倍の遅延速度向上率を達成するという印象的な結果を示した。 これは、デコードプロセス中の大規模言語モデルの効率を大幅に向上させる、提案フレームワークの可能性を強調します。

Large language models (LLMs) have demonstrated remarkable capabilities across various tasks. However, their widespread application is hindered by the resource-intensive decoding process. To address this challenge, current approaches have incorporated additional decoding heads to enable parallel prediction of multiple subsequent tokens, thereby achieving inference acceleration. Nevertheless, the accuracy of these decoding heads falls short of the auto-regressive decoding approach. In light of these limitations, we propose Chimera, a novel framework specifically designed for speculative sampling. Within this framework, we introduce a lightweight draft model that effectively utilizes previously generated tokens to predict subsequent words. To ensure both accuracy and efficiency, we present two strategies within the lightweight draft model. Firstly, we focus on capturing short-range dependencies at the bottom layer. Secondly, we leverage the readily available representations from the original LLM.Through empirical evaluation on the Vicuna and LlaMA-2 series, Chimera demonstrates impressive results, achieving an average latency speedup ratio of 2.7x compared to the vanilla auto-regressive decoding approach. This highlights the potential of our proposed framework in significantly improving the efficiency of large language models during the decoding process.
翻訳日:2024-02-27 16:59:16 公開日:2024-02-24
# 人間選好による報酬関数のバッチアクティブ学習

Batch Active Learning of Reward Functions from Human Preferences ( http://arxiv.org/abs/2402.15757v1 )

ライセンス: Link先を確認
Erdem B{\i}y{\i}k, Nima Anari, Dorsa Sadigh(参考訳) データ生成とラベリングは、ロボット学習においてしばしば高価である。 嗜好に基づく学習は、ユーザが好みの質問をすることで、信頼できるラベル付けを可能にする概念である。 アクティブクエリ手法は、並列化と計算時間を犠牲にしてより有益なデータを生成するために、選好ベースの学習で一般的に用いられる。 本稿では,クエリ生成時間の短縮と並列性を維持しつつ,データサンプル数を極力少なくして報奨関数の効率的な学習を可能にする,新しいアルゴリズムであるバッチアクティブ・プレファレンスベース学習法を開発した。 本稿では,アクティブバッチ生成のための決定点プロセス(DPP)に基づく手法と,ヒューリスティックな代替手法を提案する。 最後に,シミュレーションにおけるロボット工学の課題について実験結果を示す。 この結果から,我々のバッチ能動学習アルゴリズムでは,短時間で計算されるクエリはごくわずかであることが示唆された。 人間の好みを学習するために,我々のアルゴリズムの1つを紹介した。

Data generation and labeling are often expensive in robot learning. Preference-based learning is a concept that enables reliable labeling by querying users with preference questions. Active querying methods are commonly employed in preference-based learning to generate more informative data at the expense of parallelization and computation time. In this paper, we develop a set of novel algorithms, batch active preference-based learning methods, that enable efficient learning of reward functions using as few data samples as possible while still having short query generation times and also retaining parallelizability. We introduce a method based on determinantal point processes (DPP) for active batch generation and several heuristic-based alternatives. Finally, we present our experimental results for a variety of robotics tasks in simulation. Our results suggest that our batch active learning algorithm requires only a few queries that are computed in a short amount of time. We showcase one of our algorithms in a study to learn human users' preferences.
翻訳日:2024-02-27 16:58:52 公開日:2024-02-24
# DART: 深度向上した精度とリアルタイムバックグラウンドマッチング

DART: Depth-Enhanced Accurate and Real-Time Background Matting ( http://arxiv.org/abs/2402.15820v1 )

ライセンス: Link先を確認
Hanxi Li, Guofeng Li, Bo Li, Lin Wu and Yan Cheng(参考訳) Matting with a static background, often referred to as ``Background Matting" (BGM), has garnered significant attention within the computer vision community due to its pivotal role in various practical applications like webcasting and photo editing. Nevertheless, achieving highly accurate background matting remains a formidable challenge, primarily owing to the limitations inherent in conventional RGB images. These limitations manifest in the form of susceptibility to varying lighting conditions and unforeseen shadows. In this paper, we leverage the rich depth information provided by the RGB-Depth (RGB-D) cameras to enhance background matting performance in real-time, dubbed DART. Firstly, we adapt the original RGB-based BGM algorithm to incorporate depth information. The resulting model's output undergoes refinement through Bayesian inference, incorporating a background depth prior. The posterior prediction is then translated into a "trimap," which is subsequently fed into a state-of-the-art matting algorithm to generate more precise alpha mattes. 多くの実世界のアプリケーションにとって重要な要件であるリアルタイムマッチング機能を確保するため、我々はより大きく汎用性の高いBGMネットワークからモデルのバックボーンを蒸留する。 本実験は,提案手法の優れた性能を示す。 また, 蒸留操作により, 中距離エッジコンピューティング装置において, 毎秒33フレーム(fps)の顕著な処理速度を達成する。 この高効率は、モバイルアプリケーションにおけるDARTの巨大な可能性の基盤となる。

Matting with a static background, often referred to as ``Background Matting" (BGM), has garnered significant attention within the computer vision community due to its pivotal role in various practical applications like webcasting and photo editing. Nevertheless, achieving highly accurate background matting remains a formidable challenge, primarily owing to the limitations inherent in conventional RGB images. These limitations manifest in the form of susceptibility to varying lighting conditions and unforeseen shadows. In this paper, we leverage the rich depth information provided by the RGB-Depth (RGB-D) cameras to enhance background matting performance in real-time, dubbed DART. Firstly, we adapt the original RGB-based BGM algorithm to incorporate depth information. The resulting model's output undergoes refinement through Bayesian inference, incorporating a background depth prior. The posterior prediction is then translated into a "trimap," which is subsequently fed into a state-of-the-art matting algorithm to generate more precise alpha mattes. To ensure real-time matting capabilities, a critical requirement for many real-world applications, we distill the backbone of our model from a larger and more versatile BGM network. Our experiments demonstrate the superior performance of the proposed method. Moreover, thanks to the distillation operation, our method achieves a remarkable processing speed of 33 frames per second (fps) on a mid-range edge-computing device. This high efficiency underscores DART's immense potential for deployment in mobile applications}
翻訳日:2024-02-27 16:55:06 公開日:2024-02-24
# デバイアスモデルに基づくインタラクティブレコメンデーション

Debiased Model-based Interactive Recommendation ( http://arxiv.org/abs/2402.15819v1 )

ライセンス: Link先を確認
Zijian Li, Ruichu Cai, Haiqin Huang, Sili Zhang, Yuguang Yan, Zhifeng Hao, Zhenghua Dong(参考訳) 既存のモデルベースのインタラクティブレコメンデーションシステムは、ユーザ好みを捉えるために世界モデルをクエリすることでトレーニングされるが、過去のログデータから世界モデルを学ぶことは、人気バイアスやサンプリングバイアスといったバイアス問題に容易に悩まされる。 そのため近年, 偏平法が提案されている。 しかし、2つの重大な欠点が残っている。 1) 時間による人気度の変化を無視すると, 項目の再重み付けが生じる。 2) 陰性試料を陰性試料として採取すると, サンプリングバイアスが生じる。 これら2つの欠点を克服するため、我々は \textbf{i}dentifiable \textbf{D}ebiased \textbf{M}odel-based \textbf{I}nteractive \textbf{R}ecommendation (\textbf{iDMIR})と呼ばれるモデルを開発する。 idmirでは、第1の欠点として、時間変動推薦生成プロセスの因果メカニズムに基づく偏り付き因果世界モデルと識別保証を考案し、第2の欠点については、偏り付き対照学習と一致し、サンプリングバイアスを回避した偏り付きコントラストポリシーを考案する。 さらに,提案手法は,最新のインタラクティブレコメンデーションアルゴリズムに勝るだけでなく,様々なレコメンデーション性能を享受できることを示す。

Existing model-based interactive recommendation systems are trained by querying a world model to capture the user preference, but learning the world model from historical logged data will easily suffer from bias issues such as popularity bias and sampling bias. This is why some debiased methods have been proposed recently. However, two essential drawbacks still remain: 1) ignoring the dynamics of the time-varying popularity results in a false reweighting of items. 2) taking the unknown samples as negative samples in negative sampling results in the sampling bias. To overcome these two drawbacks, we develop a model called \textbf{i}dentifiable \textbf{D}ebiased \textbf{M}odel-based \textbf{I}nteractive \textbf{R}ecommendation (\textbf{iDMIR} in short). In iDMIR, for the first drawback, we devise a debiased causal world model based on the causal mechanism of the time-varying recommendation generation process with identification guarantees; for the second drawback, we devise a debiased contrastive policy, which coincides with the debiased contrastive learning and avoids sampling bias. Moreover, we demonstrate that the proposed method not only outperforms several latest interactive recommendation algorithms but also enjoys diverse recommendation performance.
翻訳日:2024-02-27 16:54:48 公開日:2024-02-24
# 通信用大規模言語モデルにおける言語知能

Linguistic Intelligence in Large Language Models for Telecommunications ( http://arxiv.org/abs/2402.15818v1 )

ライセンス: Link先を確認
Tasnim Ahmed, Nicola Piovesan, Antonio De Domenico, Salimur Choudhury(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きな進歩を遂げており、言語生成やその他の言語中心のタスクにおいて顕著な能力を示している。 様々な科学分野における多岐にわたる分析・推論タスクの評価にもかかわらず、通信分野における自然言語タスクの分野における知識と理解の包括的探究はいまだに必要である。 そこで本研究では,本領域におけるLLMの知識と理解能力について検討する。 これを実現するため、我々は4つの著名なllms-llama-2、falcon、mistral、zephyrのゼロショット評価を行う。 これらのモデルはchatgptよりも少ないリソースを必要とするため、リソース制約のある環境に適している。 その性能は最先端の微調整モデルと比較される。 我々の知る限りでは、この領域における複数の言語中心のタスクにおけるLLMの理解を広く評価し比較する最初の試みである。 評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。 このことは、広範なテキストコーパスの事前訓練が、電気通信領域内であっても、LLMにある程度の専門性を持たせることを示している。 また、1つのLLMが他のLLMより一貫して優れておらず、異なるLLMの性能が変動することが観察できる。 それらの性能は微調整モデルに遅れを取っているが、この分野で大きな注釈付きデータを持たない様々な側面を理解するための貴重な資源としてLLMの可能性を裏付けている。

Large Language Models (LLMs) have emerged as a significant advancement in the field of Natural Language Processing (NLP), demonstrating remarkable capabilities in language generation and other language-centric tasks. Despite their evaluation across a multitude of analytical and reasoning tasks in various scientific domains, a comprehensive exploration of their knowledge and understanding within the realm of natural language tasks in the telecommunications domain is still needed. This study, therefore, seeks to evaluate the knowledge and understanding capabilities of LLMs within this domain. To achieve this, we conduct an exhaustive zero-shot evaluation of four prominent LLMs-Llama-2, Falcon, Mistral, and Zephyr. These models require fewer resources than ChatGPT, making them suitable for resource-constrained environments. Their performance is compared with state-of-the-art, fine-tuned models. To the best of our knowledge, this is the first work to extensively evaluate and compare the understanding of LLMs across multiple language-centric tasks in this domain. Our evaluation reveals that zero-shot LLMs can achieve performance levels comparable to the current state-of-the-art fine-tuned models. This indicates that pretraining on extensive text corpora equips LLMs with a degree of specialization, even within the telecommunications domain. We also observe that no single LLM consistently outperforms others, and the performance of different LLMs can fluctuate. Although their performance lags behind fine-tuned models, our findings underscore the potential of LLMs as a valuable resource for understanding various aspects of this field that lack large annotated data.
翻訳日:2024-02-27 16:54:16 公開日:2024-02-24
# 材料構造3次元再構成のための生成的機械学習モデルと性能評価

A Generative Machine Learning Model for Material Microstructure 3D Reconstruction and Performance Evaluation ( http://arxiv.org/abs/2402.15815v1 )

ライセンス: Link先を確認
Yilin Zheng and Zhigong Song(参考訳) The reconstruction of 3D microstructures from 2D slices is considered to hold significant value in predicting the spatial structure and physical properties of materials.The dimensional extension from 2D to 3D is viewed as a highly challenging inverse problem from the current technological perspective.Recently,methods based on generative adversarial networks have garnered widespread attention.However,they are still hampered by numerous limitations,including oversimplified models,a requirement for a substantial number of training samples,and difficulties in achieving model convergence during training.In light of this,a novel generative model that integrates the multiscale properties of U-net with and the generative capabilities of GAN has been proposed.Based on this,the innovative construction of a multi-scale channel aggregation module,a multi-scale hierarchical feature aggregation module and a convolutional block attention mechanism can better capture the properties of the material microstructure and extract the image information.The model's accuracy is further improved by combining the image regularization loss with the Wasserstein distance loss.In addition,this study utilizes the anisotropy index to accurately distinguish the nature of the image,which can clearly determine the isotropy and anisotropy of the image.It is also the first time that the generation quality of material samples from different domains is evaluated and the performance of the model itself is compared.The experimental results demonstrate that the present model not only shows a very high similarity between the generated 3D structures and real samples but is also highly consistent with real data in terms of statistical data analysis.

The reconstruction of 3D microstructures from 2D slices is considered to hold significant value in predicting the spatial structure and physical properties of materials.The dimensional extension from 2D to 3D is viewed as a highly challenging inverse problem from the current technological perspective.Recently,methods based on generative adversarial networks have garnered widespread attention.However,they are still hampered by numerous limitations,including oversimplified models,a requirement for a substantial number of training samples,and difficulties in achieving model convergence during training.In light of this,a novel generative model that integrates the multiscale properties of U-net with and the generative capabilities of GAN has been proposed.Based on this,the innovative construction of a multi-scale channel aggregation module,a multi-scale hierarchical feature aggregation module and a convolutional block attention mechanism can better capture the properties of the material microstructure and extract the image information.The model's accuracy is further improved by combining the image regularization loss with the Wasserstein distance loss.In addition,this study utilizes the anisotropy index to accurately distinguish the nature of the image,which can clearly determine the isotropy and anisotropy of the image.It is also the first time that the generation quality of material samples from different domains is evaluated and the performance of the model itself is compared.The experimental results demonstrate that the present model not only shows a very high similarity between the generated 3D structures and real samples but is also highly consistent with real data in terms of statistical data analysis.
翻訳日:2024-02-27 16:53:52 公開日:2024-02-24
# RNN言語モデルの帰納的バイアスに関する理論的結果

A Theoretical Result on the Inductive Bias of RNN Language Models ( http://arxiv.org/abs/2402.15814v1 )

ライセンス: Link先を確認
Anej Svete, Robin Shing Moon Chan, Ryan Cotterell(参考訳) Hewitt et al. (2020) による最近の研究は、リカレントニューラルネットワーク(RNN)の言語モデル(LM)としての実証的な成功の解釈を提供する。 RNNは、人間の言語で広く使われている境界階層構造を効率的に表現できることを示している。 これは、RNNの成功が階層をモデル化する能力と結びついていることを示している。 しかし、Hewitt et al. (2020) の構成を詳しく調べると、それは階層的 LM に限らず、どの LM の 'emph{other class} が RNN によって効率的に表現できるのかという疑問が浮き彫りになっている。 この目的のために、RNNがより大規模なLMを効率的に表現できることを示すために、それらの構成を一般化する: 境界スタックと一般化スタック更新関数を備えたプッシュダウンオートマトンで表現できるもの。 これは、固定数のシンボルのメモリを保持し、単純な更新メカニズムでメモリを更新するオートマトンに似ている。 さらに、多種多様な非階層的LMの表現効率は、RNNにおける具体的な認知と人間言語中心の帰納バイアスの欠如を示唆している。

Recent work by Hewitt et al. (2020) provides a possible interpretation of the empirical success of recurrent neural networks (RNNs) as language models (LMs). It shows that RNNs can efficiently represent bounded hierarchical structures that are prevalent in human language. This suggests that RNNs' success might be linked to their ability to model hierarchy. However, a closer inspection of Hewitt et al.'s (2020) construction shows that it is not limited to hierarchical LMs, posing the question of what \emph{other classes} of LMs can be efficiently represented by RNNs. To this end, we generalize their construction to show that RNNs can efficiently represent a larger class of LMs: Those that can be represented by a pushdown automaton with a bounded stack and a generalized stack update function. This is analogous to an automaton that keeps a memory of a fixed number of symbols and updates the memory with a simple update mechanism. Altogether, the efficiency in representing a diverse class of non-hierarchical LMs posits a lack of concrete cognitive and human-language-centered inductive biases in RNNs.
翻訳日:2024-02-27 16:53:36 公開日:2024-02-24
# LLMの採算能力の測定:ベンチマークと買い手エンハンスメント手法

Measuring Bargaining Abilities of LLMs: A Benchmark and A Buyer-Enhancement Method ( http://arxiv.org/abs/2402.15813v1 )

ライセンス: Link先を確認
Tian Xia, Zhiwei He, Tong Ren, Yibo Miao, Zhuosheng Zhang, Yang Yang, Rui Wang(参考訳) 交渉は人間同士の交渉において重要かつ独特な部分である。 LLM主導のエージェントは、実際の人間のように交渉し行動することを学ぶため、エージェントの交渉能力を評価する方法が未解決の問題である。 取引業務を非対称不完全情報ゲームとして、複数の交渉プロセスにおいて買い手と売り手の利益を定義することを初めて正式に記述した。 これにより,取引作業におけるエージェントのパフォーマンスを定量的に評価することができる。 実際の製品価格データセットであるAmazonHistoryPriceを収集し、さまざまなLLMエージェントのバリ取り能力の評価を行った。 買い手の遊びは売り手よりもずっと難しく,モデルサイズの増加は買い手のパフォーマンスを効果的に改善できないことがわかった。 そこで本研究では,提案する提案の価格範囲を制御するための決定論的オファージェネレータと,生成した提案に対する自然言語文を生成するLLMナレーターを組み合わせた,OG-Narratorという新しいアプローチを提案する。 実験の結果、OG-Narratorは購入者の取引レートを26.67%から88.88%に改善し、整列していないモデルであっても、すべてのベースラインに10倍の利益をもたらすことが示された。

Bargaining is an important and unique part of negotiation between humans. As LLM-driven agents learn to negotiate and act like real humans, how to evaluate agents' bargaining abilities remains an open problem. For the first time, we formally described the Bargaining task as an asymmetric incomplete information game, defining the gains of the Buyer and Seller in multiple bargaining processes. It allows us to quantitatively assess an agent's performance in the Bargain task. We collected a real product price dataset, AmazonHistoryPrice, and conducted evaluations of various LLM agents' bargaining abilities. We find that playing a Buyer is much harder than a Seller, and increasing model size can not effectively improve the Buyer's performance. To address the challenge, we propose a novel approach called OG-Narrator that integrates a deterministic Offer Generator to control the price range of Buyer's offers, and an LLM Narrator to create natural language sentences for generated offers. Experimental results show that OG-Narrator improves the buyer's deal rates from 26.67% to 88.88% and brings a ten times of multiplication of profits on all baselines, even a model that has not been aligned.
翻訳日:2024-02-27 16:53:15 公開日:2024-02-24
# ランダウアー限界を超える量子情報の効率的な消去

Efficient erasure of quantum information beyond Landauer's limit ( http://arxiv.org/abs/2402.15812v1 )

ライセンス: Link先を確認
Carlos Octavio A. Ribeiro Neto and Bert\'ulio de Lima Bernardo(参考訳) ランダウアーの原理は、1つの古典的情報のビットがメモリから消去されたときに散逸する熱の基本的な限界を定め、情報理論と熱力学の間の直接的リンクを確立する。 しかし、量子技術の出現とともに、原理を克服する戦略が存在するかどうかという問題が自然に現れる。 本研究では,任意の量子ビット状態を単位確率で消去し,ランダウアーの限界を超える動作が可能な量子チャネルを提案する。 この方法はユニタリ演算のみに基づいており、キュービットメモリと相互作用する前に、熱貯水池の非エネルギー的な自由度を純粋状態に選択する必要がある。 ランドーアー境界の破れは、貯水池の温度が所定の限界温度を超えると検証され、室温よりかなり低い値となる。

Landauer's principle sets a fundamental limit on the heat dissipated when one classical bit of information is erased from a memory, therefore establishing a direct link between information theory and thermodynamics. However, with the advent of quantum technologies, the question of whether there is a strategy to overcome the principle naturally emerges. In this work, we present a quantum channel which erases any qubit state with unit probability, and is capable of operating beyond Landauer's limit. The method is based only on unitary operations, and requires that a non-energetic degree of freedom of the thermal reservoir be preselected into a pure state before interacting with the qubit memory. The violation of the Landauer bound is verified when the reservoir temperature is above a given limit temperature, which can be well below room temperature.
翻訳日:2024-02-27 16:52:54 公開日:2024-02-24
# oag-bench: 学術グラフマイニングのためのヒューマンキュレーションベンチマーク

OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining ( http://arxiv.org/abs/2402.15810v1 )

ライセンス: Link先を確認
Fanjin Zhang, Shijie Shi, Yifan Zhu, Bo Chen, Yukuo Cen, Jifan Yu, Yelin Chen, Lulu Wang, Qingfei Zhao, Yuqing Cheng, Tianyi Han, Yuwei An, Dan Zhang, Weng Lam Tam, Kun Cao, Yunhe Pang, Xinyu Guan, Huihui Yuan, Jian Song, Xiaoyan Li, Yuxiao Dong, Jie Tang(参考訳) 科学文献の急速な普及に伴い、多彩な学術知識サービスはより包括的な学術グラフマイニングに依存するようになった。 パブリックな学術グラフ、ベンチマーク、データセットが利用可能であるにもかかわらず、これらのリソースは、多アスペクトできめ細かいアノテーションに不足することが多く、特定のタスクタイプやドメインに制約されている。 本稿では,Open Academic Graph(OAG)に基づく包括的,多面的,きめ細かな人為的なベンチマークであるOAG-Benchを提案する。 OAG-Benchは10のタスク、20のデータセット、70以上のベースライン、120以上の実験結果をカバーする。 本稿では,特定のタスクに対する新しいデータアノテーション戦略を提案し,データ前処理コード,アルゴリズム実装,標準化された評価プロトコルを提供し,学術グラフマイニングを容易にする。 大規模な実験により、大きな言語モデル(LLM)のような高度なアルゴリズムでさえ、論文のソーストレースや学者のプロファイリングといった特定のタスクにおいて重要な課題に取り組むのに困難に直面することが明らかになった。 また,オープンアカデミックグラフチャレンジ(oag-challenge)を導入し,コミュニティのインプットと共有を促進する。 我々は,OAG-Benchが,学術的なグラフマイニングにおけるアルゴリズムの評価と比較を行うコミュニティの共通基盤として機能し,アルゴリズム開発とこの分野の進歩を促進できると考えている。 OAG-Benchはhttps://www.aminer.cn/data/でアクセスできる。

With the rapid proliferation of scientific literature, versatile academic knowledge services increasingly rely on comprehensive academic graph mining. Despite the availability of public academic graphs, benchmarks, and datasets, these resources often fall short in multi-aspect and fine-grained annotations, are constrained to specific task types and domains, or lack underlying real academic graphs. In this paper, we present OAG-Bench, a comprehensive, multi-aspect, and fine-grained human-curated benchmark based on the Open Academic Graph (OAG). OAG-Bench covers 10 tasks, 20 datasets, 70+ baselines, and 120+ experimental results to date. We propose new data annotation strategies for certain tasks and offer a suite of data pre-processing codes, algorithm implementations, and standardized evaluation protocols to facilitate academic graph mining. Extensive experiments reveal that even advanced algorithms like large language models (LLMs) encounter difficulties in addressing key challenges in certain tasks, such as paper source tracing and scholar profiling. We also introduce the Open Academic Graph Challenge (OAG-Challenge) to encourage community input and sharing. We envisage that OAG-Bench can serve as a common ground for the community to evaluate and compare algorithms in academic graph mining, thereby accelerating algorithm development and advancement in this field. OAG-Bench is accessible at https://www.aminer.cn/data/.
翻訳日:2024-02-27 16:52:39 公開日:2024-02-24
# アクション学習による大規模言語モデルエージェントの活用

Empowering Large Language Model Agents through Action Learning ( http://arxiv.org/abs/2402.15809v1 )

ライセンス: Link先を確認
Haiteng Zhao, Chang Ma, Guoyin Wang, Jing Su, Lingpeng Kong, Jingjing Xu, Zhi-Hong Deng, Hongxia Yang(参考訳) 大規模言語モデル(llm)エージェントは最近、関心が高まっているが、知的行動の重要な要素である試行錯誤から学ぶ能力は限られている。 本研究は, LLMエージェントにおける学習の進歩に, 経験から新たな行動を学ぶ能力が不可欠である,と論じる。 人間は自然に行動空間を拡大し、経験的学習を通じてスキルを開発するが、llmエージェントは通常一定の行動空間内で動作し、成長の可能性を制限する。 これらの課題に対処するため、本研究は言語エージェントのオープンアクション学習を探求する。 我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介する。 各イテレーションでは、LLMはトレーニングタスクで特定されたエラーに基づいて、現在利用可能なアクションを修正および更新し、アクションの有効性を向上する。 ロボットプランニングとALFworld環境における実験的な評価から,オープンアクション学習のアプローチは,いくつかのトレーニングタスクインスタンスから学んだ後,よりインテリジェントなLCMエージェントの開発における経験的行動学習の重要性を強調した上で,タスクタイプのエージェントパフォーマンスを著しく向上させる(例えば,ReAct+Reflexionの32%)。

Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.
翻訳日:2024-02-27 16:52:13 公開日:2024-02-24
# 多要素攻撃に対する最適ゼロショット検出器

Optimal Zero-Shot Detector for Multi-Armed Attacks ( http://arxiv.org/abs/2402.15808v1 )

ライセンス: Link先を確認
Federica Granese, Marco Romanelli, Pablo Piantanida(参考訳) 本稿では、悪意あるアクターがマルチアーム攻撃戦略を用いてデータサンプルを操作し、データセットにノイズを導入する様々な方法を提案する。 私たちの中心的な目的は、入力の変更を検出することでデータを保護することです。 我々は、攻撃者に比べて情報が少ない環境で、この防御戦略に最大限の注意を払ってアプローチする。 具体的には、ディフェンダーは防衛モデルをトレーニングしたり、チャンネルの完全性を検証するためにデータサンプルを利用できない。 代わりに、ディフェンダーは既存の検出器のセットにのみ依存しており、簡単に ``off the shelf''' が利用可能である。 この課題に対処するために、これらの検出器による決定を最適に集約する革新的な情報理論の防衛アプローチを導き、いかなるトレーニングデータも不要にする。 我々はさらに,攻撃者が事前訓練された分類器を持ち,知名度の高い攻撃を仕掛ける,経験的評価のための実用的なユースケースシナリオについて検討する。 実験では,最適設定から逸脱したシナリオにおいても,提案手法の有効性を強調した。

This paper explores a scenario in which a malicious actor employs a multi-armed attack strategy to manipulate data samples, offering them various avenues to introduce noise into the dataset. Our central objective is to protect the data by detecting any alterations to the input. We approach this defensive strategy with utmost caution, operating in an environment where the defender possesses significantly less information compared to the attacker. Specifically, the defender is unable to utilize any data samples for training a defense model or verifying the integrity of the channel. Instead, the defender relies exclusively on a set of pre-existing detectors readily available ``off the shelf''. To tackle this challenge, we derive an innovative information-theoretic defense approach that optimally aggregates the decisions made by these detectors, eliminating the need for any training data. We further explore a practical use-case scenario for empirical evaluation, where the attacker possesses a pre-trained classifier and launches well-known adversarial attacks against it. Our experiments highlight the effectiveness of our proposed solution, even in scenarios that deviate from the optimal setup.
翻訳日:2024-02-27 16:51:49 公開日:2024-02-24
# 半教師付きテキスト認識における逐次的視覚的・意味的一貫性

Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition ( http://arxiv.org/abs/2402.15806v1 )

ライセンス: Link先を確認
Mingkun Yang, Biao Yang, Minghui Liao, Yingying Zhu, Xiang Bai(参考訳) Scene Text Recognition (STR) は、大規模な注釈付きデータを必要とする課題である。 しかし、実際のテキスト画像の収集とラベリングは高価で時間がかかり、実際のデータの可用性が制限される。 したがって、既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データを利用する。 この問題を緩和するために、最近の半教師付きSTR法は、同じ画像の弱い画像と強い拡張ビューの間の文字レベルの整合性正規化を強制することにより、ラベルのない実データを利用する。 しかし、これらの手法は単語レベルの一貫性を無視しており、シーケンス認識タスクには不可欠である。 本稿では,視覚面と意味面の両方から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。 具体的には、異なるビューのシーケンシャルな視覚的特徴を調整し、距離を最小化する最短経路アライメントモジュールを考案する。 さらに,埋め込み空間における予測文字列の意味的類似性を最適化するために,強化学習フレームワークを採用する。 提案手法が既存の半教師付きSTR法よりも優れていることを示す。

Scene text recognition (STR) is a challenging task that requires large-scale annotated data for training. However, collecting and labeling real text images is expensive and time-consuming, which limits the availability of real data. Therefore, most existing STR methods resort to synthetic data, which may introduce domain discrepancy and degrade the performance of STR models. To alleviate this problem, recent semi-supervised STR methods exploit unlabeled real data by enforcing character-level consistency regularization between weakly and strongly augmented views of the same image. However, these methods neglect word-level consistency, which is crucial for sequence recognition tasks. This paper proposes a novel semi-supervised learning method for STR that incorporates word-level consistency regularization from both visual and semantic aspects. Specifically, we devise a shortest path alignment module to align the sequential visual features of different views and minimize their distance. Moreover, we adopt a reinforcement learning framework to optimize the semantic similarity of the predicted strings in the embedding space. We conduct extensive experiments on several standard and challenging STR benchmarks and demonstrate the superiority of our proposed method over existing semi-supervised STR methods.
翻訳日:2024-02-27 16:51:32 公開日:2024-02-24
# 高絡み合い量子系の逆ハミルトン設計

Inverse Hamiltonian design of highly-entangled quantum systems ( http://arxiv.org/abs/2402.15802v1 )

ライセンス: Link先を確認
Koji Inui and Yukitoshi Motome(参考訳) ハミルトンを望ましい性質で同定するために逆問題を解くことは、基本原理の発見を約束する。 量子システムでは、量子絡み合いは量子の性質を特徴付けるだけでなく、量子コンピューティングのような量子技術の発展において重要な役割を果たす。 それでも、量子絡みの設計原理はまだ明らかになっていない。 ここでは、量子スピン系に自動微分を用いた逆設計フレームワークを適用し、大きな量子絡みを持つハミルトン系を構築することを目的とする。 本手法は, ハニカムと正八角形格子の双方において, 基底状態が量子スピン液体である結合依存異方性相互作用を持つキタエフモデルを自動的に発見することを示す。 幾何学的フラストレーションを持つ三角形およびメープルリーフ格子上では、特定のモデルに収束するよりもむしろ空間的に不均質な相互作用を持つ多数の解を生成するが、それでも前例のないモデルを構築するのに役立つ。 比較研究は、等方的ハイゼンベルク相互作用よりも、結合依存的な異方性相互作用が幾何学的フラストレーションを持つ系においても量子絡み合いを増幅することを明らかにする。 本研究は、希望する量子の性質と機能を持つ新しい量子システムの自動設計の道を開くものである。

Solving inverse problems to identify Hamiltonians with desired properties holds promise for the discovery of fundamental principles. In quantum systems, quantum entanglement plays a pivotal role in not only characterizing the quantum nature but also developing quantum technology like quantum computing. Nonetheless, the design principles of the quantum entanglement are yet to be clarified. Here we apply an inverse design framework using automatic differentiation to quantum spin systems, aiming to construct Hamiltonians with large quantum entanglement. We show that the method automatically finds the Kitaev model with bond-dependent anisotropic interactions, whose ground state is a quantum spin liquid, on both honeycomb and square-octagon lattices. On triangular and maple-leaf lattices with geometrical frustration, it generates numerous solutions with spatially inhomogeneous interactions rather than converging to a specific model, but it still helps to construct unprecedented models. The comparative study reveals that bond-dependent anisotropic interactions, rather than isotropic Heisenberg interactions, amplify quantum entanglement, even in systems with geometrical frustration. The present study paves the way for the automatic design of new quantum systems with desired quantum nature and functionality.
翻訳日:2024-02-27 16:51:12 公開日:2024-02-24
# 二次元c6-2x(bn)xビフェニレンネットワークの位相的および超伝導的性質:第一原理的研究

Topological and superconducting properties of two-dimensional C6-2x(BN)x biphenylene network: a first-principles investigation ( http://arxiv.org/abs/2402.15801v1 )

ライセンス: Link先を確認
Guang F. Yang, Hong X. Song, Dan Wang, Hao Wang, and Hua Y. Geng(参考訳) 第一原理計算は、2次元のc6-2x(bn)xビフェニレンネットワークの電子的および位相的性質、すなわち六角形環だけでなく八角形および四角形環からなるグラフェン状構造の研究に用いられている。 C4BN と C2(BN)2 の確率論を持つ非自明な位相的性質が2つある。 前者のc4bnは超伝導臨界温度tc=0.38kのタイプiiディラック半金属であり、純粋な炭素ビフェニレンネットワーク(c-bpn)と類似している。 後者は伝導帯と原子価帯の間に新しい孤立したエッジ状態が存在することを示している。 ひずみの制御と仮想結晶近似計算により、非高対称性領域(非HSR)における2対のディラック点(DP)の消滅により、2つのエッジ状態が結合してこの孤立したエッジ状態を生成する。 さらに,C-BPN中のDPの移動により1対のDPが出現し,また,ホウ素と窒素のドーピングにより,時間反転不変モメンタ(TRIM)点X付近に新たなDPが出現することがわかった。 我々は,C-BPNからC2(BN)2への分離エッジ状態形成機構を明らかにするために,TBモデルを構築した。 本研究は, 半金属中で孤立エッジ状態を形成する機構と存在を実証するだけでなく, 高対称性領域からDPが移動できる例を示す。

First-principles calculations have been used to investigate the electronic and topological properties of the two-dimensional C6-2x(BN)x biphenylene network, a graphene-like structure composed of not only hexagonal ring but also octagonal and square rings. Nontrivial topological properties have been found in two of them, with a stoichiometry of C4BN and C2(BN)2. The former C4BN is predicted to be a type-II Dirac semimetal with a superconducting critical temperature Tc=0.38K, which is similar to the pure carbon biphenylene network (C-BPN). The latter shows a novel isolated edge state exists between the conduction and valence bands. By regulation of strains and virtual-crystal approximation calculations, we found the annihilation of two pairs of Dirac points (DPs) in the non-high symmetric region (non-HSR) causes the two corresponding edge states stick together to generate this isolated edge state. In addition, we found that one pair of DPs arises from the shift of DPs in the C-BPN, while another new pair of DPs emerges around the Time Reversal Invariant Momenta (TRIM) point X due to the doping of boron and nitrogen. We constructed a tight-binding (TB) model to reveal the mechanism of forming the isolated edge state from the C-BPN to C2(BN)2. This study not only demonstrates the existence and mechanism of forming the isolated edge state in semimetals, but also provides an example in which the DPs can move away from the high-symmetry region.
翻訳日:2024-02-27 16:50:50 公開日:2024-02-24
# 電解質におけるユニバーサル金属表面状態

Universal Metallic Surface States in Electride ( http://arxiv.org/abs/2402.15798v1 )

ライセンス: Link先を確認
Dan Wang, Hongxing Song, Leilei Zhang, Hao Wang, Yi Sun, Fengchao Wu, Ying Chen, Xiangrong Chen, and Hua Y. Geng(参考訳) トポロジカル絶縁体(TI)の不完全性と摂動に対するロバスト金属表面状態(MSS)は、化学触媒や量子コンピューティングなどの幅広い応用において重要である。 残念ながら、彼らはアクセス可能な狭いバンドギャップに悩まされている。 従来のTIを超える大きなバルクバンドギャップを持つMSSの探索が課題となっている。 この研究は、実空間における断熱接続原理に着想を得たものであり、新しい種類の材料であるすべてのエレクトロライドは、標準トポロジー理論において自明に分類できるという事実にもかかわらず、いかなる障害にも抵抗する堅牢で普遍的なMSSをホストしなければならない。 この逆直観的性質は、電荷密度分布の実空間トポロジーにおける原子中心から原子中心への遷移の一種であり、標準トポロジー理論のバンド反転と鋭く異なる結晶表面や界面に近づくとき、選択性に固有の特定の電荷局在-非局在化変化にさかのぼる。 新しいメカニズムは、TIのバンドギャップを制限する障害を回避する。 従来は自明だが6.13eVを超える粗いバンドギャップを持つ導電体中のロバストおよび普遍MSSが示される。 このギャップサイズは、既知の"ワイドギャップ"TIの最高記録より約6倍大きく、巨大なバルクギャップを持つユニバーサルMSSへの新たな道を開く。

Robust metallic surface states (MSS) of topological insulator (TI) against imperfections and perturbations are important in broad applications such as chemical catalysis and quantum computing. Unfortunately, they are suffered from the narrow band gap that can be accessed. Searching for MSS with large bulk band gap beyond conventional TIs becomes a quest. In this work, inspired by the adiabatic connection principle in real space, we identify that all electrides, a new class of emerging materials, must host robust and universal MSS that resists any disturbances, in spite of the fact that some of them could be classified as trivial in standard topology theory. This counterintuitive property is traced to the specific charge localization-delocalization change intrinsic to electride when approaching the crystalline surface or interface, which is a kind of interstice-centered to atom-centered transition in the real-space topology of the charge density distribution, and is sharply different from the band inversion in the standard topology theory. The new mechanism circumvents the obstacle that limits the band gap of TI. Robust and universal MSS in an electride that conventionally-determined as trivial but with a colossal band gap beyond 6.13 eV are demonstrated. This gap size is about 6-fold larger than the highest record of known "wide-gap" TIs, thus opens up new avenues to universal MSS with gigantic bulk gap.
翻訳日:2024-02-27 16:50:19 公開日:2024-02-24
# マルチトラックGPSデータに基づく人工知能クラウドソーシングマップの構築と応用

Construction and application of artificial intelligence crowdsourcing map based on multi-track GPS data ( http://arxiv.org/abs/2402.15796v1 )

ライセンス: Link先を確認
Yong Wang, Yanlin Zhou, Huan Ji, Zheng He, Xinyu Shen(参考訳) 近年,人工知能と組み合わされた高精度地図技術の急速な発展が,インテリジェントな車両分野における新たな発展の機会を生み出している。 高精度マップ技術は、インテリジェントな車両が自動運転を実現するための重要な保証である。 しかし、高精度地図技術の研究が不足しているため、知的車両の分野でこの技術を合理的に活用することは困難である。 そこで, 関連研究者は, 多数の低精度GPS軌道データ融合から高精度GPSデータを生成するための高速かつ効率的なアルゴリズムを研究し, GPS軌道の記述を簡略化するキーデータポイントを複数生成し, 地図データ収集のための多数のソーシャルカーを基にした"crowdsourced update"モデルを実現した。 この種のアルゴリズムは、データ精度の向上、測定コストの削減、データストレージスペースの削減に重要な意味を持っている。 そこで本研究では,クラウドソーシングマップの実装形態を解析し,実際の状況に応じて高精度マップの各種情報データを改善するとともに,高精度マップの普及を合理的に適用できることを示す。

In recent years, the rapid development of high-precision map technology combined with artificial intelligence has ushered in a new development opportunity in the field of intelligent vehicles. High-precision map technology is an important guarantee for intelligent vehicles to achieve autonomous driving. However, due to the lack of research on high-precision map technology, it is difficult to rationally use this technology in the field of intelligent vehicles. Therefore, relevant researchers studied a fast and effective algorithm to generate high-precision GPS data from a large number of low-precision GPS trajectory data fusion, and generated several key data points to simplify the description of GPS trajectory, and realized the "crowdsourced update" model based on a large number of social vehicles for map data collection came into being. This kind of algorithm has the important significance to improve the data accuracy, reduce the measurement cost and reduce the data storage space. On this basis, this paper analyzes the implementation form of crowdsourcing map, so as to improve the various information data in the high-precision map according to the actual situation, and promote the high-precision map can be reasonably applied to the intelligent car.
翻訳日:2024-02-27 16:49:55 公開日:2024-02-24
# フィールドベース分子生成

Field-based Molecule Generation ( http://arxiv.org/abs/2402.15864v1 )

ライセンス: Link先を確認
Alexandru Dumitrescu, Dani Korpela, Markus Heinonen, Yogesh Verma, Valerii Iakovlev, Vikas Garg, Harri L\"ahdesm\"aki(参考訳) 本研究は、薬物様分子生成のためのフィールドベースモデルであるFMGを導入する。 本稿では,本手法の柔軟性が一般的なポイントクラウド法に対して重要な優位性をもたらし,分子安定性の競争力を実現する方法を示す。 我々は、薬物の安全性と有効性に欠落した分子特性である光学異性体(エナンチオマー)に取り組み、全ての分子幾何学的側面を考慮に入れている。 従来の手法が、エナンチオマー対を含む変換群に不変であり、分子RとSの構成に不変であることを示す一方、フィールドベース生成モデルは、この性質を捉えている。

This work introduces FMG, a field-based model for drug-like molecule generation. We show how the flexibility of this method provides crucial advantages over the prevalent, point-cloud based methods, and achieves competitive molecular stability generation. We tackle optical isomerism (enantiomers), a previously omitted molecular property that is crucial for drug safety and effectiveness, and thus account for all molecular geometry aspects. We demonstrate how previous methods are invariant to a group of transformations that includes enantiomer pairs, leading them invariant to the molecular R and S configurations, while our field-based generative model captures this property.
翻訳日:2024-02-27 16:45:06 公開日:2024-02-24
# SportQA: 大規模言語モデルにおけるスポーツ理解のベンチマーク

SportQA: A Benchmark for Sports Understanding in Large Language Models ( http://arxiv.org/abs/2402.15862v1 )

ライセンス: Link先を確認
Haotian Xia, Zhengbang Yang, Yuqing Wang, Rhys Tracy, Yun Zhao, Dongdong Huang, Zezhi Chen, Yan Zhu, Yuan-fang Wang, Weining Shen(参考訳) 戦略的・動的コンテンツに富んだ分野であるスポーツの深い理解は、自然言語処理(NLP)の推進に不可欠である。 これは、特別なベンチマークにおける既存のギャップを考えると、LLM(Large Language Models)の評価と発展という文脈において特に重要である。 このギャップを埋めるために、スポーツ理解の文脈でLLMを評価するために特別に設計された新しいベンチマークであるSportQAを紹介する。 SportQAには3つの難易度で70,000以上の複数の質問が含まれており、それぞれが基本的な歴史的事実から複雑なシナリオベースの推論タスクまで、スポーツ知識のさまざまな側面をターゲットにしている。 主に,チェーン・オブ・シークレット(CoT)のプロンプトで補足された少数ショット学習パラダイムを利用して,広く普及しているLLMの徹底的な評価を行った。 以上の結果から,LSMは基本的なスポーツ知識において有能なパフォーマンスを示す一方で,より複雑でシナリオベースのスポーツ推論に苦しむことが明らかとなった。 SportQAの導入は、LPMにおけるスポーツ理解を評価し、強化するためのツールを提供する、NLPにおける重要な一歩である。

A deep understanding of sports, a field rich in strategic and dynamic content, is crucial for advancing Natural Language Processing (NLP). This holds particular significance in the context of evaluating and advancing Large Language Models (LLMs), given the existing gap in specialized benchmarks. To bridge this gap, we introduce SportQA, a novel benchmark specifically designed for evaluating LLMs in the context of sports understanding. SportQA encompasses over 70,000 multiple-choice questions across three distinct difficulty levels, each targeting different aspects of sports knowledge from basic historical facts to intricate, scenario-based reasoning tasks. We conducted a thorough evaluation of prevalent LLMs, mainly utilizing few-shot learning paradigms supplemented by chain-of-thought (CoT) prompting. Our results reveal that while LLMs exhibit competent performance in basic sports knowledge, they struggle with more complex, scenario-based sports reasoning, lagging behind human expertise. The introduction of SportQA marks a significant step forward in NLP, offering a tool for assessing and enhancing sports understanding in LLMs.
翻訳日:2024-02-27 16:44:46 公開日:2024-02-24
# MATHWELL: 教育用数学語を大規模に生成する

MATHWELL: Generating Educational Math Word Problems at Scale ( http://arxiv.org/abs/2402.15861v1 )

ライセンス: Link先を確認
Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen(参考訳) 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、ドメインの専門知識を必要とする。 我々は,K-8の数学教育を支援する言語モデルを提案する。 教育的であり 生み出す問題は 1)解決可能。 2)正確で,かつ 3) 適当。 既存のデータセットはこれらの基準にラベルを付けておらず、問題発生器のトレーニングに適していない。 我々は,専門家アノテーションから得られたデータを用いて,K-8数学語問題を生成するために繰り返し微調整されたLlama-2 (70B)モデルMATHWELLを紹介する。 我々はMATHWELLを用いて,20,490個の問題を含む,これまでで最大の英語単語問題データセットを生成する。 3.484 は、MATHWELL が実行可能解を持ち、代替案よりも全ての基準を満たす問題の割合が40%高く、実行可能解の74%が解決可能で正確で適切である、というドメインの専門家によって評価されている。

Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems at scale. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. We introduce MATHWELL, a Llama-2 (70B) model iteratively finetuned to generate K-8 math word problems using data from expert annotation. Using MATHWELL, we generate the largest English word problem dataset to date, containing 20,490 problems. 3,484 are scored by domain experts who find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than alternatives, with 74% of its problems with executable solutions being solvable, accurate, and appropriate.
翻訳日:2024-02-27 16:44:12 公開日:2024-02-24
# FedMM:計算病理学における多モード学習

FedMM: Federated Multi-Modal Learning with Modality Heterogeneity in Computational Pathology ( http://arxiv.org/abs/2402.15858v1 )

ライセンス: Link先を確認
Yuanzhe Peng, Jieming Bian, Jie Xu(参考訳) 相補的マルチモーダル情報の融合は、正確な診断のための計算病理学において重要である。 しかし、既存のマルチモーダル学習アプローチは、ユーザの生データへのアクセスを必要とし、かなりのプライバシーリスクを引き起こす。 Federated Learning(FL)はプライバシー保護の代替手段として機能するが、多種多様(おそらく重複している)モダリティデータによって引き起こされる課題に対処するには不足している。 このギャップを埋めるために,統合マルチモーダル融合モデルの学習を目的とした既存のflではなく,複数のシングルモーダル特徴抽出器をフェデレートで訓練し,その後の分類性能を向上させるフェデレートマルチモーダル学習フレームワークを提案する。 参加病院は、小規模なデータセットや限られたデバイスであっても、これらの訓練された抽出器を利用して、データのプライバシーを確保しながら、ローカルな下流タスク(分類など)を実行することができる。 2つの公開データセットの総合的な評価を通じて、FedMMは精度とAUCメトリクスの2つのベースラインよりも優れていることを示す。

The fusion of complementary multimodal information is crucial in computational pathology for accurate diagnostics. However, existing multimodal learning approaches necessitate access to users' raw data, posing substantial privacy risks. While Federated Learning (FL) serves as a privacy-preserving alternative, it falls short in addressing the challenges posed by heterogeneous (yet possibly overlapped) modalities data across various hospitals. To bridge this gap, we propose a Federated Multi-Modal (FedMM) learning framework that federatedly trains multiple single-modal feature extractors to enhance subsequent classification performance instead of existing FL that aims to train a unified multimodal fusion model. Any participating hospital, even with small-scale datasets or limited devices, can leverage these federated trained extractors to perform local downstream tasks (e.g., classification) while ensuring data privacy. Through comprehensive evaluations of two publicly available datasets, we demonstrate that FedMM notably outperforms two baselines in accuracy and AUC metrics.
翻訳日:2024-02-27 16:43:45 公開日:2024-02-24
# 量子弱結合フリップのためのプロトコル

Protocols for Quantum Weak Coin Flipping ( http://arxiv.org/abs/2402.15855v1 )

ライセンス: Link先を確認
Atul Singh Arora and J\'er\'emie Roland and Chrysoula Vlachou and Stephan Weis(参考訳) 弱いコインのフリップは重要な暗号プリミティブであり、古典的に特定の前提(例えば計算のハードネス)の下でのみセキュアになる、最も強力なセキュアな2パーティ計算プリミティブである一方、量子的に完全セキュリティに近いプロトコルが存在する。 このブレークスルーは2007年にMochonによって確立された[arXiv:0711.4114]。 しかし、彼の証明は非構成的議論によって確立されたある種のユニタリ作用素の存在に依存していた。 その結果、明確なプロトコルは解明され続けている。 本稿では,関連するユニタリ作用素の正確な構成について述べる。 これらは新しい形式主義とともに、完全な安全に近づいたプロトコルの族を産み出し、モチョンの存在の証明も単純化する。 従来知られていたすべてのプロトコルよりもセキュアな具体例(前述のプロトコルファミリからの)を考慮して,明示的な弱いコインフリッププロトコルの構築を示す。

Weak coin flipping is an important cryptographic primitive -- it is the strongest known secure two-party computation primitive that classically becomes secure only under certain assumptions (e.g. computational hardness), while quantumly there exist protocols that achieve arbitrarily close to perfect security. This breakthrough result was established by Mochon in 2007 [arXiv:0711.4114]. However, his proof relied on the existence of certain unitary operators which was established by a non-constructive argument. Consequently, explicit protocols have remained elusive. In this work, we give exact constructions of related unitary operators. These, together with a new formalism, yield a family of protocols approaching perfect security thereby also simplifying Mochon's proof of existence. We illustrate the construction of explicit weak coin flipping protocols by considering concrete examples (from the aforementioned family of protocols) that are more secure than all previously known protocols.
翻訳日:2024-02-27 16:43:06 公開日:2024-02-24
# RAUCA:ロバストと正確なカモフラージュ生成による車両検知器に対する新しい物理的対抗攻撃

RAUCA: A Novel Physical Adversarial Attack on Vehicle Detectors via Robust and Accurate Camouflage Generation ( http://arxiv.org/abs/2402.15853v1 )

ライセンス: Link先を確認
Jiawei Zhou, Linye Lyu, Daojing He and Yu Li(参考訳) 対向カモフラージュは、多視点攻撃性能に優れた車両検出器に対する攻撃として広く用いられている。 1つの有望なアプローチは、微分可能なニューラルレンダラーを使用して、勾配のバックプロパゲーションによる対向的なカモフラージュ最適化を促進することである。 しかし、既存の手法はレンダリングプロセス中に環境特性を捉えるのに苦労したり、ターゲットの車両に正確にマッピングできる逆テクスチャを生成するのに苦労し、結果として最適な攻撃性能を損なう。 さらに、これらの手法は多様な気象条件を無視し、様々な気象シナリオで発生するカモフラージュの有効性を低下させる。 これらの課題に対処するため、我々は堅牢で正確なカモフラージュ生成法、すなわちRAUCAを提案する。 RAUCAのコアはニューラルレンダリングコンポーネントであるNeural Renderer Plus(NRP)で、車両のテクスチャを正確に投影し、照明や天気などの環境特性を持つ画像を描画することができる。 さらに,マルチウェザーデータセットをカモフラージュ生成に統合し,NRPを活用して攻撃堅牢性を高める。 6つの一般的な物体検出器の実験結果から、RAUCAはシミュレーションと実世界の両方の設定において、既存の手法を一貫して上回っていることが示されている。

Adversarial camouflage is a widely used physical attack against vehicle detectors for its superiority in multi-view attack performance. One promising approach involves using differentiable neural renderers to facilitate adversarial camouflage optimization through gradient back-propagation. However, existing methods often struggle to capture environmental characteristics during the rendering process or produce adversarial textures that can precisely map to the target vehicle, resulting in suboptimal attack performance. Moreover, these approaches neglect diverse weather conditions, reducing the efficacy of generated camouflage across varying weather scenarios. To tackle these challenges, we propose a robust and accurate camouflage generation method, namely RAUCA. The core of RAUCA is a novel neural rendering component, Neural Renderer Plus (NRP), which can accurately project vehicle textures and render images with environmental characteristics such as lighting and weather. In addition, we integrate a multi-weather dataset for camouflage generation, leveraging the NRP to enhance the attack robustness. Experimental results on six popular object detectors show that RAUCA consistently outperforms existing methods in both simulation and real-world settings.
翻訳日:2024-02-27 16:42:46 公開日:2024-02-24
# NaVid:ビデオベースのVLMが視覚・言語ナビゲーションの次のステップを計画

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation ( http://arxiv.org/abs/2402.15852v1 )

ライセンス: Link先を確認
Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, Wang He(参考訳) VLN(Vision-and-Language Navigation)は、エージェントが言語命令に従って見えない環境でナビゲートできるようにすることを目的とした、Embodied AIの重要な研究課題である。 この分野での一般化は、流通外のシーンやSimからRealまで、長年にわたる課題である。 本稿では,そのような一般化ギャップを緩和するために,ビデオベースの大規模視覚言語モデル (vlm) であるnavidを提案する。 NaVidは、地図、オドメーター、深さ入力を使わずに最先端のナビゲーション性能を実現するVLMの能力を示す最初の試みである。 人間の指示に従って、NaVidはロボットに搭載された単眼のRGBカメラから、次のステップのアクションを出力するオンザフライビデオストリームのみを必要とする。 我々の定式化は、オドメーターノイズによる問題と、地図や深度入力からのSim2Realギャップを人間がどのようにナビゲートし、自然に取り除くかを模倣する。 さらに,ビデオに基づくアプローチでは,ロボットの歴史的観察を,意思決定と指導の時空間的文脈として効果的にエンコードすることができる。 VLN-CEトラジェクトリから収集した550kのナビゲーションサンプルと665kの大規模Webデータを用いてNaVidをトレーニングする。 大規模な実験により、NaVidはシミュレーション環境と実世界のSOTA性能を達成し、優れたクロスデータセットとSim2Real転送を実現している。 そこで我々は,本提案手法がナビゲーションエージェントだけでなく,本研究分野の次のステップを計画していると信じている。

Vision-and-Language Navigation (VLN) stands as a key research problem of Embodied AI, aiming at enabling agents to navigate in unseen environments following linguistic instructions. In this field, generalization is a long-standing challenge, either to out-of-distribution scenes or from Sim to Real. In this paper, we propose NaVid, a video-based large vision language model (VLM), to mitigate such a generalization gap. NaVid makes the first endeavour to showcase the capability of VLMs to achieve state-of-the-art level navigation performance without any maps, odometer and depth inputs. Following human instruction, NaVid only requires an on-the-fly video stream from a monocular RGB camera equipped on the robot to output the next-step action. Our formulation mimics how humans navigate and naturally gets rid of the problems introduced by odometer noises, and the Sim2Real gaps from map or depth inputs. Moreover, our video-based approach can effectively encode the historical observations of robots as spatio-temporal contexts for decision-making and instruction following. We train NaVid with 550k navigation samples collected from VLN-CE trajectories, including action-planning and instruction-reasoning samples, along with 665k large-scale web data. Extensive experiments show that NaVid achieves SOTA performance in simulation environments and the real world, demonstrating superior cross-dataset and Sim2Real transfer. We thus believe our proposed VLM approach plans the next step for not only the navigation agents but also this research field.
翻訳日:2024-02-27 16:42:20 公開日:2024-02-24
# 量子コンピュータにおける最初のハッティングタイム:トポロジカル効果と暗黒状態

First Hitting Times on a Quantum Computer: Topological Effects and Dark States ( http://arxiv.org/abs/2402.15843v1 )

ライセンス: Link先を確認
Qingyuan Wang, Silin Ren, Ruoyu Yin, Klaus Ziegler, Eli Barkai, and Sabine Tornow(参考訳) 複雑なエッジ重みを持つ有向三角形グラフで表される環上の量子ウォークを解析し、量子ウォーカーが検出されるまで一定速度で監視する。 この目的のために、最初のヒットタイム統計を、ストロボスコープで干渉するユニタリダイナミクスを用いて記録し、ミッドサーキット読み出しオプションでibm量子コンピュータに実装する。 古典的な打撃時間とは異なり、問題の統計的側面は、測定された経路を構築する方法に依存する。 まず,対象状態への平均戻り時間が定量化されるという理論的予測を実験的に検証し,特定のサンプリング時間や他の制御パラメータに突然の不連続性を見出した。 第二に、初期状態、系パラメータ、測定プロトコルによって、検出確率は1つか0つ以下であり、ダーク状態物理学に関連している。 帰還時間量子化と暗黒状態の出現は、ユニタリ時間進化作用素の固有値における退化と関連している。 研究中のIBM量子コンピュータでは、監視された量子ウォークの最初のヒット時間はノイズに耐性があることを結論付けている。 しかし、有限分解効果は新たなトポロジカル、キラリティ、拡張効果をもたらし、これは無症状理論において無限の測定値で消える。 本研究は, 量子コンピュータに計測誘起効果を応用した新しい量子ウォークアルゴリズムの開発方法を示す。

We investigate a quantum walk on a ring represented by a directed triangle graph with complex edge weights and monitored at a constant rate until the quantum walker is detected. To this end, the first hitting time statistics is recorded using unitary dynamics interspersed stroboscopically by measurements, which is implemented on IBM quantum computers with a midcircuit readout option. Unlike classical hitting times, the statistical aspect of the problem depends on the way we construct the measured path, an effect that we quantify experimentally. First, we experimentally verify the theoretical prediction that the mean return time to a target state is quantized, with abrupt discontinuities found for specific sampling times and other control parameters, which has a well-known topological interpretation. Second, depending on the initial state, system parameters, and measurement protocol, the detection probability can be less than one or even zero, which is related to dark-state physics. Both, return-time quantization and the appearance of the dark states are related to degeneracies in the eigenvalues of the unitary time evolution operator. We conclude that, for the IBM quantum computer under study, the first hitting times of monitored quantum walks are resilient to noise. Yet, finite resolution effects lead to new topological, chirality, and broadening effects, which disappear in the asymptotic theory with an infinite number of measurements. Our results point the way for the development of novel quantum walk algorithms that exploit measurement-induced effects on quantum computers.
翻訳日:2024-02-27 16:41:54 公開日:2024-02-24
# 2d$ CFTs with SL$(2,\mathbb{R})$ deformed Hamiltonian におけるクリロフ複素性

Krylov Complexity in $2d$ CFTs with SL$(2,\mathbb{R})$ deformed Hamiltonians ( http://arxiv.org/abs/2402.15835v1 )

ライセンス: Link先を確認
Vinay Malvimat, Somnath Porey and Baishali Roy(参考訳) 本研究では,変形したsl$(2,\mathbb{r})$ハミルトニアンの2次元等角場理論におけるクリロフ複雑性を分析する。 真空状態では、k-複素性は普遍的な位相構造を示す。 相構造は、非加熱相における振動挙動を示すK-複雑度を含むが、これは加熱相で観察される指数的成長と対照的であり、相境界で多項式成長を示す。 さらに、我々は、大容量CFTと自由場理論の両方を考慮して、励起状態における光作用素のK-複素性を計算するよう解析を拡張した。 自由場理論では、K-複素体の状態独立位相構造が見つかる。 しかし、大きなCFTでは、K-複雑度が再び加熱相の指数的な成長と相境界での多項式成長を示すため、挙動が変化する。 特に、この成長を管理する正確な指数は、試験中の州の重みに依存する。 非加熱相では、非加熱相の特別な場合を表す[1]の発見と同様、振動から指数的成長へのK-複素性挙動の遷移が観察される。

In this study, we analyze Krylov Complexity in two-dimensional conformal field theories subjected to deformed SL$(2,\mathbb{R})$ Hamiltonians. In the vacuum state, we find that the K-complexity exhibits a universal phase structure. The phase structure involves the K-complexity exhibiting an oscillatory behaviour in the non-heating phase, which contrasts with the exponential growth observed in the heating phase, while it displays polynomial growth at the phase boundary. Furthermore, we extend our analysis to compute the K-complexity of a light operator in excited states, considering both large-c CFT and free field theory. In the free field theory, we find a state-independent phase structure of K-complexity. However, in the large-c CFT, the behavior varies, with the K-Complexity once again displaying exponential growth in the heating phase and polynomial growth at the phase boundary. Notably, the precise exponent governing this growth depends on the heaviness of the state under examination. In the non-heating phase, we observe a transition in K-complexity behavior from oscillatory to exponential growth, akin to findings in [1], as it represents a special case within the non-heating phase.
翻訳日:2024-02-27 16:41:30 公開日:2024-02-24
# ロバスト言語モデルのプロンプト摂動一貫性学習

Prompt Perturbation Consistency Learning for Robust Language Models ( http://arxiv.org/abs/2402.15833v1 )

ライセンス: Link先を確認
Yao Qiang, Subhrangshu Nandi, Ninareh Mehrabi, Greg Ver Steeg, Anoop Kumar, Anna Rumshisky, Aram Galstyan(参考訳) 大規模言語モデル(llm)は、質問応答やテキスト要約など、多くの自然言語処理タスクで印象的なパフォーマンスを示している。 しかし、パーソナルアシスタントシステムの中心的なコンポーネントであるインテント分類やスロットフィリング(IC-SF)などのシーケンスラベリングタスクの性能は差別モデルに大きく遅れている。 さらに、入力プロンプトにおける様々な摂動に対するLDMの堅牢性に関する実質的な研究が欠如している。 この論文の貢献は3つある。 まず,識別モデルに匹敵するIC-SF性能が得られることを示す。 次に,これらの微調整モデルの性能劣化をオラニム,シノニム,パラフレージングという3つの異なる種類の入力摂動によって体系的に解析する。 最後に,クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。 実験の結果,PPCLはICタスクとSFタスクのパフォーマンス低下の59%と69%で回復可能であることがわかった。 さらに、PPCLは10倍少ない拡張データサンプルを使用しながら、データ拡張アプローチを破る。

Large language models (LLMs) have demonstrated impressive performance on a number of natural language processing tasks, such as question answering and text summarization. However, their performance on sequence labeling tasks such as intent classification and slot filling (IC-SF), which is a central component in personal assistant systems, lags significantly behind discriminative models. Furthermore, there is a lack of substantive research on the robustness of LLMs to various perturbations in the input prompts. The contributions of this paper are three-fold. First, we show that fine-tuning sufficiently large LLMs can produce IC-SF performance comparable to discriminative models. Next, we systematically analyze the performance deterioration of those fine-tuned models due to three distinct yet relevant types of input perturbations - oronyms, synonyms, and paraphrasing. Finally, we propose an efficient mitigation approach, Prompt Perturbation Consistency Learning (PPCL), which works by regularizing the divergence between losses from clean and perturbed samples. Our experiments demonstrate that PPCL can recover on average 59% and 69% of the performance drop for IC and SF tasks, respectively. Furthermore, PPCL beats the data augmentation approach while using ten times fewer augmented data samples.
翻訳日:2024-02-27 16:41:11 公開日:2024-02-24
# ヘマトキシリンとエオシン全スライド画像を用いたグリオーマ診断のための多症例学習:インドコホート研究

Multiple Instance Learning for Glioma Diagnosis using Hematoxylin and Eosin Whole Slide Images: An Indian cohort Study ( http://arxiv.org/abs/2402.15832v1 )

ライセンス: Link先を確認
Ekansh Chauhan, Amit Sharma, Megha S Uppin, C.V. Jawahar and Vinod P.K(参考訳) 脳腫瘍は重篤で致命的な疾患であり、正確な診断と治療戦略を必要とする。 本研究は,脳腫瘍の病理組織学における様々な特徴抽出器および凝集剤を用いた厳密な多施設学習実験から得られた知見を患者ケアに応用した。 インドの人口統計(IPD-Brain)に焦点を当てた新しいデータセットを含む、複数のデータセットにわたるグリオーマサブタイプ分類における新しいパフォーマンスベンチマークを確立し、既存の研究に有用なリソースを提供する。 DTFD機能アグリゲータと組み合わせたResNet-50を用いて,PTD-Brainデータセットで88.08,TCGA-Brainデータセットで95.81のAUCを3方向グリオーマサブタイプ分類でそれぞれ達成した。 さらに、IHC分子バイオマーカー(IDH1 (mutant R132H), TP53, ATRX, Ki-67)をH&Eで解析し、IDD-Brainデータセットの全スライド画像を染色する。 この研究は、モデル決定プロセスと病理学者の診断的推論との間に有意な相関性を強調し、専門的な診断手順を模倣する能力を強調している。

Brain tumors represent a severe and life-threatening condition, demanding precise diagnosis and tailored treatment strategies. This study advances patient care with findings from rigorous multiple-instance-learning experimentations across various feature extractors and aggregators in brain tumor histopathology. It establishes new performance benchmarks in glioma subtype classification across multiple datasets, including a novel dataset focused on the Indian demographic (IPD-Brain), providing a valuable resource for existing research. Using a ResNet-50, pretrained on histopathology datasets, for feature extraction, combined with DTFD feature aggregator, our approach achieves state-of-the-art AUCs of 88.08 on IPD-Brain and 95.81 on TCGA-Brain dataset respectively for three-way glioma subtype classification. Moreover, it establishes new benchmarks in grading and detecting IHC molecular biomarkers (IDH1 (mutant R132H), TP53, ATRX, Ki-67) through H&E stained whole slide images for the IPD-Brain dataset. The work also highlights a significant correlation between the model decision-making processes and the diagnostic reasoning of pathologists, underscoring its capability to mimic professional diagnostic procedures.
翻訳日:2024-02-27 16:40:48 公開日:2024-02-24
# 非決定性量子プログラムにおける終端問題のアルゴリズム解析

Algorithmic Analysis of Termination Problems for Nondeterministic Quantum Programs ( http://arxiv.org/abs/2402.15827v1 )

ライセンス: Link先を確認
Jianling Fu, Hui Jiang, Ming Xu, Yuxin Deng and Zhi-Bin Li(参考訳) 非決定性を持つ量子プログラムの終了問題の2つのカテゴリを考える。 1) プログラムの入力は、すべてのスケジューラの下で確率1で終了するか? もしそうでなければ、スケジューラをどうやって非終端を証明できるだろうか? 2)全ての入力はそれぞれのスケジューラの下の確率で終了するのか? もしそうなら、全ての入力を確率で終了させるスケジューラと、それをどのように合成するかという質問がある。 第1の圏を効果的に検証するために、代数構造が線型空間である到達可能な部分空間によって到達可能な量子プログラム状態の集合を近似する。 一方,プログラムがあるスケジューラの下で確率ゼロで終了する発散状態の集合について検討する。 発散集合は明示的な代数構造を持つ。 それらを利用して、決定問題を必要十分条件、すなわち到達可能な部分空間と発散集合の不一致によって解決する。 さらに、スケジューラ合成は指数時間で完了する。 第2のカテゴリでは、決定問題を不変部分空間の存在に還元し、プログラムは全てのスケジューラの下で確率ゼロで終了する。 不変部分空間は線型方程式によって特徴づけられる。 その不変部分空間上の状態は、非退化の証拠である。 さらに、全ての入力を正の確率で終了させる有限スケジューラのパターンを求めることにより、スケジューラ合成が完了する。 そのパターンの繰り返しは、全ての入力が確率1で終了するように強制する望ましい普遍スケジューラをもたらす。 2番目のカテゴリのすべての問題は多項式時間で解決される。

We consider the two categories of termination problems of quantum programs with nondeterminism: 1) Is an input of a program terminating with probability one under all schedulers? If not, how can a scheduler be synthesized to evidence the nontermination? 2) Are all inputs terminating with probability one under their respective schedulers? If yes, a further question asks whether there is a scheduler that forces all inputs to be terminating with probability one together with how to synthesize it; otherwise, how can an input be provided to refute the universal termination? For the effective verification of the first category, we over-approximate the reachable set of quantum program states by the reachable subspace, whose algebraic structure is a linear space. On the other hand, we study the set of divergent states from which the program terminates with probability zero under some scheduler. The divergent set has an explicit algebraic structure. Exploiting them, we address the decision problem by a necessary and sufficient condition, i.e. the disjointness of the reachable subspace and the divergent set. Furthermore, the scheduler synthesis is completed in exponential time. For the second category, we reduce the decision problem to the existence of invariant subspace, from which the program terminates with probability zero under all schedulers. The invariant subspace is characterized by linear equations. The states on that invariant subspace are evidence of the nontermination. Furthermore, the scheduler synthesis is completed by seeking a pattern of finite schedulers that forces all inputs to be terminating with positive probability. The repetition of that pattern yields the desired universal scheduler that forces all inputs to be terminating with probability one. All the problems in the second category are shown to be solved in polynomial time.
翻訳日:2024-02-27 16:40:22 公開日:2024-02-24
# 最適順序決定処理のためのリワード設計

Reward Design for Justifiable Sequential Decision-Making ( http://arxiv.org/abs/2402.15826v1 )

ライセンス: Link先を確認
Aleksa Sukovic, Goran Radanovic(参考訳) 支援的な証拠を使って意思決定を正当化する能力を備えたエージェントは、説明責任のある意思決定の基盤となる。 さらに、特に医療などの高い状況において、正当化が人間の期待や社会的規範に沿うことを保証することが不可欠である。 本研究では,ゼロサム討論ゲームの結果が特定の状態における決定の正当性を定量化する,強化学習エージェントに対する議論に基づく報酬モデルを提案する。 この報酬モデルは正当性のある政策を訓練するために使用され、その決定はより容易に証拠と相関できる。 議論ゲームでは、2人の議論的エージェントが交互に、2つの競合する決定を裏付ける証拠を提供する。 提案された証拠から、人間の裁判官の代理人は、どの判断がより正当化されるかを評価する。 敗血症患者の治療決定を規定・正当化するための学習方針におけるアプローチの可能性を示す。 議論に基づく報酬モデルによって生成されたフィードバック信号による報酬の増強は、環境報酬のみから得られる政策に比べ、裁判官が好む政策を多く与える一方で、パフォーマンスを犠牲にしないことを示す。 さらに、訓練されたポリシーの全体的なパフォーマンスと公正性の観点から、議論に基づくフィードバックは、州で符号化された全情報を用いて決定を評価する理想的な判断プロキシから得られるフィードバックに匹敵する。 このことから,議論ゲームは意思決定に最も関係のある状態に含まれる重要な情報を出力し,その結果,我々のアプローチとループ内評価を併用する実践性を実証した。 最後に、マルチエージェントによる議論を通じて訓練されたエージェントが、反響に耐性があり、人間の嗜好と密接に一致している証拠を提案する。

Equipping agents with the capacity to justify made decisions using supporting evidence represents a cornerstone of accountable decision-making. Furthermore, ensuring that justifications are in line with human expectations and societal norms is vital, especially in high-stakes situations such as healthcare. In this work, we propose the use of a debate-based reward model for reinforcement learning agents, where the outcome of a zero-sum debate game quantifies the justifiability of a decision in a particular state. This reward model is then used to train a justifiable policy, whose decisions can be more easily corroborated with supporting evidence. In the debate game, two argumentative agents take turns providing supporting evidence for two competing decisions. Given the proposed evidence, a proxy of a human judge evaluates which decision is better justified. We demonstrate the potential of our approach in learning policies for prescribing and justifying treatment decisions of septic patients. We show that augmenting the reward with the feedback signal generated by the debate-based reward model yields policies highly favored by the judge when compared to the policy obtained solely from the environment rewards, while hardly sacrificing any performance. Moreover, in terms of the overall performance and justifiability of trained policies, the debate-based feedback is comparable to the feedback obtained from an ideal judge proxy that evaluates decisions using the full information encoded in the state. This suggests that the debate game outputs key information contained in states that is most relevant for evaluating decisions, which in turn substantiates the practicality of combining our approach with human-in-the-loop evaluations. Lastly, we showcase that agents trained via multi-agent debate learn to propose evidence that is resilient to refutations and closely aligns with human preferences.
翻訳日:2024-02-27 16:39:56 公開日:2024-02-24
# 3dポイントクラウド理解のためのパラメータ効率の高いプロンプト学習

Parameter-efficient Prompt Learning for 3D Point Cloud Understanding ( http://arxiv.org/abs/2402.15823v1 )

ライセンス: Link先を確認
Hongyu Sun and Yongcai Wang and Wang Chen and Haoran Deng and Deying Li(参考訳) 本稿では,3次元点雲理解のための大規模マルチモーダルモデルを適用するために,パラメータ効率のよいプロンプトチューニング手法 PPT を提案する。 既存の戦略は計算とストレージに非常に費用がかかり、時間を要するプロンプトエンジニアリングに依存する。 我々はこの問題を3つの側面から解決する。 まず、PromptLearnerモジュールは手作りのプロンプトを学習可能なコンテキストに置き換えて、プロンプトチューニングプロセスを自動化するように設計されている。 そして、事前学習したバックボーンを完全な微調整パラダイムを採用する代わりにロックし、パラメータ効率を大幅に改善します。 最後に、軽量なpointadapterモジュールがターゲットタスクの近くに配置され、3dポイントクラウド理解のためのプロンプトチューニングが強化される。 提案手法の優れたパラメータとデータ効率を示すため, 総合的な実験を行い, 4つの公開データセットと複数の3dタスク,すなわち, ポイントクラウド認識, マイナショット学習, 部分セグメンテーションに関する新しい記録を得た。 実装はhttps://github.com/auniquesun/PPTで公開されている。

This paper presents a parameter-efficient prompt tuning method, named PPT, to adapt a large multi-modal model for 3D point cloud understanding. Existing strategies are quite expensive in computation and storage, and depend on time-consuming prompt engineering. We address the problems from three aspects. Firstly, a PromptLearner module is devised to replace hand-crafted prompts with learnable contexts to automate the prompt tuning process. Then, we lock the pre-trained backbone instead of adopting the full fine-tuning paradigm to substantially improve the parameter efficiency. Finally, a lightweight PointAdapter module is arranged near target tasks to enhance prompt tuning for 3D point cloud understanding. Comprehensive experiments are conducted to demonstrate the superior parameter and data efficiency of the proposed method.Meanwhile, we obtain new records on 4 public datasets and multiple 3D tasks, i.e., point cloud recognition, few-shot learning, and part segmentation. The implementation is available at https://github.com/auniquesun/PPT.
翻訳日:2024-02-27 16:39:30 公開日:2024-02-24
# デリゲーションゲームにおける協調と制御

Cooperation and Control in Delegation Games ( http://arxiv.org/abs/2402.15821v1 )

ライセンス: Link先を確認
Oliver Sourbut and Lewis Hammond and Harriet Wood(参考訳) 仮想パーソナルアシスタントから自動運転車まで、人間と機械に関わる多くの関心の設定は、自然にプリンシパル(人間)がエージェント(機械)に委譲し、プリンシパルに代わって相互作用するものとしてモデル化することができる。 マルチプリンシパルでマルチエージェントなシナリオをデリゲーションゲームと呼びます。 このようなゲームでは、制御の問題(エージェントがプリンシパルの好みに沿って行動しない場合)と協力の問題(エージェントがうまく動作しない場合)の2つの重要な障害モードがある。 本稿では、これらの問題を形式化し分析し、さらにアライメントの問題(プレイヤーは同様の好みを持っているか?)と能力(プレイヤーはそれらの好みを満たす能力があるか?)に分解する。 理論上、実証的に、これらの措置がプリンシパルの福祉をどのように決定するか、限られた観測値を使ってどのように見積もるか、そして、より整合的で協調的なAIシステムの設計にどのように役立つかを示します。

Many settings of interest involving humans and machines -- from virtual personal assistants to autonomous vehicles -- can naturally be modelled as principals (humans) delegating to agents (machines), which then interact with each other on their principals' behalf. We refer to these multi-principal, multi-agent scenarios as delegation games. In such games, there are two important failure modes: problems of control (where an agent fails to act in line their principal's preferences) and problems of cooperation (where the agents fail to work well together). In this paper we formalise and analyse these problems, further breaking them down into issues of alignment (do the players have similar preferences?) and capabilities (how competent are the players at satisfying those preferences?). We show -- theoretically and empirically -- how these measures determine the principals' welfare, how they can be estimated using limited observations, and thus how they might be used to help us design more aligned and cooperative AI systems.
翻訳日:2024-02-27 16:39:12 公開日:2024-02-24
# 子宮頸癌分類のための説明可能な対比的・費用感応学習

Explainable Contrastive and Cost-Sensitive Learning for Cervical Cancer Classification ( http://arxiv.org/abs/2402.15905v1 )

ライセンス: Link先を確認
Ashfiqun Mustari, Rushmia Ahmed, Afsara Tasnim, Jakia Sultana Juthi and G M Shahariar(参考訳) 本稿では,事前訓練された畳み込みニューラルネットワーク(cnns)を用いた頸部癌細胞分類のための効率的なシステムを提案する。 まず,事前学習した5つのcnnを微調整し,関連するコストや重要性が高いクラスに対して精度を優先することで,誤分類の全体的なコストを最小化する。 モデルの性能をさらに向上させるために、教師付きコントラスト学習を含め、モデルが重要な特徴やパターンを捉えやすくする。 SIPaKMeDデータセットを用いて,提案システムの評価を行う。 実験結果から, 精度97.29%となる開発システムの有効性が示された。 システムをより信頼できるものにするために、モデルがどのように特定の決定に達したかを解釈するために、説明可能なAI技術をいくつか採用しました。 システムの実装はhttps://github.com/isha-67/CervicalCancerStudyで見ることができる。

This paper proposes an efficient system for classifying cervical cancer cells using pre-trained convolutional neural networks (CNNs). We first fine-tune five pre-trained CNNs and minimize the overall cost of misclassification by prioritizing accuracy for certain classes that have higher associated costs or importance. To further enhance the performance of the models, supervised contrastive learning is included to make the models more adept at capturing important features and patterns. Extensive experimentation are conducted to evaluate the proposed system on the SIPaKMeD dataset. The experimental results demonstrate the effectiveness of the developed system, achieving an accuracy of 97.29%. To make our system more trustworthy, we have employed several explainable AI techniques to interpret how the models reached a specific decision. The implementation of the system can be found at - https://github.com/isha-67/CervicalCancerStudy.
翻訳日:2024-02-27 16:33:35 公開日:2024-02-24
# ESFL:資源制約のある異種無線デバイスによる効率的な分散学習

ESFL: Efficient Split Federated Learning over Resource-Constrained Heterogeneous Wireless Devices ( http://arxiv.org/abs/2402.15903v1 )

ライセンス: Link先を確認
Guangyu Zhu, Yiqin Deng, Xianhao Chen, Haixia Zhang, Yuguang Fang, Tan F. Wong(参考訳) フェデレートラーニング(FL)は、複数のパーティ(分散デバイス)が生データを共有せずに機械学習モデルをトレーニングすることを可能にする。 デバイスや中央サーバ上のリソースを効果的かつ効率的に活用するには、非常に興味深い問題です。 本稿では,異種エンドデバイス(eds)を用いた分割フェデレーション学習フレームワークにおいて,中央サーバの強力な計算能力をフル活用するために,効率的な分割フェデレーション学習アルゴリズム(esfl)を提案する。 モデルをサーバとedsの間で異なるサブモデルに分割することにより,ユーザ側のワークロードとサーバ側のリソース割り当てを共同で最適化する。 我々はNPハード問題である混合整数非線形プログラムとして最適化問題を定式化し、近似解を得るための反復的手法を開発する。 ESFLアプローチの効率を,標準フェデレーション学習,分割学習,分割学習と比較して著しく向上させるため,広範囲なシミュレーションを行った。

Federated learning (FL) allows multiple parties (distributed devices) to train a machine learning model without sharing raw data. How to effectively and efficiently utilize the resources on devices and the central server is a highly interesting yet challenging problem. In this paper, we propose an efficient split federated learning algorithm (ESFL) to take full advantage of the powerful computing capabilities at a central server under a split federated learning framework with heterogeneous end devices (EDs). By splitting the model into different submodels between the server and EDs, our approach jointly optimizes user-side workload and server-side computing resource allocation by considering users' heterogeneity. We formulate the whole optimization problem as a mixed-integer non-linear program, which is an NP-hard problem, and develop an iterative approach to obtain an approximate solution efficiently. Extensive simulations have been conducted to validate the significantly increased efficiency of our ESFL approach compared with standard federated learning, split learning, and splitfed learning.
翻訳日:2024-02-27 16:33:22 公開日:2024-02-24
# LoRAの条件混合によるマルチモーダルインストラクションチューニング

Multimodal Instruction Tuning with Conditional Mixture of LoRA ( http://arxiv.org/abs/2402.15896v1 )

ライセンス: Link先を確認
Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang(参考訳) MLLM(Multimodal Large Language Models)は、さまざまな領域にわたる多様なタスクにおいて、目立たないマルチモーダルタスクに対するゼロショットの一般化能力の向上に重点を置いている。 マルチモーダル・インストラクション・チューニングは,多種多様なマルチモーダルタスクにおける事前学習モデルを微調整することにより,ゼロショット・ジェネリゼーションの実現に成功している。 mllmの複雑さとサイズが大きくなるにつれて、最小のパラメータセットで微調整を行う低ランク適応(lora)のようなパラメータ効率の良い微調整方法が必要となる。 しかし、LoRAをマルチモーダル命令チューニングに適用することはタスク干渉の課題を示し、特に広範囲のマルチモーダルタスクを扱う場合、パフォーマンスが低下する。 そこで本研究では,MixLoRA(Conditional Mixture-of-LoRA)とマルチモーダル命令チューニングを統合した新しい手法を提案する。 各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築し、タスク干渉を軽減することでLoRAを革新する。 様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等またはそれ以上のランクで上回るだけでなく、多様なマルチモーダルタスクにおける有効性と適応性を示している。

Multimodal Large Language Models (MLLMs) have demonstrated remarkable proficiency in diverse tasks across different domains, with an increasing focus on improving their zero-shot generalization capabilities for unseen multimodal tasks. Multimodal instruction tuning has emerged as a successful strategy for achieving zero-shot generalization by fine-tuning pre-trained models on diverse multimodal tasks through instructions. As MLLMs grow in complexity and size, the need for parameter-efficient fine-tuning methods like Low-Rank Adaption (LoRA), which fine-tunes with a minimal set of parameters, becomes essential. However, applying LoRA in multimodal instruction tuning presents the challenge of task interference, which leads to performance degradation, especially when dealing with a broad array of multimodal tasks. To address this, this paper introduces a novel approach that integrates multimodal instruction tuning with Conditional Mixture-of-LoRA (MixLoRA). It innovates upon LoRA by dynamically constructing low-rank adaptation matrices tailored to the unique demands of each input instance, aiming to mitigate task interference. Experimental results on various multimodal evaluation datasets indicate that MixLoRA not only outperforms the conventional LoRA with the same or even higher ranks, demonstrating its efficacy and adaptability in diverse multimodal tasks.
翻訳日:2024-02-27 16:33:03 公開日:2024-02-24
# 階層的視覚表現による多物体追跡

Multi-Object Tracking by Hierarchical Visual Representations ( http://arxiv.org/abs/2402.15895v1 )

ライセンス: Link先を確認
Jinkun Cao, Jiangmiao Pang, Kris Kitani(参考訳) マルチオブジェクト追跡のための新しい視覚的階層表現パラダイムを提案する。 オブジェクトの合成視覚領域に参画し、境界ボックスのような意味的な視覚的キューのみに固執するのではなく、背景の文脈情報と対比することにより、オブジェクト間の識別がより効果的である。 この構成-意味-文脈階層は、異なる外観ベースの多目的追跡法に統合できる柔軟性がある。 また,階層的な視覚表現を融合させる注目型視覚特徴モジュールを提案する。 提案手法は,複数のマルチオブジェクト追跡ベンチマークにおいて,問合せに基づく手法の精度と時間効率が向上する。

We propose a new visual hierarchical representation paradigm for multi-object tracking. It is more effective to discriminate between objects by attending to objects' compositional visual regions and contrasting with the background contextual information instead of sticking to only the semantic visual cue such as bounding boxes. This compositional-semantic-contextual hierarchy is flexible to be integrated in different appearance-based multi-object tracking methods. We also propose an attention-based visual feature module to fuse the hierarchical visual representations. The proposed method achieves state-of-the-art accuracy and time efficiency among query-based methods on multiple multi-object tracking benchmarks.
翻訳日:2024-02-27 16:32:36 公開日:2024-02-24
# 冠動脈セマンティクスラベリングのためのマルチグラフグラフマッチング

Multi-graph Graph Matching for Coronary Artery Semantic Labeling ( http://arxiv.org/abs/2402.15894v1 )

ライセンス: Link先を確認
Chen Zhao, Zhihui Xu, Pukar Baral, Michel Esposito, Weihua Zhou(参考訳) 冠状動脈疾患 (cad) は世界中で最も多い死因であり, 侵襲的冠動脈造影 (ica) は血管解剖学的情報を評価するための基準である。 しかし, 深層学習に基づく手法は, 動脈分枝間の形態的類似性から, 動脈分節のセマンティックラベル生成の課題に直面する。 この課題に対処するために,血管木をグラフとしてモデル化し,冠動脈セマンティックラベリングのためのマルチグラフグラフマッチング(mgm)アルゴリズムを提案する。 MGMアルゴリズムは、複数の血管木グラフにおける動脈間の類似性を評価し、各グラフ間の周期一貫性を考慮する。 これにより、注釈なしの動脈セグメントが、注釈付きセグメントとマッチングすることによって適切にラベル付けされることが保証される。 解剖学的グラフ構造,放射線学的特徴,意味マッピングを組み込んだMGMモデルにより,冠動脈セマンティックラベリングの精度は0.9471である。 本手法は, ICAビデオを用いた冠状動脈解析のための新しいツールであり, 血管の健康と病理に関する貴重な知見を提供する。

Coronary artery disease (CAD) stands as the leading cause of death worldwide, and invasive coronary angiography (ICA) remains the gold standard for assessing vascular anatomical information. However, deep learning-based methods encounter challenges in generating semantic labels for arterial segments, primarily due to the morphological similarity between arterial branches. To address this challenge, we model the vascular tree as a graph and propose a multi-graph graph matching (MGM) algorithm for coronary artery semantic labeling. The MGM algorithm assesses the similarity between arterials in multiple vascular tree graphs, taking into account the cycle consistency between each pair of graphs. This ensures that unannotated arterial segments are appropriately labeled by matching them with annotated segments. Through the incorporation of anatomical graph structure, radiomics features, and semantic mapping, the proposed MGM model achieves an impressive accuracy of 0.9471 for coronary artery semantic labeling. This approach presents a novel tool for coronary artery analysis using ICA videos, offering valuable insights into vascular health and pathology.
翻訳日:2024-02-27 16:32:29 公開日:2024-02-24
# 強化学習における政策と未知の安全制約の同時学習

Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning ( http://arxiv.org/abs/2402.15893v1 )

ライセンス: Link先を確認
Lunet Yifru and Ali Baheri(参考訳) 強化学習(rl)は、過去数十年間、幅広いドメインにわたる意思決定に革命をもたらしてきた。 しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。 従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。 しかし、この事前定義された安全制約への依存は、そのような制約が利用できない、あるいは十分に適応できない、動的で予測不能な実世界の設定において制限をもたらす。 このギャップを埋めて、安全なRL制御ポリシーを同時に学習し、与えられた環境の未知の安全制約パラメータを識別する新しいアプローチを提案する。 パラメトリック信号時間論理(pSTL)の安全性仕様と小さな初期ラベル付きデータセットを初期化して、与えられたpSTLの安全性仕様のパラメータを最適化するためのベイズ最適化を用いて、2つの遅延深い決定性ポリシー勾配(TD3)アルゴリズムのラグランジアン変種を用いて、制約付きポリシー最適化を複雑に統合する二段階最適化タスクとする。 包括的ケーススタディにおける実験を通じて,様々な環境制約をまたいだこのアプローチの有効性を検証し,高いリターンで安全なrlポリシーを導出する。 さらに, 本研究は, STLの安全性制約パラメータの学習に成功し, 真の環境安全制約と高い適合性を示した。 モデルの性能は,安全制約の完全な事前知識を有し,環境安全制約を正確に同定し,その制約に準拠した安全ポリシーを学ぶ能力を示す理想的なシナリオを密接に反映している。

Reinforcement learning (RL) has revolutionized decision-making across a wide range of domains over the past few decades. Yet, deploying RL policies in real-world scenarios presents the crucial challenge of ensuring safety. Traditional safe RL approaches have predominantly focused on incorporating predefined safety constraints into the policy learning process. However, this reliance on predefined safety constraints poses limitations in dynamic and unpredictable real-world settings where such constraints may not be available or sufficiently adaptable. Bridging this gap, we propose a novel approach that concurrently learns a safe RL control policy and identifies the unknown safety constraint parameters of a given environment. Initializing with a parametric signal temporal logic (pSTL) safety specification and a small initial labeled dataset, we frame the problem as a bilevel optimization task, intricately integrating constrained policy optimization, using a Lagrangian-variant of the twin delayed deep deterministic policy gradient (TD3) algorithm, with Bayesian optimization for optimizing parameters for the given pSTL safety specification. Through experimentation in comprehensive case studies, we validate the efficacy of this approach across varying forms of environmental constraints, consistently yielding safe RL policies with high returns. Furthermore, our findings indicate successful learning of STL safety constraint parameters, exhibiting a high degree of conformity with true environmental safety constraints. The performance of our model closely mirrors that of an ideal scenario that possesses complete prior knowledge of safety constraints, demonstrating its proficiency in accurately identifying environmental safety constraints and learning safe policies that adhere to those constraints.
翻訳日:2024-02-27 16:32:09 公開日:2024-02-24
# 統計ゲーム

Statistical Games ( http://arxiv.org/abs/2402.15892v1 )

ライセンス: Link先を確認
Jozsef Konczer(参考訳) この研究は、統計学と確率論から中心的な概念が自然に現れるいくつかの原始型ゲームの数学的探索を含む。 最初の2種類のゲームはフィッシャーゲームとベイズゲームと呼ばれ、それぞれ周波数統計学とベイズ統計学に関連付けられている。 後に、より一般的なタイプのゲームが導入され、統計ゲームと呼ばれ、さらにパラメータ、プレイヤーの相対リスク回避が設定される。 本研究では,フィッシャーゲームとベイズゲームが,統計ゲームにおける制限事例と見なせることを示す。 したがって、統計ゲームは、FrequentistとBayesianの統計の両方を取り入れた統一的なフレームワークと見なすことができる。 さらに、哲学的な枠組みは(しばしばminimax regret criterionと呼ばれる)意思決定の一般的なアプローチとして(再)表現される。 この研究の主な動機は、ベイズ統計をより広範な意思決定フレームワークに組み込むことで、収集されたデータに基づいて、結果に対するアクションが作成され、意思決定者のユーティリティ(または報酬/利益)に変換される。 この研究は、仮説テストと統計的推論に関連する最も単純なおもちゃモデルから始まります。 この選択には2つの大きな利点がある。 ) 様々な制限ケースiiにおいて, 平衡戦略の挙動を(仮定的に)決定することができる。 ]この方法では,追加の確率パラメータを必要とせずに統計ゲームを導入することができる。 この作品には、フィッシャー、ベイズ、統計ゲームの均衡戦略を決定・証明するための2人のプレイヤー、非協力的なゲームに関するゲーム理論的手法が含まれている。 また、様々な制限ケースに関する導出の分析ツールにも依存している。

This work contains the mathematical exploration of a few prototypical games in which central concepts from statistics and probability theory naturally emerge. The first two kinds of games are termed Fisher and Bayesian games, which are connected to Frequentist and Bayesian statistics, respectively. Later, a more general type of game is introduced, termed Statistical game, in which a further parameter, the players' relative risk aversion, can be set. In this work, we show that Fisher and Bayesian games can be viewed as limiting cases of Statistical games. Therefore, Statistical games can be viewed as a unified framework, incorporating both Frequentist and Bayesian statistics. Furthermore, a philosophical framework is (re-)presented -- often referred to as minimax regret criterion -- as a general approach to decision making. The main motivation for this work was to embed Bayesian statistics into a broader decision-making framework, where, based on collected data, actions with consequences have to be made, which can be translated to utilities (or rewards/losses) of the decision-maker. The work starts with the simplest possible toy model, related to hypothesis testing and statistical inference. This choice has two main benefits: i.) it allows us to determine (conjecture) the behaviour of the equilibrium strategies in various limiting cases ii.) this way, we can introduce Statistical games without requiring additional stochastic parameters. The work contains game theoretical methods related to two-player, non-cooperative games to determine and prove equilibrium strategies of Fisher, Bayesian and Statistical games. It also relies on analytical tools for derivations concerning various limiting cases.
翻訳日:2024-02-27 16:31:39 公開日:2024-02-24
# fusion エンコーダネットワーク

Fusion Encoder Networks ( http://arxiv.org/abs/2402.15883v1 )

ライセンス: Link先を確認
Stephen Pasteris, Chris Hicks, Vasilios Mavroudis(参考訳) 本稿では、固定長シーケンスを出力にマッピングするニューラルネットワークを作成するアルゴリズムのクラスであるフュージョンエンコーダネットワーク(FEN)を提案する。 結果として得られるニューラルネットワークは対数深さ(ネットワークを介して伝播するデータの劣化を緩和する)のみを持ち、線形時間(または線形数のプロセッサで対数時間)でシーケンスを処理できる。 FENの重要な特性は、一定の深さのニューラルネットワークの準線形数を並列にトレーニングすることで学習することである。 これらのネットワークが一定の深さであるという事実は、バックプロパゲーションがうまく機能することを意味する。 現在、FENのパフォーマンスは、まだ実装されていないため、推測されているだけである。

In this paper we present fusion encoder networks (FENs): a class of algorithms for creating neural networks that map fixed-length sequences to outputs. The resulting neural network has only logarithmic depth (alleviating the degradation of data as it propagates through the network) and can process sequences in linear time (or in logarithmic time with a linear number of processors). The crucial property of FENs is that they learn by training a quasi-linear number of constant-depth neural networks in parallel. The fact that these networks are constant depth means that backpropagation works well. We note that currently the performance of FENs is only conjectured as we are yet to implement them.
翻訳日:2024-02-27 16:31:13 公開日:2024-02-24
# ローレンツ不変性と量子力学

Lorentz invariance and quantum mechanics ( http://arxiv.org/abs/2402.15881v1 )

ライセンス: Link先を確認
Ward Struyve(参考訳) ボーム力学と自然崩壊モデルは、量子測定問題を克服する理論である。 これらは自然に非相対論的系に対して定式化されているが、ローレンツ不変拡張を定式化することは困難であることが証明されている。 時空理論をローレンツ不変にする方法は自明であるが、ベルが ''serious Lorentz invariance'' と呼ぶものを達成するのが難題である。 しかし、この概念を正確に述べるのは難しい。 これはアインシュタインの一般相対性理論における一般不変性の意味に関する議論を想起させる。 問題は、一般不変性の要件が物理的に空であるかどうか(時空理論が一般に不変であるという意味で)、あるいはそれが基本的な物理原理であるかどうかである。 ここでは、ロレンツの真剣な不変性の意味を探求するために、この議論から生まれたより有望な2つの道について検討したい。 まず、アンダーソンのアプローチを絶対対象の同定に基づいて検討する。 第二に、孤立したサブシステムに対する相対性理論を考える。 これらの基準を用いて、いくつかのローレンツ不変ボヘミアンモデルと自然崩壊モデルを評価し、後者が両方の基準を満たすのに対し、ボヘミアンモデルにはその基準に反するものもあることを見出す。 しかし、両方の基準を満たすボヘミア模型のいくつかはいまだにローレンツ不変とは思えない。 これらの概念は、それゆえ、真剣なローレンツ不変性がどうあるべきかを正確に捉えていないかもしれないが、(局所性に加えて)相対性理論のどの側面が古典理論から量子論へ渡される必要があるかを明確にする。

Bohmian mechanics and spontaneous collapse models are theories that overcome the quantum measurement problem. While they are naturally formulated for non-relativistic systems, it has proven difficult to formulate Lorentz invariant extensions, primarily due to the inherent non-locality, which is unavoidable due to Bell's theorem. There are trivial ways to make space-time theories Lorentz invariant, but the challenge is to achieve what Bell dubbed ``serious Lorentz invariance''. However, this notion is hard to make precise. This is reminiscent of the debate on the meaning of general invariance in Einstein's theory of general relativity. The issue there is whether the requirement of general invariance is physically vacuous (in the sense that any space-time theory can be made generally invariant) or whether it is a fundamental physical principle. Here, we want to consider two of the more promising avenues that have emerged from that debate in order to explore what serious Lorentz invariance could mean. First, we will consider Anderson's approach based on the identification of absolute objects. Second, we will consider a relativity principle for isolated subsystems. Using these criteria, we will evaluate a number of Lorentz invariant Bohmian models and a spontaneous collapse model, finding that the latter satisfies both criteria, while there are some Bohmian models that violate the criteria. However, some Bohmian models that satisfy both criteria still do not seem seriously Lorentz invariant. While these notions may hence still not capture exactly what serious Lorentz invariance ought to be, they clarify what aspects of relativity theory (in addition to locality) may need to be given up in passing from classical to quantum theory.
翻訳日:2024-02-27 16:31:02 公開日:2024-02-24
# 絡み合いとエントロピーの幾何学

A Geometry of entanglement and entropy ( http://arxiv.org/abs/2402.15880v1 )

ライセンス: Link先を確認
Ramita Sarkar, Soumik Mahanti and Prasanta K. Panigrahi(参考訳) 本稿では, エンタングルメントの幾何学とフォン・ノイマンエントロピーの基本的な関係を考察し, 量子相関の複雑な性質に光を当てる。 我々は、量子力学におけるその重要な役割を強調する、絡み合いの包括的概要を提供する。 我々の焦点は、エンタングルメント、フォン・ノイマンエントロピー、量子系における情報内容の測度、複合ヒルベルト空間の幾何学との接続に焦点を当てている。 我々は、幾何学的な視点から絡み合いを定量化し特徴づける様々な方法について議論し、この接続が量子絡み合いの性質を明らかにし、量子システムの基盤構造に関する貴重な洞察を提供する。 この研究は、量子相関の豊かな景観とその物理と情報理論の様々な分野にまたがる影響を理解するための重要なツールとしての幾何学の重要性を強調する。 最後に、状態テレポーテーションのタスクに欠かせないリソースとしての絡み合いの例を示す。

This paper explores the fundamental relationship between the geometry of entanglement and von Neumann entropy, shedding light on the intricate nature of quantum correlations. We provide a comprehensive overview of entanglement, highlighting its crucial role in quantum mechanics. Our focus centers on the connection between entanglement, von Neumann entropy, a measure of the information content within quantum systems and the geometry of composite Hilbert spaces. We discuss various methods for quantifying and characterizing entanglement through a geometric perspective and elucidate how this connection unveils the nature of quantum entanglement, offering valuable insights into the underlying structure of quantum systems. This study underscores the significance of geometry as a key tool for understanding the rich landscape of quantum correlations and their implications across various domains of physics and information theory. An example of entanglement as an indispensable resource for the task of state teleportation is presented at the end.
翻訳日:2024-02-27 16:30:34 公開日:2024-02-24
# 変分量子アルゴリズム入門

Introduction to Variational Quantum Algorithms ( http://arxiv.org/abs/2402.15879v1 )

ライセンス: Link先を確認
Micha{\l} St\k{e}ch{\l}y(参考訳) このドキュメントは、私が当初ブログに投稿した変分量子アルゴリズム(vqa)に関する一連のブログ記事のpdf版です。 変分量子固有解法(VQE)や量子近似最適化アルゴリズム(QAOA)などの基本的な変分アルゴリズムや、VQAのためのより一般的なフレームワークの説明を提供する。 さらに、これらのアルゴリズムをより効率的にするために使用できる、より高度な技術と、それらを使用する際の課題についても説明している。

This document is a pdf version of the series of blogposts about variational quantum algorithms (VQA) I originally posted on my blog Musty Thoughts. It provides an explanation of the basic variational algorithms, such as Variational Quantum Eigensolver (VQE) and Quantum Approximate Optimization Algorithm (QAOA), as well as a more general framework for VQAs. It also describes some more advanced techniques that can be used to make these algorithms more efficient, as well as the challenges associated with using them.
翻訳日:2024-02-27 16:30:18 公開日:2024-02-24
# 一次元連続時間量子マルコフ連鎖:量子ビット確率と測度

One-dimensional Continuous-Time Quantum Markov Chains: qubit probabilities and measures ( http://arxiv.org/abs/2402.15878v1 )

ライセンス: Link先を確認
Manuel D. De la Iglesia, Carlos F. Lardizabal(参考訳) 量子マルコフ連鎖 (QMC) はグラフ上の開量子力学を記述するトレースクラス空間上の正の写像である。 このような物体は、古典的なランダムウォークと統計的に類似しているが、同時に内部(量子)自由度を許容する。 本研究では, 整数直線, 半直線, 有限セグメント上の連続時間 QMC について検討し, 関連する行列値の直交多項式と測度を用いて正確な確率計算を行う。 ここで用いられる方法は、幅広い設定に適用できるが、リンドブラッド生成器が単一の正の写像によって誘導される例のクラスに限定し、測度とその逆のスティルチェス変換を明示的に計算できる。

Quantum Markov chains (QMCs) are positive maps on a trace-class space describing open quantum dynamics on graphs. Such objects have a statistical resemblance with classical random walks, while at the same time it allows for internal (quantum) degrees of freedom. In this work we study continuous-time QMCs on the integer line, half-line and finite segments, so that we are able to obtain exact probability calculations in terms of the associated matrix-valued orthogonal polynomials and measures. The methods employed here are applicable to a wide range of settings, but we will restrict to classes of examples for which the Lindblad generators are induced by a single positive map, and such that the Stieltjes transforms of the measures and their inverses can be calculated explicitly.
翻訳日:2024-02-27 16:30:10 公開日:2024-02-24
# SemEval-2024 Task 8: Black-Box Machine-Generated Text Detectionのための平均RoBERTa重み付きレイヤ

SemEval-2024 Task 8: Weighted Layer Averaging RoBERTa for Black-Box Machine-Generated Text Detection ( http://arxiv.org/abs/2402.15873v1 )

ライセンス: Link先を確認
Ayan Datta, Aryan Chandramania, Radhika Mamidi(参考訳) この文書には、semeval 2024 の task 8: multigenerator, multidomain, and multilingual black-box machine-generated text detection subtask a (monolingual) and b のプロシージャへの著者の提出の詳細が含まれている。 本論文では, 得られた結果とともに, 実施に使用する技術について概説する。

This document contains the details of the authors' submission to the proceedings of SemEval 2024's Task 8: Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection Subtask A (monolingual) and B. Detection of machine-generated text is becoming an increasingly important task, with the advent of large language models (LLMs). In this document, we lay out the techniques utilized for performing the same, along with the results obtained.
翻訳日:2024-02-27 16:29:54 公開日:2024-02-24
# Spec-Gaussian:3次元ガウススプレイティングにおける異方性視点依存性の出現

Spec-Gaussian: Anisotropic View-Dependent Appearance for 3D Gaussian Splatting ( http://arxiv.org/abs/2402.15870v1 )

ライセンス: Link先を確認
Ziyi Yang, Xinyu Gao, Yangtian Sun, Yihua Huang, Xiaoyang Lyu, Wen Zhou, Shaohui Jiao, Xiaojuan Qi, Xiaogang Jin(参考訳) 最近の3Dガウススプラッティング(3D-GS)の進歩は、現代のGPUラスタライゼーションパイプラインによるリアルタイムレンダリングを促進するだけでなく、最先端のレンダリング品質も達成している。 しかしながら、3D-GSは標準データセット上でのレンダリング品質とパフォーマンスにもかかわらず、スペックコンポーネントと異方性コンポーネントを正確にモデル化するのにしばしば困難に直面する。 この問題は、高周波情報を表現するための球高調波(SH)の限られた能力に起因する。 この課題を克服するために、各3次元ガウスのビュー依存外観をモデル化するためにSHの代わりに異方性球状ガウス場(ASG)を用いたSpec-Gaussianを導入する。 さらに,学習効率を向上し,現実世界のシーンに過度に収まることによるフローターを除去する,粗大な訓練戦略を開発した。 実験の結果,提案手法は既存手法のレンダリング品質を上回っていることが明らかとなった。 ASGにより、3Dガウスの数を増大させることなく、3D-GSが特異および異方性成分を持つシーンをモデル化できることを大幅に改善した。 この改良は、鏡面と異方性表面の複雑なシナリオを扱うために、3d gsの適用性を拡張する。

The recent advancements in 3D Gaussian splatting (3D-GS) have not only facilitated real-time rendering through modern GPU rasterization pipelines but have also attained state-of-the-art rendering quality. Nevertheless, despite its exceptional rendering quality and performance on standard datasets, 3D-GS frequently encounters difficulties in accurately modeling specular and anisotropic components. This issue stems from the limited ability of spherical harmonics (SH) to represent high-frequency information. To overcome this challenge, we introduce Spec-Gaussian, an approach that utilizes an anisotropic spherical Gaussian (ASG) appearance field instead of SH for modeling the view-dependent appearance of each 3D Gaussian. Additionally, we have developed a coarse-to-fine training strategy to improve learning efficiency and eliminate floaters caused by overfitting in real-world scenes. Our experimental results demonstrate that our method surpasses existing approaches in terms of rendering quality. Thanks to ASG, we have significantly improved the ability of 3D-GS to model scenes with specular and anisotropic components without increasing the number of 3D Gaussians. This improvement extends the applicability of 3D GS to handle intricate scenarios with specular and anisotropic surfaces.
翻訳日:2024-02-27 16:29:43 公開日:2024-02-24
# HIR-Diff: 拡散モデルの改善による教師なしハイパースペクトル画像復元

HIR-Diff: Unsupervised Hyperspectral Image Restoration Via Improved Diffusion Models ( http://arxiv.org/abs/2402.15865v1 )

ライセンス: Link先を確認
Li Pang, Xiangyu Rui, Long Cui, Hongzhong Wang, Deyu Meng, Xiangyong Cao(参考訳) hyperspectral image (hsi) 修復は劣化した観測からクリーンな画像を回収することを目的としており、下流の作業において重要な役割を果たす。 既存のモデルベース手法は、手工芸以前の複雑な画像特性を正確にモデル化するのに限界があり、ディープラーニングベースの手法は一般化能力に乏しい。 これらの問題を緩和するために, 縮小画像と係数行列という2つの低ランク成分の積からクリーンなHSIを復元する, 事前学習拡散モデル(HIR-Diff)を用いた教師なしHSI復元フレームワークを提案する。 具体的には、低スペクトル次元の縮小像を画像場に配置し、改良された拡散モデルから推定し、全変動(TV)前の新しい誘導関数を設計し、縮小像を十分にサンプリングできるようにする。 係数行列は、特異値分解(SVD)およびランク除去QR(RRQR)因子化に基づいて、効果的に事前推定することができる。 さらに、回復過程(約5$\times$Acceleration for denoising)を、性能を低下させることなく加速するために、新しい指数的ノイズスケジュールを提案する。 広範囲な実験により,hsiデノイジング,雑音高分解能,雑音下hsiインパインティングなど,様々なhsi修復タスクにおける性能と速度の両立が検証された。 コードはhttps://github.com/LiPang/HIRDiffで公開されている。

Hyperspectral image (HSI) restoration aims at recovering clean images from degraded observations and plays a vital role in downstream tasks. Existing model-based methods have limitations in accurately modeling the complex image characteristics with handcraft priors, and deep learning-based methods suffer from poor generalization ability. To alleviate these issues, this paper proposes an unsupervised HSI restoration framework with pre-trained diffusion model (HIR-Diff), which restores the clean HSIs from the product of two low-rank components, i.e., the reduced image and the coefficient matrix. Specifically, the reduced image, which has a low spectral dimension, lies in the image field and can be inferred from our improved diffusion model where a new guidance function with total variation (TV) prior is designed to ensure that the reduced image can be well sampled. The coefficient matrix can be effectively pre-estimated based on singular value decomposition (SVD) and rank-revealing QR (RRQR) factorization. Furthermore, a novel exponential noise schedule is proposed to accelerate the restoration process (about 5$\times$ acceleration for denoising) with little performance decrease. Extensive experimental results validate the superiority of our method in both performance and speed on a variety of HSI restoration tasks, including HSI denoising, noisy HSI super-resolution, and noisy HSI inpainting. The code is available at https://github.com/LiPang/HIRDiff.
翻訳日:2024-02-27 16:29:17 公開日:2024-02-24
# RLlib-IMPALAフレームワークを用いたスケーラブルVolt-VAR最適化:強化学習アプローチ

Scalable Volt-VAR Optimization using RLlib-IMPALA Framework: A Reinforcement Learning Approach ( http://arxiv.org/abs/2402.15932v1 )

ライセンス: Link先を確認
Alaa Selim, Yanzhu Ye, Junbo Zhao, Bo Yang(参考訳) 急速に進化する電力システムの領域において、Volt-VAR最適化(VVO)は、特に再生可能エネルギー源の急速な統合においてますます重要になっている。 拡張性と動的に変化するパワーシステムにおける学習ベースのVVOへの伝統的なアプローチは、しばしば計算複雑性によって妨げられる。 この課題に対処するため,本研究では,RAYプラットフォーム上で実行されるImportance Weighted Actor-Learner Architecture(IMPALA)アルゴリズムを特に活用する,Deep Reinforcement Learning(DRL)の可能性を活用する新しいフレームワークを提案する。 このフレームワークは、強化学習における業界標準であるRLlibに基づいて構築されており、分散コンピューティング能力とRAYが提供する高度なハイパーパラメータチューニングに重点を置いている。 この設計は、VVOソリューション空間における探索と利用のフェーズを大幅に短縮する。 実験結果から,提案手法は既存のdrl法を上回って優れた報酬を得るだけでなく,計算要求の10倍の大幅な削減が示された。 DRLエージェントをRAYプラットフォームに統合することにより、RAYのリソースを効率的に利用してシステム適応性と制御を改善する新しいフレームワークであるRLlib-IMPALAの開発が容易になる。 RLlib-IMPALAはRAYのツールキットを利用して分析能力を向上し、訓練を著しく高速化し、最先端のDRL法よりも10倍以上高速になる。

In the rapidly evolving domain of electrical power systems, the Volt-VAR optimization (VVO) is increasingly critical, especially with the burgeoning integration of renewable energy sources. Traditional approaches to learning-based VVO in expansive and dynamically changing power systems are often hindered by computational complexities. To address this challenge, our research presents a novel framework that harnesses the potential of Deep Reinforcement Learning (DRL), specifically utilizing the Importance Weighted Actor-Learner Architecture (IMPALA) algorithm, executed on the RAY platform. This framework, built upon RLlib-an industry-standard in Reinforcement Learning-ingeniously capitalizes on the distributed computing capabilities and advanced hyperparameter tuning offered by RAY. This design significantly expedites the exploration and exploitation phases in the VVO solution space. Our empirical results demonstrate that our approach not only surpasses existing DRL methods in achieving superior reward outcomes but also manifests a remarkable tenfold reduction in computational requirements. The integration of our DRL agent with the RAY platform facilitates the creation of RLlib-IMPALA, a novel framework that efficiently uses RAY's resources to improve system adaptability and control. RLlib-IMPALA leverages RAY's toolkit to enhance analytical capabilities and significantly speeds up training to become more than 10 times faster than other state-of-the-art DRL methods.
翻訳日:2024-02-27 16:23:04 公開日:2024-02-24
# フラストレーションにシンプルなプロンプトベースのテキストデノイング

Frustratingly Simple Prompting-based Text Denoising ( http://arxiv.org/abs/2402.15931v1 )

ライセンス: Link先を確認
Jungyeul Park and Mengyang Qiu(参考訳) 本稿では,自動エッセイ評価(AES)タスクに関する新しい視点を紹介し,静的エンティティとしてのASAPデータセットの従来の見方に挑戦する。 プロンプトを用いた単純なテキスト修飾技術を用いて,データセット内の動的ポテンシャルを探索する。 これまでは回帰システムの構築に重点を置いてきたが,本稿では,テキストのデノージングによってデータセットにマイナーな変更を加えることで最終的な結果が向上することを示す。

This paper introduces a novel perspective on the automated essay scoring (AES) task, challenging the conventional view of the ASAP dataset as a static entity. Employing simple text denoising techniques using prompting, we explore the dynamic potential within the dataset. While acknowledging the previous emphasis on building regression systems, our paper underscores how making minor changes to a dataset through text denoising can enhance the final results.
翻訳日:2024-02-27 16:22:38 公開日:2024-02-24
# 言語習熟度に基づく文法的誤り訂正手法の評価

Evaluating Prompting Strategies for Grammatical Error Correction Based on Language Proficiency ( http://arxiv.org/abs/2402.15930v1 )

ライセンス: Link先を確認
Min Zeng and Jiexin Kuang and Mengyang Qiu and Jayoung Song and Jungyeul Park(参考訳) 英語学習者の記述例は、母語話者のものとは異なる可能性がある。 本稿では,LLMの性能とL2言語の習熟度との相互作用を調べた結果,学習者の習熟度によって2言語(L2)の誤りタイプに有意な差があることを考える。 本手法は,外国語の学習者を対象に,異なる習熟度に基づく英語学習者のための,ゼロショットとマイショットプロンプトと微調整モデルに着目した。 我々は, GECの結果を調査し, 熟達度A(初心者レベル)と習熟度B(中間レベル)よりも, 先進言語学習者の文章(習熟度C)に過度な補正が生じていることを見出した。 微調整のLLMや、英語学習者の例を書いている数発のショットでさえ、実際にはリコール対策が減少する傾向にある。 請求書を具体化するために,言語習熟度に基づくGEC結果とその評価結果を総合的に検討する。

The writing examples of English language learners may be different from those of native speakers. Given that there is a significant differences in second language (L2) learners' error types by their proficiency levels, this paper attempts to reduce overcorrection by examining the interaction between LLM's performance and L2 language proficiency. Our method focuses on zero-shot and few-shot prompting and fine-tuning models for GEC for learners of English as a foreign language based on the different proficiency. We investigate GEC results and find that overcorrection happens primarily in advanced language learners' writing (proficiency C) rather than proficiency A (a beginner level) and proficiency B (an intermediate level). Fine-tuned LLMs, and even few-shot prompting with writing examples of English learners, actually tend to exhibit decreased recall measures. To make our claim concrete, we conduct a comprehensive examination of GEC outcomes and their evaluation results based on language proficiency.
翻訳日:2024-02-27 16:22:29 公開日:2024-02-24
# QuaCer-C:LLMにおける知識理解の定量化

QuaCer-C: Quantitative Certification of Knowledge Comprehension in LLMs ( http://arxiv.org/abs/2402.15929v1 )

ライセンス: Link先を確認
Isha Chaudhary, Vedaant V. Jain, Gagandeep Singh(参考訳) 大規模言語モデル(LLM)は、いくつかのベンチマークで素晴らしいパフォーマンスを示している。 しかし、従来の研究はLLMの性能に関する正式な保証を提供していない。 本研究では,LLM の知識理解能力の認定を行う新しい認証フレームワークである QuaCer-C を提案する。 我々の証明は量的であり、それらは高信頼で、ターゲットのLSMが関連する知識理解のプロンプトに対して正しい答えを与える確率の厳密な境界から成り立っている。 我々のLlama, Vicuna, Mistral LLMの証明は、知識理解能力はパラメータの数の増加とともに向上し、Mistralモデルが他のモデルよりも性能が低いことを示す。

Large Language Models (LLMs) have demonstrated impressive performance on several benchmarks. However, traditional studies do not provide formal guarantees on the performance of LLMs. In this work, we propose a novel certification framework for LLM, QuaCer-C, wherein we formally certify the knowledge-comprehension capabilities of popular LLMs. Our certificates are quantitative - they consist of high-confidence, tight bounds on the probability that the target LLM gives the correct answer on any relevant knowledge comprehension prompt. Our certificates for the Llama, Vicuna, and Mistral LLMs indicate that the knowledge comprehension capability improves with an increase in the number of parameters and that the Mistral model is less performant than the rest in this evaluation.
翻訳日:2024-02-27 16:22:07 公開日:2024-02-24
# BDDソフトウェアテストの改善 - 動的シナリオの再使用とCucumberフレームワークのオートコンプリート

Advancing BDD Software Testing: Dynamic Scenario Re-Usability And Step Auto-Complete For Cucumber Framework ( http://arxiv.org/abs/2402.15928v1 )

ライセンス: Link先を確認
A. H. Mughal(参考訳) 本稿では,cucumber javaフレームワークにおけるbdd(behavior-driven development)gherkinテストスクリプトのシナリオ内で,シナリオの再使用可能性を提示し,実装する。 提案された作業の焦点はCucumber BDD Javaフレームワークの実装を通じてシナリオの再利用可能なことにあるが、この論文はCucumberのシングルスレッドシナリオ実行モデルの制限についても少し掘り下げている。 この実装は、テストスイートのモジュール化と効率を高める。 また、vscode step definition auto-completion integrationについて論じ、テストスクリプト記述プロセスを単純化する。 この機能は品質保証(QA)テストライターに便利で、関連するステップ定義への即時アクセスを可能にする。 さらに、Maven Javaプロジェクトとして人気のある継続的インテグレーションとデリバリプラットフォームJenkinsにおけるこれらのメソッドの使用についても論じている。 Jenkinsとの統合により、継続的デプロイメントシナリオのより効率的なテスト自動化が容易になる。 実証研究と実践的応用は、特に大規模で複雑なソフトウェアプロジェクトにとって価値のある、テスト記述のスピードと効率を大幅に改善したことを示している。 これらのメソッドを従来のシーケンシャルなBDDプラクティスに統合することは、より効率的で効率的で持続可能なテスト自動化戦略への道を開く。

This paper presents and implements the re-usability of scenarios within scenarios for behavior-driven development (BDD) Gherkin test scripts in the Cucumber Java framework. Though the focus of the presented work is on scenario re-usability through an implementation within the Cucumber BDD Java framework, the paper also dives a little into the limitations of Cucumber single-threaded scenario execution model. This implementation increases the modularity and efficiency of the test suite. The paper also discusses VSCode step definition auto-completion integration, simplifying the test script writing process. This functionality is handy to Quality Assurance(QA) test writers, allowing instant access to relevant step definitions. In addition, the use of these methods in a popular continuous integration and delivery platform Jenkins as a Maven Java project is discussed. This integration with Jenkins, facilitates for more efficient test automation for continuous deployment scenarios. Empirical research and practical applications reveal significant improvements in the speed and efficiency of test writing, which is especially valuable for large and complex software projects. Integrating these methods into traditional sequential BDD practices paves the way towards more effective, efficient, and sustainable test automation strategies.
翻訳日:2024-02-27 16:21:55 公開日:2024-02-24
# ロジスティックロスのための大規模グラディエントディフレクション:損失の非単調性は最適化効率を向上する

Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency ( http://arxiv.org/abs/2402.15926v1 )

ライセンス: Link先を確認
Jingfeng Wu, Peter L. Bartlett, Matus Telgarsky, and Bin Yu(参考訳) 線形分離可能なデータを持つロジスティック回帰に適用する定ステップ付き勾配降下 (gd) について検討し, 定ステップ化 $\eta$ が大きすぎて, 損失は初期振動する。 すると、gd はこの初期振動位相を急速に終了し、その後$t$ の追加ステップの後に$\tilde{\mathcal{o}}(1 / (\eta t) )$ の収束率が得られる。 我々の結果は、t$ステップの予算が与えられると、gdは、運動量や可変ステップを使わずに、攻撃的なステップで$\eta:= \theta(t)$ で$\tilde{\mathcal{o}}(1/t^2)$の損失を加速できることを示している。 この証明手法は汎用性があり,一般分類損失関数($\tilde{\mathcal{o}}(1/t^2)$accelerate に対して指数的テールを必要とする)や,神経接核系における非線形予測関数,大規模ステップ化を伴うオンライン確率勾配降下 (sgd) を適切な分離条件下で処理する。

We consider gradient descent (GD) with a constant stepsize applied to logistic regression with linearly separable data, where the constant stepsize $\eta$ is so large that the loss initially oscillates. We show that GD exits this initial oscillatory phase rapidly -- in $\mathcal{O}(\eta)$ steps -- and subsequently achieves an $\tilde{\mathcal{O}}(1 / (\eta t) )$ convergence rate after $t$ additional steps. Our results imply that, given a budget of $T$ steps, GD can achieve an accelerated loss of $\tilde{\mathcal{O}}(1/T^2)$ with an aggressive stepsize $\eta:= \Theta( T)$, without any use of momentum or variable stepsize schedulers. Our proof technique is versatile and also handles general classification loss functions (where exponential tails are needed for the $\tilde{\mathcal{O}}(1/T^2)$ acceleration), nonlinear predictors in the neural tangent kernel regime, and online stochastic gradient descent (SGD) with a large stepsize, under suitable separability conditions.
翻訳日:2024-02-27 16:21:37 公開日:2024-02-24
# マルチコントリバー:Dense Retrieval Representationの分析

MultiContrievers: Analysis of Dense Retrieval Representations ( http://arxiv.org/abs/2402.15925v1 )

ライセンス: Link先を確認
Seraphina Goldfarb-Tarrant, Pedro Rodriguez, Jane Dwivedi-Yu, Patrick Lewis(参考訳) 密度の高いレトリバーはソース文書を(おそらく損失のある)ベクトル表現に圧縮するが、どの情報が保存されているか、そしてそれが下流タスクにどのように影響するかについてはほとんど分析されていない。 本研究では,高密度レトリバーが取得した情報を,それらがベースとする言語モデル(例えばBERT対Contriever)と比較して初めて解析する。 25のマルチバートチェックポイントをランダム化初期化として使用して、25のコントリエモデルからなるマルチコントリエをトレーニングします。 ウィキペディアのような文書のコントリバーベクターから、性別や職業などの特定の情報を抽出できるかどうかを検証する。 この抽出性を情報理論的探索によって測定する。 次に, 抽出可能性と性能, ジェンダーバイアスの関係と, これらの結果の無作為初期化やデータシャッフルに対する感受性について検討した。 その結果,(1)contrieverモデルは抽出性が著しく向上するが,抽出性は通常ベンチマーク性能と相関しないことがわかった。 2)ジェンダーバイアスは存在するが、コントリバー表現によるものではない 3) ランダム初期化とデータシャッフルの両方に高い感度があり, 将来の検索研究はより広い範囲で行うべきである。

Dense retrievers compress source documents into (possibly lossy) vector representations, yet there is little analysis of what information is lost versus preserved, and how it affects downstream tasks. We conduct the first analysis of the information captured by dense retrievers compared to the language models they are based on (e.g., BERT versus Contriever). We use 25 MultiBert checkpoints as randomized initialisations to train MultiContrievers, a set of 25 contriever models. We test whether specific pieces of information -- such as gender and occupation -- can be extracted from contriever vectors of wikipedia-like documents. We measure this extractability via information theoretic probing. We then examine the relationship of extractability to performance and gender bias, as well as the sensitivity of these results to many random initialisations and data shuffles. We find that (1) contriever models have significantly increased extractability, but extractability usually correlates poorly with benchmark performance 2) gender bias is present, but is not caused by the contriever representations 3) there is high sensitivity to both random initialisation and to data shuffle, suggesting that future retrieval research should test across a wider spread of both.
翻訳日:2024-02-27 16:21:08 公開日:2024-02-24
# 表面符号復号のためのプログレッシブプロクシミティビットフリップ

Progressive-Proximity Bit-Flipping for Decoding Surface Codes ( http://arxiv.org/abs/2402.15924v1 )

ライセンス: Link先を確認
Michele Pacenti, Mark F. Flanagan, Dimitris Chytas, Bane Vasic(参考訳) toricやsurface codesのようなトポロジカル量子コードは、エラーに対する堅牢性とキュービット間の局所的な相互作用のため、ハードウェア実装の優れた候補である。 既存のデコーダは、計算複雑性の低い(コードのブロック長が理想的に線形である)、デコード遅延の低い、消費電力の低いといった要件を満たしていないことが多い。 本稿では, toric および surface code 用に調整した新しいビットフリッピング(bf)デコーダを提案する。 ビットを反転するためのヒューリスティックメトリックとして近接ベクトルを導入し、有害な縮退誤差の特定のクラスを修正するための新しいサブルーチンを開発した。 我々のアルゴリズムは線形複雑性の増大を達成し、ビットワイド加算、準巡回置換、ベクトル行列乗法といった単純な演算のみを含むため、効率よく実装できる。 提案するデコーダは,2次元トーリック符号で7.5%,回転平面符号で7%の復号閾値を示す。

Topological quantum codes, such as toric and surface codes, are excellent candidates for hardware implementation due to their robustness against errors and their local interactions between qubits. However, decoding these codes efficiently remains a challenge: existing decoders often fall short of meeting requirements such as having low computational complexity (ideally linear in the code's blocklength), low decoding latency, and low power consumption. In this paper we propose a novel bit-flipping (BF) decoder tailored for toric and surface codes. We introduce the proximity vector as a heuristic metric for flipping bits, and we develop a new subroutine for correcting a particular class of harmful degenerate errors. Our algorithm achieves linear complexity growth and it can be efficiently implemented as it only involves simple operations such as bit-wise additions, quasi-cyclic permutations and vector-matrix multiplications. The proposed decoder shows a decoding threshold of 7.5% for the 2D toric code and 7% for the rotated planar code over the binary symmetric channel.
翻訳日:2024-02-27 16:20:47 公開日:2024-02-24
# 長期記憶ネットワークを用いたビデオゲームのアウトカム予測

Predicting Outcomes in Video Games with Long Short Term Memory Networks ( http://arxiv.org/abs/2402.15923v1 )

ライセンス: Link先を確認
Kittimate Chulajata, Sean Wu, Fabien Scalzo, Eun Sang Cha(参考訳) Eスポーツの勝者をリアルタイム分析で予測することは、大規模なトーナメントイベントを観戦するオーディエンスにさらなるエンゲージメントをもたらす可能性がある。 しかし、ゲーム内の様々なプレイヤー戦略や意思決定を含む予測不可能な変数のため、このようなリアルタイム予測は困難である。 本研究は,ゲームトーナメントにおける観客エンゲージメントを高めるために,リアルタイムな勝利予測手法を導入することを目的とする。 長期記憶ネットワーク(lstms)に基づく手法により,各選手の健康指標を時系列としてのみ使用することで,勝敗予測を効率的に行うことができる。 概念実証として,従来の2人プレイのアーケードゲームSuper Street Fighter II Turboにおけるモデルの性能を評価する。 また,大規模言語モデル (LLM) で見られる変圧器モデルを用いて,時系列予測のための技術手法の状態をベンチマークする。 最後に,アーケードゲームの予測分析作業を促進するために,データセットとコードをオープンソースとして公開します。

Forecasting winners in E-sports with real-time analytics has the potential to further engage audiences watching major tournament events. However, making such real-time predictions is challenging due to unpredictable variables within the game involving diverse player strategies and decision-making. Our work attempts to enhance audience engagement within video game tournaments by introducing a real-time method of predicting wins. Our Long Short Term Memory Network (LSTMs) based approach enables efficient predictions of win-lose outcomes by only using the health indicator of each player as a time series. As a proof of concept, we evaluate our model's performance within a classic, two-player arcade game, Super Street Fighter II Turbo. We also benchmark our method against state of the art methods for time series forecasting; i.e. Transformer models found in large language models (LLMs). Finally, we open-source our data set and code in hopes of furthering work in predictive analysis for arcade games.
翻訳日:2024-02-27 16:20:27 公開日:2024-02-24
# 神経電位の事前学習戦略

Pretraining Strategy for Neural Potentials ( http://arxiv.org/abs/2402.15921v1 )

ライセンス: Link先を確認
Zehua Zhang, Zijie Li, Amir Barati Farimani(参考訳) 本稿では,グラフニューラルネットワーク(gnns)のマスク事前学習法を提案する。 GNNは、分子からマスクされた原子に関連する空間情報を回収し、原子の力場に移動して微調整することで事前訓練される。 このような事前訓練を通じて、GNNは下流タスクに有用な分子系の構造的および基礎的な物理情報について有意義に学習する。 包括的実験とアブレーション実験から,提案手法は,スクラッチからトレーニングしたgnnや,デノイジングなどの他のプリトレーニング技術を用いた場合と比較して,精度と収束速度が向上することを示す。 一方,予備訓練法はエネルギー中心GNNと力中心GNNの両方に適している。 このアプローチは分子力場に適合するgnnの性能とデータ効率を向上させる可能性を示している。

We propose a mask pretraining method for Graph Neural Networks (GNNs) to improve their performance on fitting potential energy surfaces, particularly in water systems. GNNs are pretrained by recovering spatial information related to masked-out atoms from molecules, then transferred and finetuned on atomic forcefields. Through such pretraining, GNNs learn meaningful prior about structural and underlying physical information of molecule systems that are useful for downstream tasks. From comprehensive experiments and ablation studies, we show that the proposed method improves the accuracy and convergence speed compared to GNNs trained from scratch or using other pretraining techniques such as denoising. On the other hand, our pretraining method is suitable for both energy-centric and force-centric GNNs. This approach showcases its potential to enhance the performance and data efficiency of GNNs in fitting molecular force fields.
翻訳日:2024-02-27 16:20:10 公開日:2024-02-24
# Lin, Kim, Hsiehの不等式と強部分付加性について

On an inequality of Lin, Kim and Hsieh and Strong Subadditivity ( http://arxiv.org/abs/2402.15920v1 )

ライセンス: Link先を確認
Eric A. Carlen and Michael P. Loss(参考訳) 我々は、非ノイマンエントロピーの強い部分加法性を意味するLin, Kim, Hsiehの不等式の初等証明を与える。

We give an elementary proof of an inequality of Lin, Kim and Hsieh that implies strong subadditivity of the non Neumann entropy.
翻訳日:2024-02-27 16:19:55 公開日:2024-02-24
# サンドイッチgan:位相マスクを用いた抗ダズルイメージングによる画像再構成

Sandwich GAN: Image Reconstruction from Phase Mask based Anti-dazzle Imaging ( http://arxiv.org/abs/2402.15919v1 )

ライセンス: Link先を確認
Xiaopeng Peng, Erin F. Fleet, Abbie T. Watnik, Grover A. Swartzlander(参考訳) 従来のカメラシステムは、画像の過飽和化やピクセルの恒久的な損傷を引き起こすレーザーノズルの悪影響を受けやすい。 この問題に対処するため,我々は,深層神経サンドイッチネットワークとともに,瞳孔面の波面符号化マスクがレーザーとシーンの両方をぼかし,点拡散関数工学を組み合わせたアプローチを開発した。 本手法は,センサの保護に加えて,現場からレーザーを共同で除去し,良好な劣化像を再構成する。 画像復元は、学習可能な非盲点画像デコンボリューションモジュールの周りに2つの生成逆ネットワーク(GAN)をラップすることで達成される。 サンドイッチgan (sgan) を訓練し, ピークレーザー照射量10^6$のセンサ飽和しきい値(位相マスクのない裸系が損傷を生じうる点)を抑止した。 エンド・ツー・エンドのトレーニングは、画像システムの物理ベースのモデリングを含み、広く公開されているライブラリからの画像に任意の入射角度のレーザーが重畳される。 訓練されたシステムは、飽和値の最大10^4$のレーザー強度で実験室で検証された。 提案する画像復元モデルは, シーンの内容, 照明条件, レーザ強度, ノイズ特性などの他の手法を定量的に, 定性的に上回っている。

Conventional camera systems are susceptible to the adverse effects of laser dazzle, which may over-saturate an image or cause permanent damage to pixels. To address this problem, we developed an approach combining point spread function engineering whereby a wavefront-coded mask in the pupil plane blurs both the laser and scene, together with a deep neural sandwich network. In addition to protecting the sensor, our approach jointly removes the laser from the scene and reconstructs a satisfactory deblurred image. Image recovery is achieved by wrapping two generative adversarial networks (GANs) around a learnable non-blind image deconvolution module. We trained the Sandwich GAN (SGAN) to suppress the peak laser irradiance as high as $10^6$ times the sensor saturation threshold - the point at which the bare system without the phase mask may exhibit damage. The end-to-end training includes physics-based modeling of the imaging system whereby a laser having an arbitrary angle of incidence is superimposed on images from a large publicly available library. The trained system was validated in the laboratory for laser strengths up to $10^4$ times the saturation value. The proposed image restoration model quantitatively and qualitatively outperforms other methods for a wide range of scene contents, illumination conditions, laser strengths, and noise characteristics.
翻訳日:2024-02-27 16:19:52 公開日:2024-02-24
# デーモニック期待ユーティリティにおける量子相関の役割

Role of quantum correlations in daemonic expected utility ( http://arxiv.org/abs/2402.15912v1 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna(参考訳) ゆらぎは量子相関から仕事の抽出を改善する可能性に挑戦することができる。 作業抽出プロセスにおけるこの不確実性は,作業抽出に最適な方法を提供する,期待される実用性仮説に頼って対処することができる。 本研究では,二成分量子システムについて検討し,局所演算と古典的通信によるデーモニックワーク抽出における量子相関の役割について検討する。 具体的には,「絶対的リスク回避」と呼ばれる非中立的リスクエージェントがゆらぎの影響を受けて,平均的な作業によってのみ影響を受ける中立的リスクエージェントと量子相関を異なる視点で考える方法を示し,説明する。

Fluctuations can challenge the possibility of improving work extraction from quantum correlations. This uncertainty in the work extraction process can be addressed resorting to the expected utility hypothesis which can provide an optimal method for work extraction. We study a bipartite quantum system and examine the role of quantum correlations in a daemonic work extraction performed by certain local operations and classical communication. Specifically, we demonstrate and explain how, depending on the so-called absolute risk aversion, a non-neutral risk agent, influenced by fluctuations, views quantum correlations differently from a neutral risk agent who is affected solely by the average work.
翻訳日:2024-02-27 16:19:26 公開日:2024-02-24
# PRP:大規模言語モデルガード-Railsを攻撃するためのユニバーサルな摂動を推進

PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails ( http://arxiv.org/abs/2402.15911v1 )

ライセンス: Link先を確認
Neal Mangaokar, Ashish Hooda, Jihye Choi, Shreyas Chandrashekaran, Kassem Fawaz, Somesh Jha, Atul Prakash(参考訳) 大規模言語モデル(LLM)は通常、人間に無害であるように整列される。 残念なことに、最近の研究では、このようなモデルが、有害なコンテンツを生成するよう誘導する自動ジェイルブレイク攻撃の影響を受けやすいことが示されている。 より最近のllmには、プライマリllmの出力応答をチェックおよび緩和するように設計された第2のllmであるガードモデルの追加の防御層が組み込まれていることが多い。 私たちの重要な貢献は、いくつかのオープンソース(例えば、llama 2)とクローズドソース(例えばgpt 3.5)のガードモデルの実装に対して成功した、新しい攻撃戦略であるprpを示すことです。 PRPは2段階のプレフィックスベースの攻撃を利用する。 (a)ガードモデルのための普遍的敵プレフィックスの構築及び (b)この接頭辞を応答に伝達すること。 この手順は、敵がガードモデルにまったくアクセスできないようなものを含む、複数の脅威モデルにまたがって有効であることが分かりました。 我々の研究は、防衛モデルや警備モデルにさらなる進歩が必要であることを示唆している。

Large language models (LLMs) are typically aligned to be harmless to humans. Unfortunately, recent work has shown that such models are susceptible to automated jailbreak attacks that induce them to generate harmful content. More recent LLMs often incorporate an additional layer of defense, a Guard Model, which is a second LLM that is designed to check and moderate the output response of the primary LLM. Our key contribution is to show a novel attack strategy, PRP, that is successful against several open-source (e.g., Llama 2) and closed-source (e.g., GPT 3.5) implementations of Guard Models. PRP leverages a two step prefix-based attack that operates by (a) constructing a universal adversarial prefix for the Guard Model, and (b) propagating this prefix to the response. We find that this procedure is effective across multiple threat models, including ones in which the adversary has no access to the Guard Model at all. Our work suggests that further advances are required on defenses and Guard Models before they can be considered effective.
翻訳日:2024-02-27 16:19:15 公開日:2024-02-24
# ジェネレーティブ・ディバイサル・ネットワークを用いた液滴解析の高速化

Enhanced Droplet Analysis Using Generative Adversarial Networks ( http://arxiv.org/abs/2402.15909v1 )

ライセンス: Link先を確認
Tan-Hanh Pham and Kim-Doang Nguyen(参考訳) 精密装置は農業システムにおける生産品質と生産性の向上に重要な役割を果たしている。 したがって、これらの機器の最適化は精密農業に不可欠である。 近年, 深層学習の進歩に伴い, 噴霧システムの性能向上に向けたいくつかの研究が行われている。 しかし,これらの手法の有効性は,トレーニングデータセットのサイズに大きく依存する。 トレーニングサンプル不足の課題に対処するために,gan(generative adversarial networks)を用いて液滴の人工画像を生成する方法を提案する。 GANモデルは、高速カメラによってキャプチャされた小さなデータセットを使用して訓練され、徐々に解像度を上げて画像を生成することができる。 その結果、このモデルは1024\times 1024$の高品質な画像を生成することができる。 さらに,近年のコンピュータビジョンとディープラーニングの進歩を活かし,合成データセットを用いた光滴検出器の開発を行った。 その結果、検出モデルは、合成データセットを利用する場合の平均平均精度(mAP)を16.06倍に向上させる。 私たちの知る限りでは、この研究は液滴検出の強化のために生成モデルを採用した最初の例である。 その意義は、効率的な噴霧システムを構築するためのノズル設計の最適化だけでなく、様々な精密農業作業におけるデータ不足の共通の課題に対処することである。 この研究は、最適で持続可能な農業プラクティスを追求しながら、資源の保存に重要な貢献をする。

Precision devices play an important role in enhancing production quality and productivity in agricultural systems. Therefore, the optimization of these devices is essential in precision agriculture. Recently, with the advancements of deep learning, there have been several studies aiming to harness its capabilities for improving spray system performance. However, the effectiveness of these methods heavily depends on the size of the training dataset, which is expensive and time-consuming to collect. To address the challenge of insufficient training samples, this paper proposes an alternative solution by generating artificial images of droplets using generative adversarial networks (GAN). The GAN model is trained by using a small dataset captured by a high-speed camera and capable of generating images with progressively increasing resolution. The results demonstrate that the model can generate high-quality images with the size of $1024\times1024$. Furthermore, this research leverages recent advancements in computer vision and deep learning to develop a light droplet detector using the synthetic dataset. As a result, the detection model achieves a 16.06\% increase in mean average precision (mAP) when utilizing the synthetic dataset. To the best of our knowledge, this work stands as the first to employ a generative model for augmenting droplet detection. Its significance lies not only in optimizing nozzle design for constructing efficient spray systems but also in addressing the common challenge of insufficient data in various precision agriculture tasks. This work offers a critical contribution to conserving resources while striving for optimal and sustainable agricultural practices.
翻訳日:2024-02-27 16:18:55 公開日:2024-02-24
# 高速ダイナミック心臓MRIのための深部分離型時空間学習

Deep Separable Spatiotemporal Learning for Fast Dynamic Cardiac MRI ( http://arxiv.org/abs/2402.15939v1 )

ライセンス: Link先を確認
Zi Wang, Min Xiao, Yirong Zhou, Chengyan Wang, Naiming Wu, Yi Li, Yiwen Gong, Shufu Chang, Yinyin Chen, Liuhong Zhu, Jianjun Zhou, Congbo Cai, He Wang, Di Guo, Guang Yang, Xiaobo Qu(参考訳) ダイナミックMRI(Dynamic MRI)は心臓診断において不可欠である。 高速撮像を実現するため、k空間データをアンサンプできるが、画像再構成は高次元処理の大きな課題となる。 この課題は、多くのディープラーニング再構成手法で広範なトレーニングデータを必要としている。 本研究は,高度に制限されたトレーニングデータでも優れた次元分割学習方式を活用し,新規かつ効率的な手法を提案する。 さらに、時間的低ランク度と空間空間空間幅の両方で再構成モデルの繰り返し処理をアンロールするDeep Separable Spatiotemporal Learning Network(DeepSSL)を開発した。 中間出力はネットワークの動作に関する洞察を提供し、その解釈性を高めるために可視化される。 心血管データセットの広範囲な結果から,DeepSSLは最先端の手法よりも視覚的,定量的に優れているとともに,トレーニングケースの需要を最大75%削減できることがわかった。 心疾患患者に対する予備的適応性は、経験豊富な放射線科医と心臓科医の盲検者調査によって検証されている。 さらに、DeepSSLは、より精度の高い心臓セグメンテーションの下流タスクを達成することの利点もあり、将来的なリアルタイム心MRIにおいて堅牢性を示す。

Dynamic magnetic resonance imaging (MRI) plays an indispensable role in cardiac diagnosis. To enable fast imaging, the k-space data can be undersampled but the image reconstruction poses a great challenge of high-dimensional processing. This challenge leads to necessitate extensive training data in many deep learning reconstruction methods. This work proposes a novel and efficient approach, leveraging a dimension-reduced separable learning scheme that excels even with highly limited training data. We further integrate it with spatiotemporal priors to develop a Deep Separable Spatiotemporal Learning network (DeepSSL), which unrolls an iteration process of a reconstruction model with both temporal low-rankness and spatial sparsity. Intermediate outputs are visualized to provide insights into the network's behavior and enhance its interpretability. Extensive results on cardiac cine datasets show that the proposed DeepSSL is superior to the state-of-the-art methods visually and quantitatively, while reducing the demand for training cases by up to 75%. And its preliminary adaptability to cardiac patients has been verified through experienced radiologists' and cardiologists' blind reader study. Additionally, DeepSSL also benefits for achieving the downstream task of cardiac segmentation with higher accuracy and shows robustness in prospective real-time cardiac MRI.
翻訳日:2024-02-27 16:09:49 公開日:2024-02-24
# 一般化・記憶:大規模言語モデルにおけるデータ汚染と信頼できる評価

Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models ( http://arxiv.org/abs/2402.15938v1 )

ライセンス: Link先を確認
Yihong Dong, Xue Jiang, Huanyu Liu, Zhi Jin, and Ge Li(参考訳) 大規模言語モデル(LLM)の印象的な機能に関する最近のステートメントは、通常、オープンアクセスベンチマークで評価される。 LLMのトレーニングデータの膨大なサイズと広範囲のソースを考えると、明示的にまたは暗黙的にテストデータを含めることができるため、LSMはデータ汚染の影響を受けやすい。 しかし、トレーニングデータの不透明さ、モデルのブラックボックスアクセス、および合成トレーニングデータの急速な成長により、LLMのデータ汚染の検出と緩和は重大な課題に直面している。 本稿では,LCMの出力分布による汚染検出を行うCDDを提案する。 CDDは、LLMの出力分布のピーク性を特定することによって、データの汚染を検出するためにサンプルテキストのみを必要とする。 評価におけるデータ汚染の影響を軽減するため, LLMの出力分布の補正に基づいて, 出力分布による信頼に値する評価を行う。 本研究では,データ汚染検出と汚染緩和評価タスクのための2つのベンチマーク,すなわちdetconとcomievalを導入する。 広範な実験結果から,cddは他の汚染検出手法と比較して,精度,f1スコア,auc指標において平均21.8\%-30.2\%の改善を達成でき,試験データの変異による汚染を効果的に検出できることがわかった。 TEDは、データ汚染による最大66.9 %の性能改善を24の設定と21の汚染度で大幅に軽減している。 実世界の応用において,ChatGPTはHumanEvalベンチマークでデータ汚染に悩む可能性が高いことが明らかになった。

Recent statements about the impressive capabilities of large language models (LLMs) are usually supported by evaluating on open-access benchmarks. Considering the vast size and wide-ranging sources of LLMs' training data, it could explicitly or implicitly include test data, leading to LLMs being more susceptible to data contamination. However, due to the opacity of training data, the black-box access of models, and the rapid growth of synthetic training data, detecting and mitigating data contamination for LLMs faces significant challenges. In this paper, we propose CDD, which stands for Contamination Detection via output Distribution for LLMs. CDD necessitates only the sampled texts to detect data contamination, by identifying the peakedness of LLM's output distribution. To mitigate the impact of data contamination in evaluation, we also present TED: Trustworthy Evaluation via output Distribution, based on the correction of LLM's output distribution. To facilitate this study, we introduce two benchmarks, i.e., DetCon and ComiEval, for data contamination detection and contamination mitigation evaluation tasks. Extensive experimental results show that CDD achieves the average relative improvements of 21.8\%-30.2\% over other contamination detection approaches in terms of Accuracy, F1 Score, and AUC metrics, and can effectively detect contamination caused by the variants of test data. TED significantly mitigates performance improvements up to 66.9\% attributed to data contamination across 24 settings and 21 contamination degrees. In real-world applications, we reveal that ChatGPT exhibits a high potential to suffer from data contamination on HumanEval benchmark.
翻訳日:2024-02-27 16:09:27 公開日:2024-02-24
# 2次元と3次元の視覚的質問応答のギャップを埋める:3次元VQAの融合アプローチ

Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA ( http://arxiv.org/abs/2402.15933v1 )

ライセンス: Link先を確認
Wentao Mo, Yang Liu(参考訳) 3D Visual Question Answering (3D VQA)では、完全な注釈付きデータの不足と限られた視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている(ScanQAとSQAデータセットでは、800のシーンしか使われていない)。 現在のアプローチは、2次元情報による3次元推論を補助する。 過度に複雑で時として疑問のない視覚手がかりをもたらすトップダウンの2dビューを使用するか、2d vlmからグローバルに集約されたシーン/イメージレベルの表現に頼るか、細粒度の視覚言語相関を失う。 これらの限界を克服するため,本手法では,質問条件付き2次元ビュー選択手順を用いて,意味的に関連する2次元入力を特定できる。 次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。 この構造は、2次元と3次元のモダリティをコンパクトに結合し、モダリティ間の細かな相関を捉え、相互に増強することができる。 本稿では,3D-VQAのためのマルチモーダルトランスフォーマーアーキテクチャの新しい視点を提供するBridgeQAを提案する。 実験では、BridgeQAが3D-VQAデータセットの最先端を実現し、既存のソリューションを大幅に上回っていることを確認した。 コードは$\href{https://github.com/matthewdm0816/bridgeqa}{\text{this url}}$で入手できる。

In 3D Visual Question Answering (3D VQA), the scarcity of fully annotated data and limited visual content diversity hampers the generalization to novel scenes and 3D concepts (e.g., only around 800 scenes are utilized in ScanQA and SQA dataset). Current approaches resort supplement 3D reasoning with 2D information. However, these methods face challenges: either they use top-down 2D views that introduce overly complex and sometimes question-irrelevant visual clues, or they rely on globally aggregated scene/image-level representations from 2D VLMs, losing the fine-grained vision-language correlations. To overcome these limitations, our approach utilizes question-conditional 2D view selection procedure, pinpointing semantically relevant 2D inputs for crucial visual clues. We then integrate this 2D knowledge into the 3D-VQA system via a two-branch Transformer structure. This structure, featuring a Twin-Transformer design, compactly combines 2D and 3D modalities and captures fine-grained correlations between modalities, allowing them mutually augmenting each other. Integrating proposed mechanisms above, we present BridgeQA, that offers a fresh perspective on multi-modal transformer-based architectures for 3D-VQA. Experiments validate that BridgeQA achieves state-of-the-art on 3D-VQA datasets and significantly outperforms existing solutions. Code is available at $\href{https://github.com/matthewdm0816/BridgeQA}{\text{this URL}}$.
翻訳日:2024-02-27 16:08:59 公開日:2024-02-24
# フローベース分布ロバスト最適化

Flow-based Distributionally Robust Optimization ( http://arxiv.org/abs/2310.19253v4 )

ライセンス: Link先を確認
Chen Xu, Jonghyeok Lee, Xiuyuan Cheng, Yao Xie(参考訳) 計算効率のよいフレームワークである$\texttt{flowdro}$を提案し,フローベースの分散的ロバスト最適化(dro)問題をwassersteinの不確実性集合で解決し,連続的最悪ケース分布(lfdとも呼ばれる)とサンプルを求める。 lfdが連続であることの要件は、大きなサンプルサイズを持つ問題に対してアルゴリズムがスケーラブルになり、誘導ロバストアルゴリズムのより良い一般化能力を達成することである。 無限次元最適化問題に対処するために,データ分布と目標分布の間の流れモデルと連続時間可逆輸送マップを活用し,ワッサーシュタイン近似勾配型アルゴリズムを開発した。 理論上、元の定式化への最適輸送写像による解の同値性を確立するとともに、ワッサーシュタイン積分とブレニエ定理による問題の双対形式も確立する。 実際には、勾配降下によりブロックで漸進的に訓練されたニューラルネットワークの列によって輸送マップをパラメータ化する。 提案手法は,高次元実データに対して強い経験的性能を与えるデータ駆動分布摂動微分プライバシーの新たなメカニズムとして,逆学習,分布的ロバストな仮説テスト,およびその利用を実証する。

We present a computationally efficient framework, called $\texttt{FlowDRO}$, for solving flow-based distributionally robust optimization (DRO) problems with Wasserstein uncertainty sets while aiming to find continuous worst-case distribution (also called the Least Favorable Distribution, LFD) and sample from it. The requirement for LFD to be continuous is so that the algorithm can be scalable to problems with larger sample sizes and achieve better generalization capability for the induced robust algorithms. To tackle the computationally challenging infinitely dimensional optimization problem, we leverage flow-based models and continuous-time invertible transport maps between the data distribution and the target distribution and develop a Wasserstein proximal gradient flow type algorithm. In theory, we establish the equivalence of the solution by optimal transport map to the original formulation, as well as the dual form of the problem through Wasserstein calculus and Brenier theorem. In practice, we parameterize the transport maps by a sequence of neural networks progressively trained in blocks by gradient descent. We demonstrate its usage in adversarial learning, distributionally robust hypothesis testing, and a new mechanism for data-driven distribution perturbation differential privacy, where the proposed method gives strong empirical performance on high-dimensional real data.
翻訳日:2024-02-27 11:48:44 公開日:2024-02-24
# 視覚言語モデルの不確実性評価

Uncertainty-Aware Evaluation for Vision-Language Models ( http://arxiv.org/abs/2402.14418v2 )

ライセンス: Link先を確認
Vasily Kostumov, Bulat Nutfullin, Oleg Pilipenko, Eugene Ilyushin(参考訳) GPT-4、LLaVA、CagVLMといったビジョン言語モデルは最近、視覚言語タスクにおける印象的なパフォーマンスのために人気が高まっている。 しかしながら、現在の評価手法は、VLMの総合的な評価に欠かせない不確実性という重要な要素を見落としている。 本稿では,VLMの評価に不確実な定量化を取り入れたベンチマークを提案する。 VQA(Multiple-choice Visual Question Answering)タスクに着目し,20以上のVLMを対象として分析を行った。 様々な視覚言語能力を評価する5つのデータセットのモデルについて検討する。 不確実性推定手法として共形予測を用いることで,モデルの不確実性が精度と一致しないことを示す。 具体的には,高い精度を持つモデルが最も不確実性が高い可能性を示し,vlm測定の重要性を確認した。 また,実験結果から,モデル不確かさと言語モデルとの相関性も明らかとなった。

Vision-Language Models like GPT-4, LLaVA, and CogVLM have surged in popularity recently due to their impressive performance in several vision-language tasks. Current evaluation methods, however, overlook an essential component: uncertainty, which is crucial for a comprehensive assessment of VLMs. Addressing this oversight, we present a benchmark incorporating uncertainty quantification into evaluating VLMs. Our analysis spans 20+ VLMs, focusing on the multiple-choice Visual Question Answering (VQA) task. We examine models on 5 datasets that evaluate various vision-language capabilities. Using conformal prediction as an uncertainty estimation approach, we demonstrate that the models' uncertainty is not aligned with their accuracy. Specifically, we show that models with the highest accuracy may also have the highest uncertainty, which confirms the importance of measuring it for VLMs. Our empirical findings also reveal a correlation between model uncertainty and its language model part.
翻訳日:2024-02-27 11:43:28 公開日:2024-02-24
# $\infty$Bench: 100万トークンを超えて長期のコンテキスト評価を拡張する

$\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens ( http://arxiv.org/abs/2402.13718v3 )

ライセンス: Link先を確認
Xinrong Zhang and Yingfa Chen and Shengding Hu and Zihang Xu and Junhao Chen and Moo Khai Hao and Xu Han and Zhen Leng Thai and Shuo Wang and Zhiyuan Liu and Maosong Sun(参考訳) 長期にわたる処理と推論は、文書理解やエージェント構築など、大規模言語モデル(LLM)の多くの実践的応用にとって不可欠である。 LLMのプロセスコンテキストを100K以上のトークンで作成するという最近の取り組みにもかかわらず、この長期コンテキスト能力を評価するための標準ベンチマークが現在存在しない。 既存の公開ベンチマークは10Kトークンのコンテキストに重点を置いており、より長いコンテキストを処理する際のLCMの評価と比較を制限している。 本稿では,100K トークンを超える平均データ長を特徴とする最初の LLM ベンチマークである $\infty$Bench を提案する。 $\infty$Benchは、英語と中国語の両方で提示される様々なドメインにまたがる合成的で現実的なタスクである。 $\infty$Benchのタスクは、コンテキスト内の長い依存関係を十分に理解し、これらのタスクには不十分なコンテキストから限られた数のパスを取得するように設計されている。 我々の実験では、$\infty$Benchに基づいて、長いコンテキストの処理に適した最先端のプロプライエタリかつオープンソースのLLMを評価した。 その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。 さらに,llms処理の長期化に関する3つの興味深い解析を行った。

Processing and reasoning over long contexts is crucial for many practical applications of Large Language Models (LLMs), such as document comprehension and agent construction. Despite recent strides in making LLMs process contexts with more than 100K tokens, there is currently a lack of a standardized benchmark to evaluate this long-context capability. Existing public benchmarks typically focus on contexts around 10K tokens, limiting the assessment and comparison of LLMs in processing longer contexts. In this paper, we propose $\infty$Bench, the first LLM benchmark featuring an average data length surpassing 100K tokens. $\infty$Bench comprises synthetic and realistic tasks spanning diverse domains, presented in both English and Chinese. The tasks in $\infty$Bench are designed to require well understanding of long dependencies in contexts, and make simply retrieving a limited number of passages from contexts not sufficient for these tasks. In our experiments, based on $\infty$Bench, we evaluate the state-of-the-art proprietary and open-source LLMs tailored for processing long contexts. The results indicate that existing long context LLMs still require significant advancements to effectively process 100K+ context. We further present three intriguing analyses regarding the behavior of LLMs processing long context.
翻訳日:2024-02-27 11:42:37 公開日:2024-02-24
# UniEdit:ビデオモーションと外観編集のための統合チューニングフリーフレームワーク

UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing ( http://arxiv.org/abs/2402.13185v3 )

ライセンス: Link先を確認
Jianhong Bai, Tianyu He, Yuchi Wang, Junliang Guo, Haoji Hu, Zuozhu Liu, Jiang Bian(参考訳) テキストガイドビデオ編集の最近の進歩は、外観編集(例えばスタイライゼーション)に有望な結果をもたらしている。 しかし、映像編集と映像編集を区別する時間的次元(例えば、食事から手振りまで)の動画モーション編集は過小評価されている。 Inversion-then-generation framework内で,事前学習したテキスト・ツー・ビデオ・ジェネレータのパワーを活用することで,動画の動作と外観編集の両方をサポートするチューニング不要フレームワークUniEditを提案する。 フレーム間およびフレーム間依存関係をそれぞれコードする時間的自己注意層と空間的自己意識層とに基づいて、映像コンテンツを保存しながら、モーション編集を実現するため、テキスト誘導動作とソース特徴をそれぞれ生成するために、補助的な動き参照と再構成分岐を導入する。 得られた特徴は、時間的および空間的自己アテンション層を介して主編集経路に注入される。 広範な実験により、unieditはビデオモーション編集と様々な外観編集シナリオをカバーし、最先端の手法を上回っていることが示されている。 私たちのコードは公開されます。

Recent advances in text-guided video editing have showcased promising results in appearance editing (e.g., stylization). However, video motion editing in the temporal dimension (e.g., from eating to waving), which distinguishes video editing from image editing, is underexplored. In this work, we present UniEdit, a tuning-free framework that supports both video motion and appearance editing by harnessing the power of a pre-trained text-to-video generator within an inversion-then-generation framework. To realize motion editing while preserving source video content, based on the insights that temporal and spatial self-attention layers encode inter-frame and intra-frame dependency respectively, we introduce auxiliary motion-reference and reconstruction branches to produce text-guided motion and source features respectively. The obtained features are then injected into the main editing path via temporal and spatial self-attention layers. Extensive experiments demonstrate that UniEdit covers video motion editing and various appearance editing scenarios, and surpasses the state-of-the-art methods. Our code will be publicly available.
翻訳日:2024-02-27 11:42:17 公開日:2024-02-24